公司被告知"AI 预算太大了"，先做什么？

按顺序做三件事。(1) 看按用户的用量，确认前 5% 的用户占整体的百分比（往往 50% 以上）。(2) 访谈这些重度用户的工作流程，识别浪费模式。(3) 在公司内部分发一份"缓存、模型路由、输出预算"指南，每月汇报进展。如果你和 Anthropic / OpenAI 的 Enterprise 客户经理沟通，还能拿到免费的优化评审。

AI token 成本节省指南——三大杠杆压到 20-30%

Q: 我每天用 Claude Code，是 Pro $20 划算还是 Max $200 划算？

每天用 2 小时以上，几乎肯定是 Max 更划算。Pro 很快就撞速率上限，挫败感累积，最终又会流失到 API 计费。Max 可以无忧地连用数小时。Anthropic 自己的宣传也默认 Pro 用户只是&quot;轻度&quot;使用 Claude Code。

Q: 使用提示缓存需要特殊配置吗？

在 API 上必须显式标注 cache_control 块。默认不生效。Claude Code / Cursor 等集成工具内部往往会自动使用，但如果你自己调 API，必须声明。详见 Anthropic 官方文档。

Q: ChatGPT 与 Claude，哪个更具成本效益？

视用例而定。对于长时自主任务和复杂编码，Claude（尤其配合缓存）通常更便宜。对于短问答和终端自动化，GPT-5.5 mini 极便宜（输入 $0.60）。&quot;两个都订，按场景挑&quot;也很务实。

Q: 怎么判断&quot;Haiku 已经够了&quot;？

做三步实验。(1) 先在 Opus 上跑通。(2) 同一个提示发给 Sonnet 比对质量。(3) 如果 Sonnet 看上去差不多，再试 Haiku。许多日常任务里，Haiku 与 Opus 的差距小到察觉不到。把 Opus 留给真正需要深度判断或推理的场景。

Q: 个人用户应该直接调 API 吗？

看情况。对于每天 2 小时以上的交互式编码，Max 套餐（$100/$200）压倒性更省事。对于把 AI 嵌入自家应用、批处理或自动化，直接 API 必不可少。两者并用的人也不少。

Q: 账单告警阈值该设多少？

对个人开发者，比较现实的设置是：第一档告警为常规月支出的 1.5 倍，自动停机为 3 倍。例：通常每月花 $30，则告警 $50、停机 $100。初期可设更细的告警如每天 $5培养直觉，之后再放宽。

1. 为什么 AI 账单会悄悄膨胀
2. 成本拆解——输入、输出、缓存、工具
3. 套餐选择及其节省效果
4. 提示缓存——单点最强杠杆
5. 上下文管理——/compact 与拆分
6. 模型选择——按任务路由
7. 管理输出预算
8. 多智能体陷阱——15 倍 token
9. 监控与账单告警
10. 七种常见浪费模式
总结
FAQ

"我之前用 ChatGPT Plus，换成 Claude Code 后月账单涨了 10 倍。"——进入 2026 年，这种抱怨在工程师群体里激增。AI 工具固然好用，但不懂用法的话，每月几万美元会悄无声息地蒸发。

好消息是：组合使用三大杠杆（提示缓存、模型路由、输出预算），同样的工作量可以压到未优化成本的 20-30%。本文综合 Anthropic 官方指引、行业研究与真实运维数据，告诉你如何合法地节省 AI 工具开销。

三大杠杆 · 2026

压缩到未优化成本的 20-30%

— 实际案例：每月 $30K 降至 $6-9K

杠杆 1 缓存

-60 至 90%

提示缓存大幅削减输入成本。对反复使用相同 system prompt 的生产负载效果最佳。

杠杆 2 模型选择

-50 至 80%

按任务在 Opus / Sonnet / Haiku 之间路由。十项任务里有八项用更便宜的模型也够。

杠杆 3 输出预算

-30 至 60%

用 max_tokens 设上限并要求"简短回答"。输出 token 比输入贵 5-6 倍。

三大杠杆同时使用时效果会相乘。
"只用缓存"或"只挑模型"都会留下未省的钱——三管齐下才是本文的核心论点。

1. 为什么 AI 账单会悄悄膨胀

AI 工具有两类计费方式：个人套餐（固定费率）与 API 计费（按用量）。账单爆炸的主要是后者。

个人套餐：ChatGPT Plus 每月 $20，Claude Pro 每月 $20，Max 每月 $100-200。固定成本，因此即便重度使用也有上限（伴随速率限制）。
API 计费：按 token、按用量计费。Cursor / Claude Code / 自研 AI 应用，以及 Lovable / Bolt.new 之类都属于此类。用得不当，月账单会跳一个量级。

之所以会出现"突然 $300"或"一天烧掉 $50"：(1) 输出 token 比输入贵 5-6 倍、(2) 上下文越长，每轮整段重发的量越大、(3) 后台会多次调用子智能体、(4) 一旦陷入循环就停不下来——这些会叠加放大。理解机制后，每一项都可修复。

2. 成本拆解——输入、输出、缓存、工具

以 Claude Opus 4.7 API 价格（截至 2026 年 5 月）为例，钱花在了哪里。

项目	单价	说明
输入 token	$5 / 1M tokens	你发送的内容：提示词 + 对话历史 + 文件等。
输出 token	$25 / 1M tokens	AI 返回的内容。比输入贵 5 倍。
缓存写入	$6.25 / 1M tokens（1.25 倍）	写入 5 分钟 TTL 的缓存（仅首次写入更贵）。
缓存写入（1 小时）	$10 / 1M tokens（2 倍）	写入 1 小时 TTL 的缓存。保留更久但写入更贵。
缓存读取	$0.50 / 1M tokens（10%）	仅为输入价的 10%。是节费的明星。
工具调用	—（已包含）	工具定义属于上下文的一部分。工具越多，输入越胖。

简而言之，"放在缓存里的内容只要十分之一的价格就能读出来。"这是 2026 年最大的一个节费杠杆。

3. 套餐选择及其节省效果

一旦能预测自己的使用方式，就先切到合适的套餐。

使用情况	推荐套餐	月度目标	注意事项
兴趣、学习、每周几次	Claude Free / ChatGPT Free	$0	有速率限制；不可用于工作数据。
个人，每日数小时	Claude Pro / ChatGPT Plus	$20	个人套餐；不可用于工作数据。
个人重度使用	Claude Max	$100-200	速率上限更高；推荐用于 Claude Code。
团队工作	Claude Team / ChatGPT Team	每用户 $25-30	可用于工作数据；数据不会用于训练。
大型组织	Enterprise	销售报价	SSO、审计日志、SLA。
嵌入式 AI 开发	直接调用 API（Anthropic / OpenAI）	按用量	用好缓存与批处理。

如果你打算"认真地每天用几个小时" Claude Code，Max 套餐（$100 或 $200）几乎一定是正解。比直接调 API 便宜，速率限制也基本够用。Cursor 也有 Pro $20、Ultra $200 等档位。

4. 提示缓存——单点最强杠杆

如果你直接调用 API，提示缓存是"没理由不用"的节费工具。Anthropic 自己也称其为"2026 年最被低估的成本优化工具"。

工作机制

当你在多次请求中复用相同的 system prompt 或同一份文档时，首次调用会写入缓存（成本 1.25 倍）。之后的每次调用都按输入价的 10% 从缓存读取。

盈亏平衡的算账

5 分钟 TTL（写入 1.25 倍）：读 2 次回本
1 小时 TTL（写入 2 倍）：读 5 次回本
生产环境经验法则：5 分钟 TTL 读 3 次以上、或 1 小时 TTL 读 5 次以上，就稳赚

2026 年的重要变化

2026 年初，Anthropic 将提示缓存默认 TTL 从 60 分钟缩短到 5 分钟。如果你的生产系统没察觉地继续运行，实际成本已经上涨 30-60%。被"旧直觉"困住的开发者正在悄悄亏钱——这是 2026 年的隐性问题。

5. 上下文管理——/compact 与拆分

用 Claude Code 或 Cursor 一段时间后，长对话进行到一半时你会发现"为什么每轮都在发 10 万 token？"不是输出在膨胀，而是输入（= 过往对话）在持续变胖。

战术 1：积极使用 `/compact`

Claude Code 提供 /compact 命令。它会把对话历史总结并压缩，重新生成上下文窗口。20 万 token 可压到 5,000。会话超过 30 分钟就该考虑用一次。

战术 2：按任务拆分会话

不要在同一段长对话里同时做"实现功能 A"、"修复 Bug B"、"生成文档 C"——开新会话。每项任务结束就关掉会话。如需长期记忆，写到记忆文件里。

战术 3：用 Hooks 削减噪声

Claude Agent SDK / Claude Code 提供 Hooks，可以在工具输出送达 AI 之前进行加工。例如：通过 Hook 把冗长的 npm install 日志压缩成"成功/失败"。仅此一项每轮就能省下数千 token。

6. 模型选择——按任务路由

"始终用 Opus"是百万富翁的玩法。大多数任务用 Sonnet 或 Haiku 就有足够质量。Anthropic 官方价格比例如下（2026 年 5 月）。

模型	输入	输出	擅长场景
Claude Opus 4.7	$5	$25	复杂设计、推理、长时自主任务
Claude Sonnet 4.7	$3	$15	日常编码、分析、摘要
Claude Haiku 4.5	$0.80	$4	分类、抽取、短文本转换、实时响应
GPT-5.5	$5	$30	规划、执行、终端控制
GPT-5.5 mini	$0.60	$2.40	轻量任务

Opus 比 Haiku 大约贵 6 倍。仅按任务路由就能带来巨大节省。判断标准：

用 Opus 的场景：复杂重构、跨多文件设计、深度推理、探索陌生领域
用 Sonnet 的场景：日常编码、分析、摘要、代码评审、补测试
用 Haiku 的场景：分类、抽取、格式转换、实时建议、生成提交信息

7. 管理输出预算

输出 token 比输入贵 5-6 倍。这里能省下的钱很可观。

三种做法

显式设置 max_tokens：在 API 调用中用 max_tokens: 1000 之类设上限。默认无限制是危险的。
在提示中加入"简短回答"或"五条要点"：AI 是会听的。压制冗余的前言、总结与寒暄。
结构化输出（JSON 模式）：JSON 比散文更短。如果你的应用要消费结果，这是正解。

对于不需要"长篇优美回答"的场景（分类、抽取、决策），狠狠压短反而更具成本效益。

8. 多智能体陷阱——15 倍 token

2026 年的潮流——多智能体架构（编排器 + 并行子智能体）虽然强大，但 Anthropic 自己也公开表示"token 消耗大约是单智能体的 15 倍"。

节省视角下的判断标准

清晰、按序执行的任务（单文件编辑、摘要、代码评审）→单智能体已足够
能显著缩短墙钟时间的并行场景→多智能体值得
"默认就用多智能体"在经济上是错的。从单智能体起步，只把真正能看见的瓶颈拆出去。

详情参见什么是多智能体？

9. 监控与账单告警

要避免"突然 $500"的惊吓，例行监控 + 告警是必备的。

API 用户

在 Anthropic Console / OpenAI Dashboard 检查每日 token 消耗
设置使用上限：超过每月 $200 自动停止等。无上限 = 危险。
账单告警：$50 发邮件、$100 发 Slack——分级阈值。

Claude Code 用户

用 /cost 查看当前会话的 token 消耗与预估花费
把每天结束时检查 /cost 养成习惯

组织管理员

按用户的使用报告（Anthropic Team / Enterprise 管理控制台）
异常检测（标记消耗达到日常 3 倍的人）
每季度全公司分享一次"浪费模式"

10. 七种常见浪费模式

模式	问题所在	修复方法
每轮重新附上所有文件	缓存不生效；输入暴涨	不变的文档发一次并缓存
同一个问题既问 ChatGPT 又问 Claude	同一份输入在两个套餐里付两次钱	选一个
不用 `/compact` 持续长对话	每轮都重发完整历史	30 分钟后用 `/compact`
用 Opus 做简单分类或抽取	同样结果付 Haiku 6 倍的钱	模型与任务匹配
反复说"再润色一些"/"再长一点"	输出 token 不断累积	开头就说清想要的长度
定义大量用不上的工具	工具定义会带进上下文	只定义会用到的
动不动就上多智能体	是单智能体的 15 倍 token	有明确需要时再用

总结

AI 成本优化的三大杠杆：提示缓存、模型路由、输出预算。组合使用可压到未优化成本的 20-30%。
缓存读取 = 输入价的 10%。对生产负载可省 60-90%。当心 2026 年初 TTL 缩短（60 分 → 5 分），忽略它实际成本会涨 30-60%。
模型选择：Opus 比 Haiku 大约贵 6 倍。八成任务用 Sonnet/Haiku 就够。
输出预算：输出 token 比输入贵 5-6 倍。显式设 max_tokens 并要求"简短"。
上下文管理：每个会话超过 30 分钟用一次 /compact，按任务拆分，用 Hooks 压缩输出。
多智能体陷阱：是单智能体的 15 倍 token。仅在有明确需要时使用。
监控：使用上限、账单告警、查看 /cost 都要养成习惯。
留意并避开七种常见浪费模式。

FAQ

Q1. 我每天用 Claude Code，是 Pro $20 划算还是 Max $200 划算？

每天用 2 小时以上，几乎肯定是 Max 更划算。Pro 很快就撞速率上限，挫败感累积，最终又会流失到 API 计费。Max 可以无忧地连用数小时。Anthropic 自己的宣传也默认 Pro 用户只是"轻度"使用 Claude Code。

Q2. 使用提示缓存需要特殊配置吗？

在 API 上必须显式标注 cache_control 块。默认不生效。Claude Code / Cursor 等集成工具内部往往会自动使用，但如果你自己调 API，必须声明。详见 Anthropic 官方文档。

Q3. ChatGPT 与 Claude，哪个更具成本效益？

视用例而定。对于长时自主任务和复杂编码，Claude（尤其配合缓存）通常更便宜。对于短问答和终端自动化，GPT-5.5 mini 极便宜（输入 $0.60）。"两个都订，按场景挑"也很务实。

Q4. 怎么判断"Haiku 已经够了"？

做三步实验。(1) 先在 Opus 上跑通。(2) 同一个提示发给 Sonnet 比对质量。(3) 如果 Sonnet 看上去差不多，再试 Haiku。许多日常任务里，Haiku 与 Opus 的差距小到察觉不到。把 Opus 留给真正需要深度判断或推理的场景。

Q5. 个人用户应该直接调 API 吗？

看情况。对于每天 2 小时以上的交互式编码，Max 套餐（$100/$200）压倒性更省事。对于把 AI 嵌入自家应用、批处理或自动化，直接 API 必不可少。两者并用的人也不少。

Q6. 账单告警阈值该设多少？

对个人开发者，比较现实的设置是：第一档告警为常规月支出的 1.5 倍，自动停机为 3 倍。例：通常每月花 $30，则告警 $50、停机 $100。初期可设更细的告警如每天 $5培养直觉，之后再放宽。

Q7. 公司被告知"AI 预算太大了"，先做什么？

按顺序做三件事。(1) 看按用户的用量，确认前 5% 的用户占整体的百分比（往往 50% 以上）。(2) 访谈这些重度用户的工作流程，识别浪费模式。(3) 在公司内部分发一份"缓存、模型路由、输出预算"指南，每月汇报进展。如果你和 Anthropic / OpenAI 的 Enterprise 客户经理沟通，还能拿到免费的优化评审。