"我之前用 ChatGPT Plus,换成 Claude Code 后月账单涨了 10 倍。"——进入 2026 年,这种抱怨在工程师群体里激增。AI 工具固然好用,但不懂用法的话,每月几万美元会悄无声息地蒸发

好消息是:组合使用三大杠杆(提示缓存、模型路由、输出预算),同样的工作量可以压到未优化成本的 20-30%。本文综合 Anthropic 官方指引、行业研究与真实运维数据,告诉你如何合法地节省 AI 工具开销。

三大杠杆 · 2026

压缩到未优化成本的 20-30%

— 实际案例:每月 $30K 降至 $6-9K

杠杆 1 缓存
-60 至 90%
提示缓存大幅削减输入成本。对反复使用相同 system prompt 的生产负载效果最佳。
杠杆 2 模型选择
-50 至 80%
按任务在 Opus / Sonnet / Haiku 之间路由。十项任务里有八项用更便宜的模型也够。
杠杆 3 输出预算
-30 至 60%
用 max_tokens 设上限并要求"简短回答"。输出 token 比输入贵 5-6 倍。

三大杠杆同时使用时效果会相乘
"只用缓存"或"只挑模型"都会留下未省的钱——三管齐下才是本文的核心论点。

1. 为什么 AI 账单会悄悄膨胀

AI 工具有两类计费方式:个人套餐(固定费率)API 计费(按用量)。账单爆炸的主要是后者。

  • 个人套餐:ChatGPT Plus 每月 $20,Claude Pro 每月 $20,Max 每月 $100-200。固定成本,因此即便重度使用也有上限(伴随速率限制)。
  • API 计费:按 token、按用量计费。Cursor / Claude Code / 自研 AI 应用,以及 Lovable / Bolt.new 之类都属于此类。用得不当,月账单会跳一个量级。

之所以会出现"突然 $300"或"一天烧掉 $50":(1) 输出 token 比输入贵 5-6 倍(2) 上下文越长,每轮整段重发的量越大(3) 后台会多次调用子智能体(4) 一旦陷入循环就停不下来——这些会叠加放大。理解机制后,每一项都可修复。

2. 成本拆解——输入、输出、缓存、工具

以 Claude Opus 4.7 API 价格(截至 2026 年 5 月)为例,钱花在了哪里。

项目单价说明
输入 token$5 / 1M tokens你发送的内容:提示词 + 对话历史 + 文件等。
输出 token$25 / 1M tokensAI 返回的内容。比输入贵 5 倍。
缓存写入$6.25 / 1M tokens(1.25 倍)写入 5 分钟 TTL 的缓存(仅首次写入更贵)。
缓存写入(1 小时)$10 / 1M tokens(2 倍)写入 1 小时 TTL 的缓存。保留更久但写入更贵。
缓存读取$0.50 / 1M tokens(10%)仅为输入价的 10%。是节费的明星。
工具调用—(已包含)工具定义属于上下文的一部分。工具越多,输入越胖。

简而言之,"放在缓存里的内容只要十分之一的价格就能读出来。"这是 2026 年最大的一个节费杠杆。

3. 套餐选择及其节省效果

一旦能预测自己的使用方式,就先切到合适的套餐。

使用情况推荐套餐月度目标注意事项
兴趣、学习、每周几次Claude Free / ChatGPT Free$0有速率限制;不可用于工作数据。
个人,每日数小时Claude Pro / ChatGPT Plus$20个人套餐;不可用于工作数据。
个人重度使用Claude Max$100-200速率上限更高;推荐用于 Claude Code。
团队工作Claude Team / ChatGPT Team每用户 $25-30可用于工作数据;数据不会用于训练。
大型组织Enterprise销售报价SSO、审计日志、SLA。
嵌入式 AI 开发直接调用 API(Anthropic / OpenAI)按用量用好缓存与批处理。

如果你打算"认真地每天用几个小时" Claude Code,Max 套餐($100 或 $200)几乎一定是正解。比直接调 API 便宜,速率限制也基本够用。Cursor 也有 Pro $20、Ultra $200 等档位。

4. 提示缓存——单点最强杠杆

如果你直接调用 API,提示缓存是"没理由不用"的节费工具。Anthropic 自己也称其为"2026 年最被低估的成本优化工具"

工作机制

当你在多次请求中复用相同的 system prompt 或同一份文档时,首次调用会写入缓存(成本 1.25 倍)。之后的每次调用都按输入价的 10% 从缓存读取

盈亏平衡的算账

  • 5 分钟 TTL(写入 1.25 倍):读 2 次回本
  • 1 小时 TTL(写入 2 倍):读 5 次回本
  • 生产环境经验法则:5 分钟 TTL 读 3 次以上、或 1 小时 TTL 读 5 次以上,就稳赚

2026 年的重要变化

2026 年初,Anthropic 将提示缓存默认 TTL 从 60 分钟缩短到 5 分钟。如果你的生产系统没察觉地继续运行,实际成本已经上涨 30-60%。被"旧直觉"困住的开发者正在悄悄亏钱——这是 2026 年的隐性问题。

推荐模式

对生产应用:

  • system prompt + 工具定义:用 1 小时 TTL 缓存(不会变动的部分)
  • 对话历史的前半段:用 5 分钟 TTL 缓存(短窗口内会被反复访问的部分)

如果你的缓存命中率(cache_read / (cache_read + input)低于 60%,就还有优化空间。生产环境应瞄准 80% 以上。

5. 上下文管理——/compact 与拆分

用 Claude Code 或 Cursor 一段时间后,长对话进行到一半时你会发现"为什么每轮都在发 10 万 token?"不是输出在膨胀,而是输入(= 过往对话)在持续变胖。

战术 1:积极使用 /compact

Claude Code 提供 /compact 命令。它会把对话历史总结并压缩,重新生成上下文窗口。20 万 token 可压到 5,000。会话超过 30 分钟就该考虑用一次。

战术 2:按任务拆分会话

不要在同一段长对话里同时做"实现功能 A"、"修复 Bug B"、"生成文档 C"——开新会话。每项任务结束就关掉会话。如需长期记忆,写到记忆文件里。

战术 3:用 Hooks 削减噪声

Claude Agent SDK / Claude Code 提供 Hooks,可以在工具输出送达 AI 之前进行加工。例如:通过 Hook 把冗长的 npm install 日志压缩成"成功/失败"。仅此一项每轮就能省下数千 token。

6. 模型选择——按任务路由

"始终用 Opus"是百万富翁的玩法。大多数任务用 Sonnet 或 Haiku 就有足够质量。Anthropic 官方价格比例如下(2026 年 5 月)。

模型输入输出擅长场景
Claude Opus 4.7$5$25复杂设计、推理、长时自主任务
Claude Sonnet 4.7$3$15日常编码、分析、摘要
Claude Haiku 4.5$0.80$4分类、抽取、短文本转换、实时响应
GPT-5.5$5$30规划、执行、终端控制
GPT-5.5 mini$0.60$2.40轻量任务

Opus 比 Haiku 大约贵 6 倍。仅按任务路由就能带来巨大节省。判断标准:

  • 用 Opus 的场景:复杂重构、跨多文件设计、深度推理、探索陌生领域
  • 用 Sonnet 的场景:日常编码、分析、摘要、代码评审、补测试
  • 用 Haiku 的场景:分类、抽取、格式转换、实时建议、生成提交信息

7. 管理输出预算

输出 token 比输入贵 5-6 倍。这里能省下的钱很可观。

三种做法

  • 显式设置 max_tokens:在 API 调用中用 max_tokens: 1000 之类设上限。默认无限制是危险的。
  • 在提示中加入"简短回答"或"五条要点":AI 是会听的。压制冗余的前言、总结与寒暄。
  • 结构化输出(JSON 模式):JSON 比散文更短。如果你的应用要消费结果,这是正解。

对于不需要"长篇优美回答"的场景(分类、抽取、决策),狠狠压短反而更具成本效益。

8. 多智能体陷阱——15 倍 token

2026 年的潮流——多智能体架构(编排器 + 并行子智能体)虽然强大,但 Anthropic 自己也公开表示"token 消耗大约是单智能体的 15 倍"

节省视角下的判断标准

  • 清晰、按序执行的任务(单文件编辑、摘要、代码评审)→单智能体已足够
  • 能显著缩短墙钟时间的并行场景→多智能体值得
  • "默认就用多智能体"在经济上是错的。从单智能体起步,只把真正能看见的瓶颈拆出去。

详情参见什么是多智能体?

9. 监控与账单告警

要避免"突然 $500"的惊吓,例行监控 + 告警是必备的。

API 用户

  • Anthropic Console / OpenAI Dashboard 检查每日 token 消耗
  • 设置使用上限:超过每月 $200 自动停止等。无上限 = 危险。
  • 账单告警:$50 发邮件、$100 发 Slack——分级阈值。

Claude Code 用户

  • /cost 查看当前会话的 token 消耗与预估花费
  • 把每天结束时检查 /cost 养成习惯

组织管理员

  • 按用户的使用报告(Anthropic Team / Enterprise 管理控制台)
  • 异常检测(标记消耗达到日常 3 倍的人)
  • 每季度全公司分享一次"浪费模式"

10. 七种常见浪费模式

模式问题所在修复方法
每轮重新附上所有文件缓存不生效;输入暴涨不变的文档发一次并缓存
同一个问题既问 ChatGPT 又问 Claude同一份输入在两个套餐里付两次钱选一个
不用 /compact 持续长对话每轮都重发完整历史30 分钟后用 /compact
用 Opus 做简单分类或抽取同样结果付 Haiku 6 倍的钱模型与任务匹配
反复说"再润色一些"/"再长一点"输出 token 不断累积开头就说清想要的长度
定义大量用不上的工具工具定义会带进上下文只定义会用到的
动不动就上多智能体是单智能体的 15 倍 token有明确需要时再用

总结

  • AI 成本优化的三大杠杆:提示缓存、模型路由、输出预算。组合使用可压到未优化成本的 20-30%。
  • 缓存读取 = 输入价的 10%。对生产负载可省 60-90%。当心 2026 年初 TTL 缩短(60 分 → 5 分),忽略它实际成本会涨 30-60%。
  • 模型选择:Opus 比 Haiku 大约贵 6 倍。八成任务用 Sonnet/Haiku 就够。
  • 输出预算:输出 token 比输入贵 5-6 倍。显式设 max_tokens 并要求"简短"。
  • 上下文管理:每个会话超过 30 分钟用一次 /compact,按任务拆分,用 Hooks 压缩输出。
  • 多智能体陷阱:是单智能体的 15 倍 token。仅在有明确需要时使用。
  • 监控:使用上限、账单告警、查看 /cost 都要养成习惯。
  • 留意并避开七种常见浪费模式。

FAQ

Q1. 我每天用 Claude Code,是 Pro $20 划算还是 Max $200 划算?

每天用 2 小时以上,几乎肯定是 Max 更划算。Pro 很快就撞速率上限,挫败感累积,最终又会流失到 API 计费。Max 可以无忧地连用数小时。Anthropic 自己的宣传也默认 Pro 用户只是"轻度"使用 Claude Code。

Q2. 使用提示缓存需要特殊配置吗?

在 API 上必须显式标注 cache_control。默认不生效。Claude Code / Cursor 等集成工具内部往往会自动使用,但如果你自己调 API,必须声明。详见 Anthropic 官方文档。

Q3. ChatGPT 与 Claude,哪个更具成本效益?

视用例而定。对于长时自主任务和复杂编码,Claude(尤其配合缓存)通常更便宜。对于短问答和终端自动化,GPT-5.5 mini 极便宜(输入 $0.60)。"两个都订,按场景挑"也很务实。

Q4. 怎么判断"Haiku 已经够了"?

做三步实验。(1) 先在 Opus 上跑通。(2) 同一个提示发给 Sonnet 比对质量。(3) 如果 Sonnet 看上去差不多,再试 Haiku。许多日常任务里,Haiku 与 Opus 的差距小到察觉不到。把 Opus 留给真正需要深度判断或推理的场景。

Q5. 个人用户应该直接调 API 吗?

看情况。对于每天 2 小时以上的交互式编码,Max 套餐($100/$200)压倒性更省事。对于把 AI 嵌入自家应用、批处理或自动化,直接 API 必不可少。两者并用的人也不少。

Q6. 账单告警阈值该设多少?

对个人开发者,比较现实的设置是:第一档告警为常规月支出的 1.5 倍,自动停机为 3 倍。例:通常每月花 $30,则告警 $50、停机 $100。初期可设更细的告警如每天 $5培养直觉,之后再放宽。

Q7. 公司被告知"AI 预算太大了",先做什么?

按顺序做三件事。(1) 看按用户的用量,确认前 5% 的用户占整体的百分比(往往 50% 以上)。(2) 访谈这些重度用户的工作流程,识别浪费模式。(3) 在公司内部分发一份"缓存、模型路由、输出预算"指南,每月汇报进展。如果你和 Anthropic / OpenAI 的 Enterprise 客户经理沟通,还能拿到免费的优化评审