目录
"我之前用 ChatGPT Plus,换成 Claude Code 后月账单涨了 10 倍。"——进入 2026 年,这种抱怨在工程师群体里激增。AI 工具固然好用,但不懂用法的话,每月几万美元会悄无声息地蒸发。
好消息是:组合使用三大杠杆(提示缓存、模型路由、输出预算),同样的工作量可以压到未优化成本的 20-30%。本文综合 Anthropic 官方指引、行业研究与真实运维数据,告诉你如何合法地节省 AI 工具开销。
压缩到未优化成本的 20-30%
— 实际案例:每月 $30K 降至 $6-9K
三大杠杆同时使用时效果会相乘。
"只用缓存"或"只挑模型"都会留下未省的钱——三管齐下才是本文的核心论点。
1. 为什么 AI 账单会悄悄膨胀
AI 工具有两类计费方式:个人套餐(固定费率)与 API 计费(按用量)。账单爆炸的主要是后者。
- 个人套餐:ChatGPT Plus 每月 $20,Claude Pro 每月 $20,Max 每月 $100-200。固定成本,因此即便重度使用也有上限(伴随速率限制)。
- API 计费:按 token、按用量计费。Cursor / Claude Code / 自研 AI 应用,以及 Lovable / Bolt.new 之类都属于此类。用得不当,月账单会跳一个量级。
之所以会出现"突然 $300"或"一天烧掉 $50":(1) 输出 token 比输入贵 5-6 倍、(2) 上下文越长,每轮整段重发的量越大、(3) 后台会多次调用子智能体、(4) 一旦陷入循环就停不下来——这些会叠加放大。理解机制后,每一项都可修复。
2. 成本拆解——输入、输出、缓存、工具
以 Claude Opus 4.7 API 价格(截至 2026 年 5 月)为例,钱花在了哪里。
| 项目 | 单价 | 说明 |
|---|---|---|
| 输入 token | $5 / 1M tokens | 你发送的内容:提示词 + 对话历史 + 文件等。 |
| 输出 token | $25 / 1M tokens | AI 返回的内容。比输入贵 5 倍。 |
| 缓存写入 | $6.25 / 1M tokens(1.25 倍) | 写入 5 分钟 TTL 的缓存(仅首次写入更贵)。 |
| 缓存写入(1 小时) | $10 / 1M tokens(2 倍) | 写入 1 小时 TTL 的缓存。保留更久但写入更贵。 |
| 缓存读取 | $0.50 / 1M tokens(10%) | 仅为输入价的 10%。是节费的明星。 |
| 工具调用 | —(已包含) | 工具定义属于上下文的一部分。工具越多,输入越胖。 |
简而言之,"放在缓存里的内容只要十分之一的价格就能读出来。"这是 2026 年最大的一个节费杠杆。
3. 套餐选择及其节省效果
一旦能预测自己的使用方式,就先切到合适的套餐。
| 使用情况 | 推荐套餐 | 月度目标 | 注意事项 |
|---|---|---|---|
| 兴趣、学习、每周几次 | Claude Free / ChatGPT Free | $0 | 有速率限制;不可用于工作数据。 |
| 个人,每日数小时 | Claude Pro / ChatGPT Plus | $20 | 个人套餐;不可用于工作数据。 |
| 个人重度使用 | Claude Max | $100-200 | 速率上限更高;推荐用于 Claude Code。 |
| 团队工作 | Claude Team / ChatGPT Team | 每用户 $25-30 | 可用于工作数据;数据不会用于训练。 |
| 大型组织 | Enterprise | 销售报价 | SSO、审计日志、SLA。 |
| 嵌入式 AI 开发 | 直接调用 API(Anthropic / OpenAI) | 按用量 | 用好缓存与批处理。 |
如果你打算"认真地每天用几个小时" Claude Code,Max 套餐($100 或 $200)几乎一定是正解。比直接调 API 便宜,速率限制也基本够用。Cursor 也有 Pro $20、Ultra $200 等档位。
4. 提示缓存——单点最强杠杆
如果你直接调用 API,提示缓存是"没理由不用"的节费工具。Anthropic 自己也称其为"2026 年最被低估的成本优化工具"。
工作机制
当你在多次请求中复用相同的 system prompt 或同一份文档时,首次调用会写入缓存(成本 1.25 倍)。之后的每次调用都按输入价的 10% 从缓存读取。
盈亏平衡的算账
- 5 分钟 TTL(写入 1.25 倍):读 2 次回本
- 1 小时 TTL(写入 2 倍):读 5 次回本
- 生产环境经验法则:5 分钟 TTL 读 3 次以上、或 1 小时 TTL 读 5 次以上,就稳赚
2026 年的重要变化
2026 年初,Anthropic 将提示缓存默认 TTL 从 60 分钟缩短到 5 分钟。如果你的生产系统没察觉地继续运行,实际成本已经上涨 30-60%。被"旧直觉"困住的开发者正在悄悄亏钱——这是 2026 年的隐性问题。
推荐模式
对生产应用:
- system prompt + 工具定义:用 1 小时 TTL 缓存(不会变动的部分)
- 对话历史的前半段:用 5 分钟 TTL 缓存(短窗口内会被反复访问的部分)
如果你的缓存命中率(cache_read / (cache_read + input))低于 60%,就还有优化空间。生产环境应瞄准 80% 以上。
5. 上下文管理——/compact 与拆分
用 Claude Code 或 Cursor 一段时间后,长对话进行到一半时你会发现"为什么每轮都在发 10 万 token?"不是输出在膨胀,而是输入(= 过往对话)在持续变胖。
战术 1:积极使用 /compact
Claude Code 提供 /compact 命令。它会把对话历史总结并压缩,重新生成上下文窗口。20 万 token 可压到 5,000。会话超过 30 分钟就该考虑用一次。
战术 2:按任务拆分会话
不要在同一段长对话里同时做"实现功能 A"、"修复 Bug B"、"生成文档 C"——开新会话。每项任务结束就关掉会话。如需长期记忆,写到记忆文件里。
战术 3:用 Hooks 削减噪声
Claude Agent SDK / Claude Code 提供 Hooks,可以在工具输出送达 AI 之前进行加工。例如:通过 Hook 把冗长的 npm install 日志压缩成"成功/失败"。仅此一项每轮就能省下数千 token。
6. 模型选择——按任务路由
"始终用 Opus"是百万富翁的玩法。大多数任务用 Sonnet 或 Haiku 就有足够质量。Anthropic 官方价格比例如下(2026 年 5 月)。
| 模型 | 输入 | 输出 | 擅长场景 |
|---|---|---|---|
| Claude Opus 4.7 | $5 | $25 | 复杂设计、推理、长时自主任务 |
| Claude Sonnet 4.7 | $3 | $15 | 日常编码、分析、摘要 |
| Claude Haiku 4.5 | $0.80 | $4 | 分类、抽取、短文本转换、实时响应 |
| GPT-5.5 | $5 | $30 | 规划、执行、终端控制 |
| GPT-5.5 mini | $0.60 | $2.40 | 轻量任务 |
Opus 比 Haiku 大约贵 6 倍。仅按任务路由就能带来巨大节省。判断标准:
- 用 Opus 的场景:复杂重构、跨多文件设计、深度推理、探索陌生领域
- 用 Sonnet 的场景:日常编码、分析、摘要、代码评审、补测试
- 用 Haiku 的场景:分类、抽取、格式转换、实时建议、生成提交信息
7. 管理输出预算
输出 token 比输入贵 5-6 倍。这里能省下的钱很可观。
三种做法
- 显式设置
max_tokens:在 API 调用中用max_tokens: 1000之类设上限。默认无限制是危险的。 - 在提示中加入"简短回答"或"五条要点":AI 是会听的。压制冗余的前言、总结与寒暄。
- 结构化输出(JSON 模式):JSON 比散文更短。如果你的应用要消费结果,这是正解。
对于不需要"长篇优美回答"的场景(分类、抽取、决策),狠狠压短反而更具成本效益。
8. 多智能体陷阱——15 倍 token
2026 年的潮流——多智能体架构(编排器 + 并行子智能体)虽然强大,但 Anthropic 自己也公开表示"token 消耗大约是单智能体的 15 倍"。
节省视角下的判断标准
- 清晰、按序执行的任务(单文件编辑、摘要、代码评审)→单智能体已足够
- 能显著缩短墙钟时间的并行场景→多智能体值得
- "默认就用多智能体"在经济上是错的。从单智能体起步,只把真正能看见的瓶颈拆出去。
详情参见什么是多智能体?
9. 监控与账单告警
要避免"突然 $500"的惊吓,例行监控 + 告警是必备的。
API 用户
- 在 Anthropic Console / OpenAI Dashboard 检查每日 token 消耗
- 设置使用上限:超过每月 $200 自动停止等。无上限 = 危险。
- 账单告警:$50 发邮件、$100 发 Slack——分级阈值。
Claude Code 用户
- 用
/cost查看当前会话的 token 消耗与预估花费 - 把每天结束时检查
/cost养成习惯
组织管理员
- 按用户的使用报告(Anthropic Team / Enterprise 管理控制台)
- 异常检测(标记消耗达到日常 3 倍的人)
- 每季度全公司分享一次"浪费模式"
10. 七种常见浪费模式
| 模式 | 问题所在 | 修复方法 |
|---|---|---|
| 每轮重新附上所有文件 | 缓存不生效;输入暴涨 | 不变的文档发一次并缓存 |
| 同一个问题既问 ChatGPT 又问 Claude | 同一份输入在两个套餐里付两次钱 | 选一个 |
不用 /compact 持续长对话 | 每轮都重发完整历史 | 30 分钟后用 /compact |
| 用 Opus 做简单分类或抽取 | 同样结果付 Haiku 6 倍的钱 | 模型与任务匹配 |
| 反复说"再润色一些"/"再长一点" | 输出 token 不断累积 | 开头就说清想要的长度 |
| 定义大量用不上的工具 | 工具定义会带进上下文 | 只定义会用到的 |
| 动不动就上多智能体 | 是单智能体的 15 倍 token | 有明确需要时再用 |
总结
- AI 成本优化的三大杠杆:提示缓存、模型路由、输出预算。组合使用可压到未优化成本的 20-30%。
- 缓存读取 = 输入价的 10%。对生产负载可省 60-90%。当心 2026 年初 TTL 缩短(60 分 → 5 分),忽略它实际成本会涨 30-60%。
- 模型选择:Opus 比 Haiku 大约贵 6 倍。八成任务用 Sonnet/Haiku 就够。
- 输出预算:输出 token 比输入贵 5-6 倍。显式设
max_tokens并要求"简短"。 - 上下文管理:每个会话超过 30 分钟用一次
/compact,按任务拆分,用 Hooks 压缩输出。 - 多智能体陷阱:是单智能体的 15 倍 token。仅在有明确需要时使用。
- 监控:使用上限、账单告警、查看
/cost都要养成习惯。 - 留意并避开七种常见浪费模式。
FAQ
Q1. 我每天用 Claude Code,是 Pro $20 划算还是 Max $200 划算?
每天用 2 小时以上,几乎肯定是 Max 更划算。Pro 很快就撞速率上限,挫败感累积,最终又会流失到 API 计费。Max 可以无忧地连用数小时。Anthropic 自己的宣传也默认 Pro 用户只是"轻度"使用 Claude Code。
Q2. 使用提示缓存需要特殊配置吗?
在 API 上必须显式标注 cache_control 块。默认不生效。Claude Code / Cursor 等集成工具内部往往会自动使用,但如果你自己调 API,必须声明。详见 Anthropic 官方文档。
Q3. ChatGPT 与 Claude,哪个更具成本效益?
视用例而定。对于长时自主任务和复杂编码,Claude(尤其配合缓存)通常更便宜。对于短问答和终端自动化,GPT-5.5 mini 极便宜(输入 $0.60)。"两个都订,按场景挑"也很务实。
Q4. 怎么判断"Haiku 已经够了"?
做三步实验。(1) 先在 Opus 上跑通。(2) 同一个提示发给 Sonnet 比对质量。(3) 如果 Sonnet 看上去差不多,再试 Haiku。许多日常任务里,Haiku 与 Opus 的差距小到察觉不到。把 Opus 留给真正需要深度判断或推理的场景。
Q5. 个人用户应该直接调 API 吗?
看情况。对于每天 2 小时以上的交互式编码,Max 套餐($100/$200)压倒性更省事。对于把 AI 嵌入自家应用、批处理或自动化,直接 API 必不可少。两者并用的人也不少。
Q6. 账单告警阈值该设多少?
对个人开发者,比较现实的设置是:第一档告警为常规月支出的 1.5 倍,自动停机为 3 倍。例:通常每月花 $30,则告警 $50、停机 $100。初期可设更细的告警如每天 $5培养直觉,之后再放宽。
Q7. 公司被告知"AI 预算太大了",先做什么?
按顺序做三件事。(1) 看按用户的用量,确认前 5% 的用户占整体的百分比(往往 50% 以上)。(2) 访谈这些重度用户的工作流程,识别浪费模式。(3) 在公司内部分发一份"缓存、模型路由、输出预算"指南,每月汇报进展。如果你和 Anthropic / OpenAI 的 Enterprise 客户经理沟通,还能拿到免费的优化评审。