目录
2023 年,32K 令牌的上下文窗口被认为"够宽敞"。到 2026 年 5 月,100 万令牌(1M)已成为行业标配。Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5、Gemini 3.1 Pro、DeepSeek V4-Pro——所有主流前沿模型都支持 1M。Gemini 3.1 Ultra 已达到 2M。
"100 万令牌"大致相当于英文 8 至 10 本平装书,或数万行源代码。我们现在可以在一次会话中"看到"如此庞大的内容。但有个问题:在这些模型中,真正能把那个容器用到底的只有一款。独立基准测试(多针 NIAH,下文详述)显示,仅有 Gemini 3 Deep Think 模式能在完整 1M 范围内保持精度。其他模型从 200K 到 400K 之间就开始出现精度下滑——这是 2026 年现场的真实情况。
先把我的看法摆在前面:仅凭容器大小选模型的时代已经结束。如今真正重要的是"有效上下文 × 成本 × 策略"这三位一体,而 Anthropic 推出的 1M 统一定价是今年最有趣的转折点。本文将依次介绍上下文究竟是什么、2026 年 5 月的模型阵容、为何"大"本身并不够、成本结构的差异,以及个人开发者和小团队今天就能上手的五条节省策略——全部基于独立基准的实际数据。
三年内容器扩大了 250 倍
— 1M 从奢侈品变为基线的时间线
但"支持"和"真正读到最后"是两回事。在多针 NIAH 基准上,只有 Gemini 3 Deep Think 在完整 1M 范围内保持精度;
其他模型从 200K–400K 开始衰减(Digital Applied、Zylos 2026)。
1. 一年内出现五款 1M 令牌模型——但真正"读完全部"的只有一款
2026 年 4 月,OpenAI 宣布 GPT-5.5 时,整个网络欢呼:"OpenAI 终于做到 1M 了。"同月,Google 发布了支持 2M 的 Gemini 3.1 Ultra。Anthropic 早在前一年就在 Claude Opus 4.6 上引入了 1M 统一定价,并在 4.7 上得到加强。DeepSeek 的 V4-Pro 也是 1M。五家前沿厂商现在都可以名正言顺地在规格表上写"1M+ 令牌"。
这本应是一桩大事。仅仅三年前,32K 还令人惊叹。从那时起,窗口大小已经跃升 30 倍以上。容器大小的竞赛看似已经决出胜负。
然后独立评估机构 Digital Applied 和 Zylos Research 在 2026 年进行了 多针 Needle-in-a-Haystack(NIAH)测试——在长文档中嵌入多个事实,要求模型全部正确取出。结果如下:
- Gemini 3 Deep Think:在完整 1M 范围内保持公称精度
- Claude Opus 4.7 / GPT-5.5 / DeepSeek V4-Pro:在 200K–400K 左右开始精度下滑
所以即便"支持 1M"已经普遍化,在生产等价条件下,真正能把 1M 用到底的只有一款模型。其他前沿模型在被要求整合多个事实时,从 200K–400K 起就显出疲态。这就是 2026 年的现实。
请不要把这理解为"Claude 或 GPT 不行"。真正需要完整 1M 的用例其实很少。如果能稳定读取 300K(约 2–3 本平装书),几乎所有的编码、研究或摘要任务都能完成。陷阱在于仅凭"支持 1M"这个标题来选模型——那会误导决策。
2. 什么是上下文——把容器和内容分开理解
简单梳理一下术语。这个领域里,有三个词容易被混淆。
令牌、窗口、上下文
简而言之:"窗口 = 容器尺寸"、"上下文 = 内容"、"令牌 = 单位"。
容器再大,内容杂乱,得到的回答也只会杂乱。
另外:不要把"上下文"和"记忆"混为一谈。上下文存在于会话内部——关闭聊天就消失。而 ChatGPT Memory 或 Claude Memory 这类功能则是另一种跨会话保留机制。记忆的内容最终也会被注入到上下文窗口中,但从用户的角度看,这是持久存储 vs. 临时工作区的区别。
3. 2026 年 5 月主流模型一览——容器尺寸
定义清晰之后,下面是各厂商当前公布的容器尺寸。所有数据均来自 2026 年 5 月的官方规格。
| 模型 | 输入上限 | 输出上限 | 备注 |
|---|---|---|---|
| Claude Opus 4.7 | 1,000,000 | 128,000 | 标准定价下统一 1M,无需 beta header |
| Claude Sonnet 4.6 | 1,000,000 | 64,000 | 同样的统一定价 |
| Claude Haiku 4.5 | 200,000 | 64,000 | 轻量模型,无 1M 等级 |
| GPT-5.5 | 922,000 | 128,000 | API 合计约 1M;272K 以上输入价格翻倍 |
| GPT-5.4 | 1,000,000 | 128,000 | 同样的长上下文附加费 |
| Gemini 3.1 Pro | 1,000,000 | 65,535 | 通过 Vertex AI / AI Studio 提供 |
| Gemini 3.1 Ultra | 2,000,000 | 65,535 | 2M 等级——目前唯一商用 2M 模型 |
| Grok 4 | 256,000 | 32,000 | xAI 官方规格;前沿中较保守 |
| DeepSeek V4-Pro | 1,000,000 | 96,000 | 开源权重阵营中最大 |
只看表格,会得出"Gemini Ultra 胜出,结束"的结论。但有一个事实值得加粗:Anthropic 在 Opus 4.6/4.7 和 Sonnet 4.6 上以统一价格提供 1M,而 OpenAI 在 GPT-5.5 上对 272K 令牌以上的输入价格翻倍。这不仅是一个定价开关——而是对长上下文工作负载应如何处理的战略立场。我们将在后面的章节深入探讨成本数学。
就我个人而言,Claude Opus 4.7 是我处理长文工作的主力。三个理由:统一定价、200K 范围内稳定的精度、以及 Anthropic 的文档质量。对于真正超过 300K 的文档,我会切换到 Gemini 3 Deep Think。按用例混合使用模型是 2026 年的正确做法。
4. "越大越好"不成立的三个理由
前面的表格只列出了物理容器尺寸。更难的问题是模型是否真的能用到它们所宣称的那么多。简短回答:除了 Gemini 3 Deep Think 之外,情况都不乐观。三个理由如下。
理由①:Lost in the Middle(中间迷失)
2023 年由斯坦福首次记录,并在此后每一代模型中被复现。AI 对输入的开头和结尾给予较大权重,而对中间部分(30%–70% 的位置区域)则较为轻视。放在 100K 上下文中央位置的信息,被取出的精度比同样的信息放在开头或结尾低 5–15 个百分点。
日常表现就是:"粘贴一份长 PDF,问'X 的数字是多少?',模型会把恰好位于中间的数字报错。"这就是 Lost in the Middle。距斯坦福原始论文已过三年,即便是前沿模型也未完全填平这一差距。
理由②:Context Rot(上下文腐败)
对话越长,最初的指令就越淡化。开头你说"用正式英语回答";二十轮之后,模型已飘回到口语化表达——这就是 Context Rot。
有两个原因。① 早期指令在历史中处于相对靠旧的位置,权重被弱化。② 长历史下,注意力被分散,特定令牌变得难以引用。Anthropic 在 2026 年开始把这一现象框定为"上下文工程"——一项需要刻意管理的技能。
理由③:公称上下文 ≠ 有效上下文
下面是 2026 年最新基准(多针 NIAH,生产等价条件)的实际表现。
有效上下文(多事实整合)
来源:Digital Applied《Long-Context Retrieval 2026》 / Zylos Research《LLM Context Window Management 2026》。
在单针 NIAH(取出单一事实)上每款模型都通过 1M,但多事实整合则呈现不同景象。
再次说明:这不是"Claude Opus 4.7 坏掉了"。200K–400K 仍相当于 2–3 本平装小说的容量。大多数现实任务(代码评审、长文写作、会议摘要、研究综合)都能在该范围内完成。问题在于"既然是 1M,那就直接塞 1M 进去"这一假设——这种策略只在 Gemini Deep Think 上奏效。
5. 成本陷阱——OpenAI 在 272K 以上翻倍,Anthropic 维持不变
我们刚确立了"有效上下文是 200K–400K"。在此之上还要叠加第二个陷阱:长上下文输入会让账单飙升。Anthropic 和 OpenAI 在这里采取了相反的策略。
| 模型 | 标准输入价格 | 长上下文附加费 |
|---|---|---|
| Claude Opus 4.7 | $5.00 / 1M tokens | 1M 范围内统一,无附加费 |
| Claude Sonnet 4.6 | $3.00 / 1M tokens | 同上——无附加费 |
| GPT-5.5 | $5.00 / 1M tokens | 272K 以上:输入 2 倍、输出 1.5 倍 |
| GPT-5.4 | 同等水平 | 同样的长上下文附加费 |
具体计算。500K 令牌输入 + 50K 令牌输出,一次往返——这是一次性总结大型代码库或年度报告的典型场景。
- Claude Opus 4.7:$5.00 × 0.5 + $25.00 × 0.05 = $3.75
- GPT-5.5(含 272K 超额附加费):$10.00 × 0.5 + $45.00 × 0.05 = $7.25
每次调用相差 $3.50。每天跑 100 次,每月相差 $10,500。对运行长时间智能体的团队,差距很容易达到月度五位数中段。这与我们在AI 令牌与会话成本节约中介绍的结构性模式相同。
6. 五条节省策略——按个人开发者的实际效果排序
"容器是 1M 但有效约 300K,长时间使用还会变贵。"我们已经梳理过了。那么在现场实际能做什么?下面是我日常使用的五条策略,按收益最大的顺序排列。
上下文节省——优先级顺序
/compact 或开启新会话。
五条之中,策略①"切断会话"带来的可见收益最大。仅仅切断聊天就能明显减少幻觉。
策略④面向 API 开发者——UI(claude.ai / ChatGPT)会自动处理缓存。
我个人的最佳实践是:仅仅持续做①和②,感知到的精度就会显著提升。即便用 Claude Code,与其推动一个长会话,不如在每次话题转变时按 /compact 或开启新会话——这样最终输出的质量会更稳定。
总结
回顾要点:
- 上下文窗口 = AI 在一次交互中能处理的最大令牌数。容器尺寸。
- 截至 2026 年 5 月,Claude Opus 4.7 / Sonnet 4.6 / GPT-5.5 / Gemini 3.1 Pro / DeepSeek V4-Pro 全部支持 1M;Gemini 3.1 Ultra 达到 2M。
- 独立基准(多针 NIAH)显示,只有 Gemini 3 Deep Think 在完整 1M 范围内保持精度;其他模型从 200K–400K 起开始衰减。
- 在成本上,Anthropic 维持不变,而 OpenAI 在 272K 以上加收附加费。战略分歧明显。
- 五条策略——切断会话、发摘录、末尾重述、缓存、明示地址——其中①和②权重最大。
即便容器变大了,实际工作仍然在决定发送什么、不发送什么。2026 年的 AI 技能不是"把所有东西都塞进去",而是只发送所需内容并发得准确的判断力——这才是长期有用的。看了今年五家厂商纷纷自封"1M"之后,这是我的结论。
FAQ
OpenAI 提供 tiktoken 库;Anthropic 在官方 SDK 中暴露了相当于 countTokens() 的 API。经验法则:英文每令牌约 0.75 个单词,CJK 每个字约 1–1.5 个令牌。代码因分词器而异,所以发送长输入前请实测。
上下文只存在于会话内部——关闭聊天就消失。记忆(ChatGPT Memory / Claude Memory)是另一种跨会话保留机制。记忆内容最终会被注入到上下文窗口,但从用户角度看,是持久 vs. 临时的区别。
RAG 是"动态地只把必要信息取入上下文"的模式。即便有 1M 窗口,把一切都塞进去会让响应变慢、变重、变贵,所以"先检索再加载"(RAG)仍是主流方法。详见什么是 RAG。
训练时与推理时序列长度不匹配、注意力机制的位置编码限制,以及整合多个事实所需算力的爆炸性增长共同作用。"支持"和"全程保持精度"是两个不同的问题。
能。MCP 是通过工具按需获取的机制,因此无需事先把所有内容都加载进上下文。把心智模型从"粘贴整份文件"切换到"让它去读文件"。