什么是 AI 上下文窗口 | 1M 令牌的现实与成本陷阱

1. 一年内出现五款 1M 令牌模型——但真正"读完全部"的只有一款
2. 什么是上下文——把容器和内容分开理解
3. 2026 年 5 月主流模型一览——容器尺寸
4. "越大越好"不成立的三个理由
5. 成本陷阱——OpenAI 在 272K 以上翻倍，Anthropic 维持不变
6. 五条节省策略——按个人开发者的实际效果排序
总结
FAQ

2023 年，32K 令牌的上下文窗口被认为"够宽敞"。到 2026 年 5 月，100 万令牌（1M）已成为行业标配。Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5、Gemini 3.1 Pro、DeepSeek V4-Pro——所有主流前沿模型都支持 1M。Gemini 3.1 Ultra 已达到 2M。

"100 万令牌"大致相当于英文 8 至 10 本平装书，或数万行源代码。我们现在可以在一次会话中"看到"如此庞大的内容。但有个问题：在这些模型中，真正能把那个容器用到底的只有一款。独立基准测试（多针 NIAH，下文详述）显示，仅有 Gemini 3 Deep Think 模式能在完整 1M 范围内保持精度。其他模型从 200K 到 400K 之间就开始出现精度下滑——这是 2026 年现场的真实情况。

先把我的看法摆在前面：仅凭容器大小选模型的时代已经结束。如今真正重要的是"有效上下文 × 成本 × 策略"这三位一体，而 Anthropic 推出的 1M 统一定价是今年最有趣的转折点。本文将依次介绍上下文究竟是什么、2026 年 5 月的模型阵容、为何"大"本身并不够、成本结构的差异，以及个人开发者和小团队今天就能上手的五条节省策略——全部基于独立基准的实际数据。

CONTEXT WINDOW · 2023→2026

三年内容器扩大了 250 倍

— 1M 从奢侈品变为基线的时间线

2023

4K–32K

GPT-3.5、早期 GPT-4。一篇研究论文都勉强装下。

2024

128K–200K

Claude 3 / GPT-4 Turbo。十篇论文或一本完整小说。

2025

1M–2M

Claude 4.6 / Gemini 1.5 Pro 开放 1M。Gemini Ultra 达到 2M。

2026

1M = 标配

Opus 4.7、Sonnet 4.6、GPT-5.5、Gemini 3.1、DeepSeek V4 全员到位。

但"支持"和"真正读到最后"是两回事。在多针 NIAH 基准上，只有 Gemini 3 Deep Think 在完整 1M 范围内保持精度；
其他模型从 200K–400K 开始衰减（Digital Applied、Zylos 2026）。

1. 一年内出现五款 1M 令牌模型——但真正"读完全部"的只有一款

2026 年 4 月，OpenAI 宣布 GPT-5.5 时，整个网络欢呼："OpenAI 终于做到 1M 了。"同月，Google 发布了支持 2M 的 Gemini 3.1 Ultra。Anthropic 早在前一年就在 Claude Opus 4.6 上引入了 1M 统一定价，并在 4.7 上得到加强。DeepSeek 的 V4-Pro 也是 1M。五家前沿厂商现在都可以名正言顺地在规格表上写"1M+ 令牌"。

这本应是一桩大事。仅仅三年前，32K 还令人惊叹。从那时起，窗口大小已经跃升 30 倍以上。容器大小的竞赛看似已经决出胜负。

然后独立评估机构 Digital Applied 和 Zylos Research 在 2026 年进行了 多针 Needle-in-a-Haystack（NIAH）测试——在长文档中嵌入多个事实，要求模型全部正确取出。结果如下：

Gemini 3 Deep Think：在完整 1M 范围内保持公称精度
Claude Opus 4.7 / GPT-5.5 / DeepSeek V4-Pro：在 200K–400K 左右开始精度下滑

所以即便"支持 1M"已经普遍化，在生产等价条件下，真正能把 1M 用到底的只有一款模型。其他前沿模型在被要求整合多个事实时，从 200K–400K 起就显出疲态。这就是 2026 年的现实。

请不要把这理解为"Claude 或 GPT 不行"。真正需要完整 1M 的用例其实很少。如果能稳定读取 300K（约 2–3 本平装书），几乎所有的编码、研究或摘要任务都能完成。陷阱在于仅凭"支持 1M"这个标题来选模型——那会误导决策。

2. 什么是上下文——把容器和内容分开理解

简单梳理一下术语。这个领域里，有三个词容易被混淆。

三个术语

令牌、窗口、上下文

① TOKEN — 文本单位

AI 处理文本的最小单位。英文每令牌约 4 个字符（约 0.75 个单词）；中日韩等 CJK 语言每个字大约 1–1.5 个令牌。

② WINDOW — 容器尺寸

模型在一次交互中可处理的最大令牌数。输入加输出合计。超出部分将从最旧端被截断。

③ CONTEXT — 容器内容

当前装入窗口的内容。包括系统提示、对话历史、附件、工具输出——全部在内。

简而言之："窗口 = 容器尺寸"、"上下文 = 内容"、"令牌 = 单位"。
容器再大，内容杂乱，得到的回答也只会杂乱。

另外：不要把"上下文"和"记忆"混为一谈。上下文存在于会话内部——关闭聊天就消失。而 ChatGPT Memory 或 Claude Memory 这类功能则是另一种跨会话保留机制。记忆的内容最终也会被注入到上下文窗口中，但从用户的角度看，这是持久存储 vs. 临时工作区的区别。

常见误解："上下文窗口越大 = AI 越聪明"是错的。窗口大小只是能装入视野的内容上限。推理能力、知识深度、指令遵循精度都是单独度量的。每次模型发布都把"1M 上下文！"作为标题，但那只是能力的一个侧面而已。

3. 2026 年 5 月主流模型一览——容器尺寸

定义清晰之后，下面是各厂商当前公布的容器尺寸。所有数据均来自 2026 年 5 月的官方规格。

模型	输入上限	输出上限	备注
Claude Opus 4.7	1,000,000	128,000	标准定价下统一 1M，无需 beta header
Claude Sonnet 4.6	1,000,000	64,000	同样的统一定价
Claude Haiku 4.5	200,000	64,000	轻量模型，无 1M 等级
GPT-5.5	922,000	128,000	API 合计约 1M；272K 以上输入价格翻倍
GPT-5.4	1,000,000	128,000	同样的长上下文附加费
Gemini 3.1 Pro	1,000,000	65,535	通过 Vertex AI / AI Studio 提供
Gemini 3.1 Ultra	2,000,000	65,535	2M 等级——目前唯一商用 2M 模型
Grok 4	256,000	32,000	xAI 官方规格；前沿中较保守
DeepSeek V4-Pro	1,000,000	96,000	开源权重阵营中最大

只看表格，会得出"Gemini Ultra 胜出，结束"的结论。但有一个事实值得加粗：Anthropic 在 Opus 4.6/4.7 和 Sonnet 4.6 上以统一价格提供 1M，而 OpenAI 在 GPT-5.5 上对 272K 令牌以上的输入价格翻倍。这不仅是一个定价开关——而是对长上下文工作负载应如何处理的战略立场。我们将在后面的章节深入探讨成本数学。

就我个人而言，Claude Opus 4.7 是我处理长文工作的主力。三个理由：统一定价、200K 范围内稳定的精度、以及 Anthropic 的文档质量。对于真正超过 300K 的文档，我会切换到 Gemini 3 Deep Think。按用例混合使用模型是 2026 年的正确做法。

4. "越大越好"不成立的三个理由

前面的表格只列出了物理容器尺寸。更难的问题是模型是否真的能用到它们所宣称的那么多。简短回答：除了 Gemini 3 Deep Think 之外，情况都不乐观。三个理由如下。

理由①：Lost in the Middle（中间迷失）

2023 年由斯坦福首次记录，并在此后每一代模型中被复现。AI 对输入的开头和结尾给予较大权重，而对中间部分（30%–70% 的位置区域）则较为轻视。放在 100K 上下文中央位置的信息，被取出的精度比同样的信息放在开头或结尾低 5–15 个百分点。

日常表现就是："粘贴一份长 PDF，问'X 的数字是多少？'，模型会把恰好位于中间的数字报错。"这就是 Lost in the Middle。距斯坦福原始论文已过三年，即便是前沿模型也未完全填平这一差距。

理由②：Context Rot（上下文腐败）

对话越长，最初的指令就越淡化。开头你说"用正式英语回答"；二十轮之后，模型已飘回到口语化表达——这就是 Context Rot。

有两个原因。① 早期指令在历史中处于相对靠旧的位置，权重被弱化。② 长历史下，注意力被分散，特定令牌变得难以引用。Anthropic 在 2026 年开始把这一现象框定为"上下文工程"——一项需要刻意管理的技能。

理由③：公称上下文 ≠ 有效上下文

下面是 2026 年最新基准（多针 NIAH，生产等价条件）的实际表现。

多针 NIAH × 4 款模型

有效上下文（多事实整合）

Gemini 3 Deep Think ~完整 1M

Claude Opus 4.7 ~200K–400K

GPT-5.5 ~200K–400K

DeepSeek V4-Pro ~200K–400K

来源：Digital Applied《Long-Context Retrieval 2026》 / Zylos Research《LLM Context Window Management 2026》。
在单针 NIAH（取出单一事实）上每款模型都通过 1M，但多事实整合则呈现不同景象。

再次说明：这不是"Claude Opus 4.7 坏掉了"。200K–400K 仍相当于 2–3 本平装小说的容量。大多数现实任务（代码评审、长文写作、会议摘要、研究综合）都能在该范围内完成。问题在于"既然是 1M，那就直接塞 1M 进去"这一假设——这种策略只在 Gemini Deep Think 上奏效。

5. 成本陷阱——OpenAI 在 272K 以上翻倍，Anthropic 维持不变

我们刚确立了"有效上下文是 200K–400K"。在此之上还要叠加第二个陷阱：长上下文输入会让账单飙升。Anthropic 和 OpenAI 在这里采取了相反的策略。

模型	标准输入价格	长上下文附加费
Claude Opus 4.7	$5.00 / 1M tokens	1M 范围内统一，无附加费
Claude Sonnet 4.6	$3.00 / 1M tokens	同上——无附加费
GPT-5.5	$5.00 / 1M tokens	272K 以上：输入 2 倍、输出 1.5 倍
GPT-5.4	同等水平	同样的长上下文附加费

具体计算。500K 令牌输入 + 50K 令牌输出，一次往返——这是一次性总结大型代码库或年度报告的典型场景。

Claude Opus 4.7：$5.00 × 0.5 + $25.00 × 0.05 = $3.75
GPT-5.5（含 272K 超额附加费）：$10.00 × 0.5 + $45.00 × 0.05 = $7.25

每次调用相差 $3.50。每天跑 100 次，每月相差 $10,500。对运行长时间智能体的团队，差距很容易达到月度五位数中段。这与我们在AI 令牌与会话成本节约中介绍的结构性模式相同。

注：Anthropic 的1M 统一定价在 Finout 2026 年 4 月的分析中被定性为"有意为之的差异化"。OpenAI 选择对长上下文用户进行变现，而 Anthropic 则把"无须犹豫地使用长上下文"作为品牌价值。

6. 五条节省策略——按个人开发者的实际效果排序

"容器是 1M 但有效约 300K，长时间使用还会变贵。"我们已经梳理过了。那么在现场实际能做什么？下面是我日常使用的五条策略，按收益最大的顺序排列。

五条实用策略

上下文节省——优先级顺序

① 切断会话

话题转变时，开新聊天。仅仅是阻止旧上下文延续，就能消除 Context Rot。在 Claude Code 中，使用 /compact 或开启新会话。

② 发摘录而非全文

把整份 100 页的 PDF 粘进去是最坏的做法。用 grep / 搜索提取相关段落，压缩到 3–5 页再发送。这是把RAG思维独自实践的方式。

③ 在末尾重述关键指令

应对 Lost in the Middle 的策略。在末尾用一行重申开头的规则："基于上述内容，按 X 格式输出。"

④ 提示词缓存

如果反复使用相同的系统提示，Anthropic / OpenAI 的缓存功能可将输入价格降低多达 90%。如果你在调用 API，请优先设置。

⑤ 明示文件地址

明确指出"第 N 个文件，第 X 行"能提升长上下文中的检索精度。可以理解为给 AI 递上一份带索引条目的目录。

五条之中，策略①"切断会话"带来的可见收益最大。仅仅切断聊天就能明显减少幻觉。
策略④面向 API 开发者——UI（claude.ai / ChatGPT）会自动处理缓存。

我个人的最佳实践是：仅仅持续做①和②，感知到的精度就会显著提升。即便用 Claude Code，与其推动一个长会话，不如在每次话题转变时按 /compact 或开启新会话——这样最终输出的质量会更稳定。

总结

回顾要点：

上下文窗口 = AI 在一次交互中能处理的最大令牌数。容器尺寸。
截至 2026 年 5 月，Claude Opus 4.7 / Sonnet 4.6 / GPT-5.5 / Gemini 3.1 Pro / DeepSeek V4-Pro 全部支持 1M；Gemini 3.1 Ultra 达到 2M。
独立基准（多针 NIAH）显示，只有 Gemini 3 Deep Think 在完整 1M 范围内保持精度；其他模型从 200K–400K 起开始衰减。
在成本上，Anthropic 维持不变，而 OpenAI 在 272K 以上加收附加费。战略分歧明显。
五条策略——切断会话、发摘录、末尾重述、缓存、明示地址——其中①和②权重最大。

即便容器变大了，实际工作仍然在决定发送什么、不发送什么。2026 年的 AI 技能不是"把所有东西都塞进去"，而是只发送所需内容并发得准确的判断力——这才是长期有用的。看了今年五家厂商纷纷自封"1M"之后，这是我的结论。

FAQ

Q1. 发送之前如何统计令牌数？

OpenAI 提供 tiktoken 库；Anthropic 在官方 SDK 中暴露了相当于 countTokens() 的 API。经验法则：英文每令牌约 0.75 个单词，CJK 每个字约 1–1.5 个令牌。代码因分词器而异，所以发送长输入前请实测。

Q2."记忆"和上下文有什么不同？

上下文只存在于会话内部——关闭聊天就消失。记忆（ChatGPT Memory / Claude Memory）是另一种跨会话保留机制。记忆内容最终会被注入到上下文窗口，但从用户角度看，是持久 vs. 临时的区别。

Q3. RAG 与上下文窗口有什么关系？

RAG 是"动态地只把必要信息取入上下文"的模式。即便有 1M 窗口，把一切都塞进去会让响应变慢、变重、变贵，所以"先检索再加载"（RAG）仍是主流方法。详见什么是 RAG。

Q4. 既然支持 1M，为何在 300K 就开始衰减？

训练时与推理时序列长度不匹配、注意力机制的位置编码限制，以及整合多个事实所需算力的爆炸性增长共同作用。"支持"和"全程保持精度"是两个不同的问题。

Q5. MCP 服务器能节省上下文吗？

能。MCP 是通过工具按需获取的机制，因此无需事先把所有内容都加载进上下文。把心智模型从"粘贴整份文件"切换到"让它去读文件"。

什么是 AI 上下文？——1M 令牌时代"读了但没读完"的现实

三年内容器扩大了 250 倍

1. 一年内出现五款 1M 令牌模型——但真正"读完全部"的只有一款

2. 什么是上下文——把容器和内容分开理解

令牌、窗口、上下文

3. 2026 年 5 月主流模型一览——容器尺寸

4. "越大越好"不成立的三个理由

理由①：Lost in the Middle（中间迷失）

理由②：Context Rot（上下文腐败）

理由③：公称上下文 ≠ 有效上下文

有效上下文（多事实整合）

5. 成本陷阱——OpenAI 在 272K 以上翻倍，Anthropic 维持不变

6. 五条节省策略——按个人开发者的实际效果排序

上下文节省——优先级顺序

总结

FAQ

相关文章

Claude的三大模式：聊天、Cowork与代码——全面对比与使用指南

最容易被生成AI取代的15种职业！哪些工作将消失及应对策略

游戏开发必备的20款生成AI工具！美术·音乐·编程全面覆盖【2026年版】

什么是Claude Agent SDK？AI智能体开发从入门到实践

评论

发表评论