目录
"我想把文档翻译成 10 种语言。Claude Code 和 Codex,哪个更好?"——这个问题藏着一个陷阱:很多人把"哪个工具更好"和"哪个翻得更好"混为一谈。事实是,Claude Code 和 Codex 都不是"翻译引擎"。两者本质上都是智能体型的 CLI 工作环境,真正产出译文的,是在其背后运行的语言模型。
因此问题应当一分为二。"在哪种环境里跑翻译这件事最高效(=工具选择)?" 与 "把译文质量交给哪个模型(=模型选择)?" 结论先说:若要在保留结构的前提下批量翻译仓库内的大量文件,Claude Code 更合适——得益于对本地文件的直接访问、1M token 的长上下文,以及强大的多文件一致编辑能力。翻译质量本身则取决于语言对。本文将基于官方数据和多方来源,从工具和模型两个层面彻底梳理。
多语言翻译的速览结论
— "选哪个工具"和"选哪个模型"是两个不同的问题
最简指南:若需要把仓库里的文件连同结构一起准确翻译,用 Claude Code。
然后,为最终质量挑选一个在目标语言上表现强的模型。
* 本文的工具规格来自各厂商官方资料及多家技术媒体(截至 2026 年 5 月);多语言性能来自 Anthropic 官方的多语言支持资料(基于 MMLU 的对英语相对分数)。模型版本和数值可能变化,最终判断请务必以你自己的语言对实测为准。
1. 结论先行
给忙碌的读者,只讲要点。
- 作为工作环境,Claude Code 更适合翻译。原因:(1) 它能直接读写大量本地文件;(2) 其 1M token 的上下文可以一次性容纳"文章正文+术语表+既有译文";(3) 它擅长在大量文件之间一致地编辑术语和语气。
- Codex 适合"异步、云端、放手批处理"。对于在沙箱中安全运行并自动开 PR 的场景,或把开源 CLI 嵌入自有流水线的用途,它表现出色。但其上下文窗口相对较小。
- 翻译质量由"模型"决定,而非"工具"。长文档的语气一致性偏向 Claude;自然的欧洲/东亚语言及惯用语偏向 GPT;对低资源语言和方言的广度覆盖偏向 Gemini——这是多方来源一致认同的格局。最佳选择会随语言对而变化。
2. 论点有两个——把"工作环境"和"翻译质量"分开
把开头提到的最重要一点,再细致地重述一遍。Claude Code 和 Codex 都是智能体型的 CLI(命令行)工作环境。它们读取文件、编辑文件、运行测试、开 PR——本质上是"自主动手的工作者"。而这个工作者的"语言能力",由背后的模型提供(Claude Opus/Sonnet、GPT-5.5、Gemini 3.1 Pro 等)。
换言之,"翻译得好不好"基本上是模型的问题,而"能否高效、准确、大规模地跑翻译这件事"则是工具的问题。所以如果把这两个维度混在一起,笼统地问"哪个翻译更强?",就会迷失答案。本文在第 3-4 章讲工具,第 5-6 章讲模型,并在第 7 章落到组合实践上。
3. Claude Code vs Codex——对翻译真正有影响的差异
先看工具维度。两者作为"智能体型 CLI 编码器"属于同类,截至 2026 年 5 月,通用编码性能大致旗鼓相当。但若聚焦到对翻译工作真正有影响的差异,它们的性格便清晰分化。
| 维度 | Claude Code | Codex |
|---|---|---|
| 运行位置 | 在本地机器上实时协作 | 在云端沙箱中异步执行 |
| 文件访问 | 直接读写所有本地文件 | 基于沙箱;文件/PC 操作相对受限 |
| 上下文窗口(约) | 最多约 1M token(Opus 系列) | 最多约 400K token |
| 多文件一致编辑 | 强(易于跨文件统一术语/语气) | 可行,但大量同时编辑会受上下文上限制约 |
| 并行执行 | 易于并行启动子智能体 | 擅长异步任务和放手运行 |
| CLI 的性质 | Anthropic 提供(IDE 集成深厚) | 开源(Apache-2.0),易于嵌入自有流水线 |
| 价格区间 | 个人 $20-$200/月(相近) | 个人 $20-$200/月(相近) |
回想一下翻译工作的现实。你要翻译的不只是"纯文本"。还有 HTML/Markdown 标签、代码块、术语表、既有译文、文件命名规则——而且必须跨数十个文件、保持一致、不破坏任何东西地处理它们。这正是(1) 对所有本地文件的直接访问、(2) 大上下文窗口,以及(3) 可靠的多文件一致编辑大显身手之处。即便在通用比较中,Claude Code 也因"高难度多文件重构的质量"而获得高评价,而 Codex 则因"异步 PR 自动化、按任务计费的成本、沙箱安全性"而受到认可。完整的综合比较,请参阅Claude Code vs Codex 彻底比较。
4. 翻译任务中哪一个更合适
把上述差异套到"三种典型翻译场景"上,合适与否便一目了然。
按场景选择合适的工具
拿不准时:如果主要目标是"把手头的文件在不破坏结构的前提下一致地翻译",用 Claude Code。
如果想"作为 CI/夜间批处理自动运行",Codex 的异步运行正合心意。
补充一点:对于翻译大型多语言站点或文档(数十到数百个文件,且术语统一是硬性要求)的场景,能直接编辑本地文件、上下文窗口又大的 Claude Code 更易上手。它的强项在于那种边检查边推进、想在保证质量的同时把控全局时的"资深搭档"感。另一方面,如果想把翻译嵌入完全自动化的定时任务,作为开源 CLI 易于流水线化、又能异步放手运行的 Codex 便派上用场。
5. 推荐模型——按翻译质量选择
接下来是模型维度。由于输出质量由模型决定,而非工具,这才是核心所在。一个重要前提:"编码基准分高"并不等于"擅长翻译"。翻译考验的是另一种能力——语气、惯用语、文化语境、对低资源语言的覆盖。
先从最可靠的一手数据说起。Anthropic 官方公布了各语言相对于英语的性能(由专业译者将 MMLU 翻译成各语言后测得的相对分数)。下面节选本站点处理的语言(数值针对带扩展思考的 Claude Opus 系列;英语=100%)。
| 语言 | 对英语分数(Claude) | 等级 |
|---|---|---|
| 西班牙语 | 98.1% | 最高梯队 |
| 法语 | 97.9% | 最高梯队 |
| 葡萄牙语(巴西) | 97.8% | 最高梯队 |
| 德语 | 97.7% | 最高梯队 |
| 阿拉伯语 | 97.1% | 高水平 |
| 中文(简体) | 97.1% | 高水平 |
| 日语 | 96.9% | 高水平 |
| 印地语 | 96.8% | 高水平 |
可以读出的是:Claude 在主要语言上保持着对英语 96-98% 的极高水平。对于语气和语体一致性尤为重要的语言,如德语、日语、韩语,它尤其受好评——这是各方一致的看法(注意:该分数是 MMLU 推理的代理指标,并非纯粹的翻译质量本身)。与此同时,每个模型都有各自的强弱底色。下面整理多方来源反复提及的倾向。
各模型在翻译中的底色
这些是多家媒体反复报道的"倾向",并非固定的高下排名。
模型版本更新频繁,因此最终判断请务必以你自己的语言对实测为准。
关键在于,无论是 Claude Code 还是 Codex,你都可以选择并切换所调用的模型。因此一种现实的组合是"工具=Claude Code,但质量检查也跑一遍另一个模型"。在 Opus 4.8 这一代,"诚实度"大幅提升,使模型更倾向于主动标记不确定的段落——这同样有助于翻译审校的效率。
6. 按语言和用途选择
把上面的倾向转化为实际决策。
| 情形 | 倾向选择 | 原因 |
|---|---|---|
| 统一语气的长文档 | Claude(Opus/Sonnet) | 大上下文中一次性处理全文;语体和术语一致 |
| 主要欧洲/东亚语言的自然度 | GPT-5.5 系列 / Claude | 惯用语和措辞流畅 |
| 向低资源语言/方言的广度延伸 | Gemini 3.1 Pro | 语言覆盖广 |
| 大批量、低成本批量翻译 | Gemini Flash / 各厂商的轻量快速模型 | 速度与成本的平衡 |
| 专业文档(法律、医疗等) | 顶级模型+强制人工审校 | 误译不可接受的领域 |
现实的最佳实践是"分工",而非"一个模型包打天下"。例如,用轻量模型又快又省地生成初稿,再用顶级模型只打磨需要质量的语言。或者把主翻译与另一个模型的交叉核对组合起来。像 Claude Code / Codex 这样的智能体环境,非常适合自动运行这类多模型流水线。
7. 实践:搭建翻译流水线
定下工具和模型后,搭建一个能稳定质量的"模板"。下面列出用智能体 CLI 跑多语言翻译的实践要点。
智能体翻译的 5 条铁律
- 固定一种源语言——英语(或日语)——作为唯一基准。所有语言都从同一基准翻译,质量才能对齐。
- 交付一份术语表。把品牌名、专有名词、UI 字符串的译法做成词典,并在所有语言间统一。
- 明确说明"保留结构、标签和代码,只翻译正文"。不要让它碰 HTML 属性值或代码。
- 各语言并行运行。同时跑 8 种语言很快(注意 API 速率限制)。
- 最后跑一次机械式质量检查。自动检测残留的未翻译文本、被替换的标点、字数溢出等。
一旦这个模板上手,"初稿 → 自动 lint → 人工只检查关键点"的流程便能在保持质量的同时大幅提速。掌握提示词设计和智能体的工作原理,能进一步提升流水线的精度。而在翻译从外部引入的文本时,别忘了权限设计和提示词注入的防护措施。
8. 注意事项(坦诚相告)
最后,坦诚列出注意事项,以免判断失误。
- 基准 ≠ 真实翻译质量。这里的对英语相对分数是 MMLU 推理的代理指标,并不完全等同于输出的自然度/准确度。务必以你自己的语言对和题材实测。
- 模型版本更新频繁。"X 最强"过几个月就会过时。"分工+实测"的运营模式比固定的结论更长寿。
- 专业、法律、医疗翻译需要人工审校。在误译代价高的场景,应让 AI 止于初稿,由人来承担最终责任。
- 围绕"质量 × 体量"设计成本。全部用顶级模型翻译很贵。用廉价模型出初稿,只对关键部分用顶级模型打磨——这才经济。
- Codex 的沙箱约束。对于直接编辑大量本地文件的用途,云端沙箱在某些情况下会成为限制。
总结
对"多语言翻译该选 Claude Code 还是 Codex?"的回答,始于把问题一分为二。作为工作环境,要在保留结构的前提下一致地翻译仓库内的大量文件,Claude Code 更合适(本地直接编辑、1M 上下文、多文件一致性)。对于异步、云端、放手批处理/PR 自动化,Codex 正合心意。
而翻译质量由模型决定,而非工具。鉴于这些倾向——长文档语气一致性看 Claude,主要语言的自然度看 GPT 系列,低资源语言和方言的广度看 Gemini 系列——2026 年的现实答案是按语言对挑选最佳,并在初稿与定稿之间分工。最后再强调一句:与其追寻固定的"最强模型",不如以你自己的任务实测,并保持一条混用多个模型的流水线——这才是不被每一代新模型牵着鼻子走的最聪明方式。
延伸阅读:Claude Code vs Codex 彻底比较、Claude Opus 4.8 深度解析、GPT-5.5 vs Claude Opus 比较、ChatGPT / Claude / Gemini 免费额度比较,以及什么是 Claude Agent SDK。
FAQ
Q. 那到底哪个模型翻得最好?
A. "这取决于语言对和用途"才是坦诚的答案。长文档的语气一致性偏向 Claude;主要语言的自然输出和惯用语偏向 GPT 系列;低资源语言和方言的广度偏向 Gemini 系列。没有固定的"最强",而且版本更新很快,所以在你的目标语言上实测才是稳妥之道。
Q. Claude Code 和 Codex 之间,译文质量会有差别吗?
A. 工具本身并不产出译文。质量由背后运行的模型决定。由于两种工具都可以选择模型,可以把它理解为"质量=模型选择,效率=工具选择"。它们的差异在于工作的速度、准确度,以及大规模处理的便利性。
Q. 翻译一个数十个文件的多语言站点时呢?
A. Claude Code 更易上手。它能直接读写所有本地文件,可在 1M token 的上下文中同时参考正文、术语表和既有译文,并擅长在大量文件间统一术语和语气。各语言并行运行,可让大批量翻译在现实可行的时间内完成。
Q. 有什么控制成本的窍门吗?
A. 分工。全部用顶级模型翻译会变得很贵。用轻量模型(如 Gemini Flash)又快又省地出初稿,再用顶级模型只打磨需要质量的语言/部分。如果能用上提示词缓存或批处理,善加利用可大幅削减大批量翻译的成本。
Q. 专业文档(合同、医疗)也能用 AI 翻译吗?
A. 止于初稿,最终检查交给领域专家。在误译代价高的领域,任何顶级模型单独运行都有风险。用 AI 提速,但让人来承担负责任的最终检查——这条界线才是安全的。