« Je veux traduire ma documentation en 10 langues. Lequel est meilleur, Claude Code ou Codex ? » Cette question cache un piège : beaucoup de gens confondent « quel outil est meilleur » avec « lequel traduit mieux ». En réalité, ni Claude Code ni Codex n'est un « moteur de traduction ». Ce sont tous deux des environnements de travail CLI agentiques ; ce qui produit réellement le texte traduit, c'est le modèle de langue qui tourne en dessous.

La question se scinde donc en deux. « Dans quel environnement le travail de traduction est-il le plus efficace (= choix de l'outil) ? » et « À quel modèle est-ce que je confie la qualité du résultat (= choix du modèle) ? » La réponse d'emblée : pour traduire en masse de nombreux fichiers d'un dépôt tout en préservant la structure, Claude Code convient mieux — grâce à l'accès direct aux fichiers locaux, à un contexte long de 1M de tokens et à une forte cohérence d'édition multi-fichiers. La qualité de traduction elle-même dépend de la paire de langues. Cet article organise en profondeur les deux faces, l'outil et le modèle, en s'appuyant sur des données officielles et plusieurs sources.

TRADUCTION · OUTIL × MODÈLE

Le verdict rapide pour la traduction multilingue

— « quel outil » et « quel modèle » sont deux questions distinctes

ENVIRONNEMENT DE TRAVAIL (OUTIL)
Claude Code en tête
Édition directe des fichiers locaux · contexte 1M · cohérence multi-fichiers
OÙ CODEX BRILLE
asynchrone · cloud
Lots sans intervention · automatisation des PR · CLI open source
QUALITÉ (MODÈLE)
dépend de la paire
Claude = cohérence des longs documents / Gemini = langues peu dotées

Le guide le plus court : si vous devez traduire fidèlement les fichiers de votre dépôt, structure comprise, utilisez Claude Code.
Ensuite, choisissez un modèle solide dans votre langue cible pour la qualité finale.

* Les caractéristiques des outils proviennent ici des sources officielles de chaque éditeur et de plusieurs médias techniques (au mai 2026) ; les performances multilingues proviennent du support multilingue officiel d'Anthropic (scores fondés sur MMLU, relatifs à l'anglais). Les versions de modèles et les chiffres peuvent changer, alors tranchez toujours en testant vos propres paires de langues.

1. La réponse, d'emblée

Pour le lecteur pressé, juste l'essentiel.

  • En tant qu'environnement de travail, Claude Code convient mieux à la traduction. Pourquoi : (1) il lit et écrit directement de nombreux fichiers locaux ; (2) son contexte de 1M de tokens peut contenir d'un coup « le corps de l'article + le glossaire + les traductions existantes » ; (3) il est performant pour l'édition cohérente des termes et du ton à travers de nombreux fichiers.
  • Codex convient aux « lots asynchrones, dans le cloud, sans intervention ». Il brille pour les exécutions qui tournent sans risque dans un bac à sable et ouvrent automatiquement des PR, ou pour intégrer le CLI open source dans votre propre pipeline. Mais sa fenêtre de contexte est relativement plus réduite.
  • La qualité de traduction est décidée par le « modèle », pas par l'« outil ». La cohérence du ton sur les longs documents penche vers Claude ; le naturel des langues européennes/est-asiatiques et des idiomes penche vers GPT ; l'étendue à travers les langues peu dotées et les dialectes penche vers Gemini — un schéma sur lequel plusieurs sources s'accordent. Le meilleur choix change selon la paire de langues.

2. Il y a deux questions — séparer « l'environnement » de « la qualité »

Reformulons le point clé de l'introduction, d'un cran plus soigneusement. Claude Code et Codex sont des environnements de travail CLI (ligne de commande) agentiques. Ils lisent des fichiers, les modifient, lancent des tests et ouvrent des PR — essentiellement des « ouvriers qui agissent de manière autonome ». De leur côté, la « compétence linguistique » de cet ouvrier est fournie par le modèle qui tourne en dessous (Claude Opus/Sonnet, GPT-5.5, Gemini 3.1 Pro, etc.).

Autrement dit, « est-il bon en traduction ? » est avant tout une question de modèle, tandis que « peut-il mener le travail de traduction de manière efficace, précise et à grande échelle ? » est une question d'outil. Donc si vous mélangez les deux axes et demandez « lequel est le plus fort en traduction ? » d'un seul bloc, vous perdez la réponse. Cet article couvre l'outil aux sections 3-4, le modèle aux sections 5-6, et les met en pratique à la section 7.

3. Claude Code vs Codex — les différences qui comptent pour la traduction

D'abord, l'axe de l'outil. Les deux se ressemblent en tant que « codeurs CLI agentiques », et leurs performances générales de codage sont à peu près à parité au mai 2026. Mais une fois ramené aux différences qui comptent pour le travail de traduction, leurs caractères se distinguent nettement.

AspectClaude CodeCodex
Où il s'exécuteCollaboration en temps réel sur votre machine localeExécution asynchrone dans un bac à sable cloud
Accès aux fichiersLit/écrit directement tous les fichiers locauxBasé sur un bac à sable ; les opérations sur fichiers/PC sont relativement limitées
Fenêtre de contexte (approx.)Jusqu'à ~1M tokens (gamme Opus)Jusqu'à ~400K tokens
Édition cohérente multi-fichiersForte (facile d'aligner les termes/le ton entre fichiers)Possible, mais les éditions massives simultanées ressentent la limite de contexte
Exécution parallèleFacile de lancer des sous-agents en parallèleFort sur les tâches asynchrones et les exécutions sans intervention
Nature de la CLIFournie par Anthropic (intégration IDE poussée)Open source (Apache-2.0), facile à intégrer dans votre propre pipeline
Fourchette de prixParticuliers $20-$200/mois (similaire)Particuliers $20-$200/mois (similaire)

Rappelons la réalité du travail de traduction. Ce que vous traduisez n'est pas seulement de la « prose brute ». Il y a des balises HTML/Markdown, des blocs de code, des glossaires, des traductions existantes, des conventions de nommage de fichiers — et vous devez les traiter à travers des dizaines de fichiers, de manière cohérente, sans rien casser. C'est là que (1) l'accès direct à tous les fichiers locaux, (2) une grande fenêtre de contexte et (3) une édition cohérente multi-fichiers fiable portent leurs fruits. Même dans les comparaisons générales, Claude Code est bien noté pour la « qualité sur les refontes multi-fichiers difficiles », tandis que Codex est apprécié pour « l'automatisation asynchrone des PR, le coût par tâche et la sécurité du bac à sable ». Pour une comparaison globale complète, voir Claude Code vs Codex : une comparaison approfondie.

4. Quel outil convient aux tâches de traduction

Reporter les différences ci-dessus sur « trois scénarios de traduction typiques » rend la correspondance évidente.

QUEL OUTIL ?

L'outil adapté, par scénario

Traduire de nombreux fichiers d'un dépôt
→ Claude Code
Traduire à travers les fichiers, en préservant structure, balises et termes. Premier choix.
Lot nocturne sans intervention → PR
→ Codex
L'asynchrone, le bac à sable et l'automatisation des PR prennent vie.
Traduction ponctuelle de haute qualité de quelques fichiers
→ Les deux conviennent
La différence est dominée par le choix du modèle. La qualité dépend du modèle.

En cas de doute : si l'objectif principal est de « traduire les fichiers en main de manière cohérente, sans casser la structure », utilisez Claude Code.
Si vous voulez que ça « tourne automatiquement comme un CI / un lot nocturne », l'opération asynchrone de Codex tombe à pic.

Pour ajouter : pour traduire de grands sites multilingues ou de la documentation (des dizaines à des centaines de fichiers, où l'unification des termes est obligatoire), Claude Code — qui peut modifier directement les fichiers locaux et dispose d'une grande fenêtre de contexte — est plus facile à manier. Sa force est l'impression d'un « partenaire senior » quand vous voulez garantir la qualité tout en vérifiant au fil de l'eau. À l'inverse, si vous voulez intégrer la traduction dans une tâche planifiée entièrement automatisée, Codex — facile à mettre en pipeline en tant que CLI open source et capable de tourner en asynchrone, sans intervention — entre en jeu.

5. Modèles recommandés — choisir selon la qualité de traduction

Passons maintenant à l'axe du modèle. Comme la qualité du résultat est décidée par le modèle, pas par l'outil, c'est le cœur du sujet. Un postulat important : « un bon score de benchmark de codage » ne signifie pas « bon en traduction ». La traduction met à l'épreuve une compétence différente — le ton, les idiomes, le contexte culturel, la couverture des langues peu dotées.

Commençons par les données primaires les plus fiables. Anthropic publie officiellement les performances par langue relatives à l'anglais (scores relatifs sur MMLU traduit dans chaque langue par des traducteurs professionnels). Voici un extrait pour les langues que ce site gère (les chiffres concernent la gamme Claude Opus avec réflexion étendue ; anglais = 100%).

LangueScore vs anglais (Claude)Niveau
Espagnol98.1%Niveau supérieur
Français97.9%Niveau supérieur
Portugais (Brésil)97.8%Niveau supérieur
Allemand97.7%Niveau supérieur
Arabe97.1%Élevé
Chinois (simplifié)97.1%Élevé
Japonais96.9%Élevé
Hindi96.8%Élevé

Ce qu'on peut en déduire : Claude tient un niveau très élevé de 96-98% relatif à l'anglais sur les grandes langues. Il est particulièrement bien considéré pour les langues où la cohérence du ton et du registre compte, comme l'allemand, le japonais et le coréen — un avis sur lequel les sources s'accordent largement (à noter : ce score est un proxy de raisonnement MMLU, et non la qualité de traduction pure en soi). Par ailleurs, chaque modèle a ses propres couleurs de forces et de faiblesses. Voici les tendances répétées à travers plusieurs sources.

FORCES DES MODÈLES

Les couleurs de chaque modèle en traduction

Claude (Opus / Sonnet)
Fort pour la cohérence du ton et du registre sur les longs documents. Son grand contexte lui permet de traduire tout le texte d'un coup sans le découper. Bien considéré pour l'allemand, le japonais, le coréen.
GPT (gamme GPT-5.5)
Résultat naturel dans les grandes langues européennes/est-asiatiques. Souvent loué pour son traitement fluide des idiomes et tournures de phrase.
Gemini (3.1 Pro / Flash)
La couverture linguistique la plus large. Fort sur les langues peu dotées et les dialectes régionaux. La gamme Flash est bon marché et rapide pour les gros lots.

Ce sont des « tendances » rapportées de façon répétée à travers plusieurs médias, et non un classement figé.
Les versions de modèles se mettent souvent à jour, alors tranchez toujours en testant vos propres paires de langues.

L'essentiel, c'est qu'avec Claude Code comme avec Codex, vous pouvez choisir et changer le modèle que vous appelez. Une combinaison réaliste est donc « outil = Claude Code, mais lancer aussi des contrôles de qualité via un modèle différent ». Dans la génération Opus 4.8, l'« honnêteté » s'est nettement améliorée, rendant le modèle plus enclin à signaler lui-même les passages incertains — ce qui aide aussi à l'efficacité de la relecture de traduction.

6. Choisir selon la langue et le cas d'usage

Transformons les tendances ci-dessus en décisions pratiques.

SituationPencher versPourquoi
Longs documents dans un ton unifiéClaude (Opus/Sonnet)Tout le texte d'un coup dans un grand contexte ; registre et termes cohérents
Naturel dans les grandes langues européennes/est-asiatiquesGamme GPT-5.5 / ClaudeIdiomes et tournures de phrase fluides
Étendue vers les langues peu dotées / dialectesGemini 3.1 ProLarge couverture linguistique
Traduction en lot de gros volume, à faible coûtGemini Flash / les modèles légers et rapides de chaque éditeurÉquilibre entre vitesse et coût
Documents spécialisés (juridique, médical, etc.)Meilleur modèle + relecture humaine obligatoireDomaines où une erreur de traduction est inacceptable

La meilleure pratique réaliste est la « répartition des tâches », pas « un seul modèle pour tout ». Par exemple, générer un premier jet rapide et bon marché avec un modèle léger, puis peaufiner uniquement les langues qui exigent de la qualité avec un meilleur modèle. Ou combiner une traduction principale avec un contre-contrôle par un modèle différent. Les environnements agentiques comme Claude Code / Codex sont bien adaptés à l'exécution automatique de ce type de pipeline multi-modèles.

7. En pratique : construire un pipeline de traduction

Une fois l'outil et le modèle décidés, construisez un « gabarit » qui stabilise la qualité. Voici des points pratiques pour mener une traduction multilingue avec une CLI agentique.

5 règles d'or de la traduction agentique

  1. Fixez une seule langue source — l'anglais (ou le japonais) — comme base unique. Traduire toutes les langues à partir d'une seule base maintient la qualité alignée.
  2. Transmettez un glossaire. Mettez en dictionnaire les traductions des noms de marque, noms propres et chaînes d'interface, et unifiez-les dans toutes les langues.
  3. Indiquez explicitement « préservez la structure, les balises et le code ; ne traduisez que la prose ». Ne le laissez pas toucher aux valeurs d'attributs HTML ni au code.
  4. Lancez les langues en parallèle. Lancer 8 langues d'un coup est rapide (surveillez les limites de débit de l'API).
  5. Effectuez un contrôle qualité mécanique à la fin. Détectez automatiquement le texte resté non traduit, la ponctuation interchangée, les dépassements de nombre de caractères, etc.

Une fois ce gabarit en place, le flux « premier jet → lint automatisé → l'humain ne vérifie que les points clés » peut être nettement plus rapide tout en tenant la qualité. Maîtriser la conception des prompts et le fonctionnement des agents élève encore la précision du pipeline. Et lorsque vous traduisez du texte importé de l'extérieur, n'oubliez pas la conception des permissions et les contre-mesures contre l'injection de prompts.

8. Réserves (dites honnêtement)

Enfin, des réserves énumérées honnêtement pour que vous ne vous trompiez pas de jugement.

  • Benchmark ≠ qualité de traduction réelle. Les scores relatifs à l'anglais présentés ici sont un proxy de raisonnement MMLU et ne correspondent pas pleinement au naturel/à l'exactitude du résultat. Testez toujours sur votre propre paire de langues et votre genre.
  • Les versions de modèles changent fréquemment. « X est le meilleur » devient obsolète en quelques mois. Un modèle d'exploitation fondé sur la « répartition des tâches + les tests réels » survit à une conclusion figée.
  • La traduction spécialisée, juridique et médicale exige une relecture humaine. Là où le coût d'une erreur de traduction est élevé, cantonnez l'IA au premier jet et laissez l'humain porter la responsabilité finale.
  • Concevez le coût autour de « qualité × volume ». Tout traduire avec un meilleur modèle coûte cher. Rédiger avec un modèle bon marché, peaufiner uniquement les parties clés avec un meilleur modèle — c'est économique.
  • Les contraintes du bac à sable de Codex. Pour modifier directement de nombreux fichiers locaux, un bac à sable cloud peut devenir une limitation dans certains cas.

Synthèse

La réponse à « lequel convient à la traduction multilingue, Claude Code ou Codex ? » commence par scinder la question en deux. En tant qu'environnement de travail, pour traduire de nombreux fichiers d'un dépôt de manière cohérente tout en préservant la structure, Claude Code convient (édition directe des fichiers locaux, contexte 1M, cohérence multi-fichiers). Pour les lots asynchrones, dans le cloud, sans intervention / l'automatisation des PR, Codex tombe à pic.

Et la qualité de traduction est décidée par le modèle, pas par l'outil. Compte tenu des tendances — Claude pour la cohérence du ton des longs documents, la gamme GPT pour le naturel des grandes langues, la gamme Gemini pour l'étendue à travers les langues peu dotées et les dialectes — la réponse réaliste pour 2026 est de choisir le meilleur par paire de langues et de répartir les tâches entre le brouillon et la finition. Une dernière insistance : plutôt que de chasser un « meilleur modèle » figé, testez sur vos propres tâches et gardez un pipeline qui mélange plusieurs modèles — c'est la façon la plus avisée de ne pas être ballotté par chaque nouvelle génération de modèles.

Lecture liée : Claude Code vs Codex : une comparaison approfondie, Analyse approfondie de Claude Opus 4.8, Comparaison GPT-5.5 vs Claude Opus, Comparaison des offres gratuites ChatGPT / Claude / Gemini, et Qu'est-ce que le Claude Agent SDK.

FAQ

Q. Alors, quel modèle traduit le mieux ?
A. « Cela dépend de la paire de langues et du cas d'usage » est la réponse honnête. La cohérence du ton des longs documents penche vers Claude ; le résultat naturel et les idiomes des grandes langues penchent vers la gamme GPT ; l'étendue à travers les langues peu dotées et les dialectes penche vers la gamme Gemini. Il n'y a pas de « meilleur » figé, et les versions se mettent à jour vite, alors tester dans votre langue cible est la voie sûre.

Q. La qualité de traduction diffère-t-elle entre Claude Code et Codex ?
A. Les outils eux-mêmes ne produisent pas la traduction. La qualité est décidée par le modèle qui tourne en dessous. Comme vous pouvez choisir le modèle dans l'un comme l'autre, voyez-le comme « qualité = choix du modèle, efficacité = choix de l'outil ». Là où ils diffèrent, c'est dans la vitesse, l'exactitude et la facilité de traitement à grande échelle du travail.

Q. Pour traduire un site multilingue de dizaines de fichiers ?
A. Claude Code est plus facile à manier. Il lit et écrit directement tous les fichiers locaux, peut référencer ensemble le corps du texte, le glossaire et les traductions existantes dans un contexte de 1M de tokens, et est performant pour unifier les termes et le ton à travers de nombreux fichiers. Lancer les langues en parallèle rend la traduction de gros volume faisable en un temps réaliste.

Q. Des astuces pour maîtriser les coûts ?
A. La répartition des tâches. Tout traduire avec un meilleur modèle revient cher. Rédigez un premier jet rapide et bon marché avec un modèle léger (par ex. Gemini Flash), puis peaufinez uniquement les langues/points qui exigent de la qualité avec un meilleur modèle. Si la mise en cache des prompts ou le traitement par lots est disponible, utilisez-les pour réduire significativement les coûts de traduction de gros volume.

Q. La traduction par IA convient-elle aux documents spécialisés (contrats, médical) ?
A. Cantonnez-la au premier jet, et faites faire le contrôle final par un expert du domaine. Dans les domaines où le coût d'une erreur de traduction est élevé, l'exploitation en solo est risquée avec n'importe quel meilleur modèle. Accélérez les choses avec l'IA, mais laissez l'humain porter le contrôle final responsable — cette ligne est la sûre.