Table des matières
- 1. Cinq modèles à 1 M de tokens en un an — mais un seul lit vraiment jusqu'au bout
- 2. Qu'est-ce que le contexte ? — Distinguer le contenant de son contenu
- 3. Les principaux modèles en mai 2026 — Tailles de contenant
- 4. Trois raisons pour lesquelles « plus grand = mieux » ne tient pas
- 5. Le piège du coût — OpenAI double au-dessus de 272 K, Anthropic reste à plat
- 6. Cinq tactiques d'économie — classées par impact réel pour les devs solo
- Résumé
- FAQ
En 2023, une fenêtre de contexte de 32 K tokens semblait « spacieuse ». En mai 2026, 1 million de tokens (1 M) est devenu le standard de l'industrie. Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4-Pro — tous les modèles frontière majeurs prennent en charge 1 M. Gemini 3.1 Ultra a atteint 2 M.
« Un million de tokens » correspond à environ 8 à 10 livres de poche en anglais, ou à des dizaines de milliers de lignes de code source. Nous pouvons désormais garder autant de matière « en vue » dans une seule session. Mais voici le hic : un seul de ces modèles utilise réellement ce contenant jusqu'au bout. Des benchmarks indépendants (NIAH multi-aiguilles, détaillés plus bas) montrent que seul le mode Gemini 3 Deep Think conserve sa précision sur la totalité du 1 M. Les autres commencent à perdre en précision quelque part entre 200 K et 400 K — voilà la réalité honnête du terrain en 2026.
Mon avis d'entrée de jeu : l'ère où l'on choisissait un modèle uniquement sur la taille du contenant est révolue. Ce qui compte désormais, c'est le trio « contexte effectif × coût × stratégie », et le passage d'Anthropic à une tarification 1 M à taux fixe est la nuance la plus intéressante de l'année. Cet article détaille ce qu'est réellement le contexte, le panorama des modèles en mai 2026, pourquoi « plus grand » ne suffit pas en soi, les différences de structure de coût et cinq tactiques pratiques d'économie de contexte que les développeurs solo et les petites équipes peuvent appliquer dès aujourd'hui — appuyées sur des chiffres de benchmarks indépendants.
Le contenant a grossi x250 en trois ans
— Chronologie de la transition du 1 M, du luxe au standard
Mais « prendre en charge » et « lire vraiment jusqu'au bout » sont deux choses différentes. Seul Gemini 3 Deep Think conserve sa précision sur la totalité du 1 M dans les benchmarks NIAH multi-aiguilles ;
les autres se dégradent dès 200 K–400 K (Digital Applied, Zylos 2026).
1. Cinq modèles à 1 M de tokens en un an — mais un seul lit vraiment jusqu'au bout
Quand OpenAI a annoncé GPT-5.5 en avril 2026, le web a applaudi : « OpenAI atteint enfin 1 M ». Le même mois, Google sortait Gemini 3.1 Ultra avec 2 M. Anthropic avait introduit une tarification 1 M à taux fixe sur Claude Opus 4.6 l'année précédente et l'avait confirmée avec 4.7. Le V4-Pro de DeepSeek est lui aussi à 1 M. Cinq fournisseurs frontière peuvent désormais légitimement écrire « 1 M+ tokens » sur la fiche technique.
Cela aurait dû être un événement majeur. Il y a tout juste trois ans, 32 K faisait sensation. Nous avons vu un bond de plus de x30 de la taille de la fenêtre depuis. La course à la taille du contenant semblait gagnée.
Puis les évaluateurs indépendants Digital Applied et Zylos Research ont fait passer en 2026 un test Needle-in-a-Haystack (NIAH) multi-aiguilles — insérant plusieurs faits dans de longs documents et demandant aux modèles de tous les retrouver correctement. Voici ce qu'ils ont constaté :
- Gemini 3 Deep Think : conserve la précision annoncée sur la totalité du 1 M
- Claude Opus 4.7 / GPT-5.5 / DeepSeek V4-Pro : la précision chute dès 200 K–400 K
Donc même si le « support 1 M » est universel, un seul modèle utilise réellement ce 1 M jusqu'au bout dans des conditions équivalentes à la production. Avec les autres modèles frontière, leur demander d'intégrer plusieurs faits commence à montrer ses limites entre 200 K et 400 K. C'est la réalité de 2026.
Ne lisez pas cela comme « Claude ou GPT est mauvais ». Les cas d'usage qui exigent réellement la totalité du 1 M sont rares. Si vous pouvez lire 300 K (≈ 2-3 livres de poche) de manière fiable, presque toutes les tâches de codage, de recherche ou de synthèse sont couvertes. Le piège, c'est de choisir un modèle uniquement sur l'argument « support 1 M » — cela fausse la décision.
2. Qu'est-ce que le contexte ? — Distinguer le contenant de son contenu
Petit point de terminologie. Trois mots se mélangent dans ce domaine.
Token, fenêtre, contexte
En bref : « fenêtre = taille du contenant », « contexte = contenu », « token = unité ».
Un grand contenant avec un contenu désordonné vous donnera des réponses désordonnées.
Et ne confondez pas non plus « contexte » et « mémoire ». Le contexte vit à l'intérieur de la session — fermez le chat et il disparaît. Des fonctionnalités comme ChatGPT Memory ou Claude Memory, en revanche, sont un mécanisme de rétention transversal aux sessions. Le contenu de la mémoire finit par être injecté dans la fenêtre de contexte, mais du point de vue de l'utilisateur, c'est du stockage persistant vs un espace de travail éphémère.
3. Les principaux modèles en mai 2026 — Tailles de contenant
Définitions posées, voici les tailles de contenant publiées aujourd'hui par les principaux fournisseurs. Tous les chiffres proviennent des spécifications officielles à mai 2026.
| Modèle | Limite d'entrée | Limite de sortie | Notes |
|---|---|---|---|
| Claude Opus 4.7 | 1 000 000 | 128 000 | 1 M à taux fixe au tarif standard, sans en-tête bêta requis |
| Claude Sonnet 4.6 | 1 000 000 | 64 000 | Même tarif fixe |
| Claude Haiku 4.5 | 200 000 | 64 000 | Modèle léger, pas de palier 1 M |
| GPT-5.5 | 922 000 | 128 000 | API total ~1 M ; prix d'entrée x2 au-delà de 272 K |
| GPT-5.4 | 1 000 000 | 128 000 | Même surcoût pour long contexte |
| Gemini 3.1 Pro | 1 000 000 | 65 535 | Disponible via Vertex AI / AI Studio |
| Gemini 3.1 Ultra | 2 000 000 | 65 535 | Palier 2 M — actuellement le seul modèle commercial 2 M |
| Grok 4 | 256 000 | 32 000 | Spec officielle xAI ; conservateur parmi les frontières |
| DeepSeek V4-Pro | 1 000 000 | 96 000 | Le plus large dans la catégorie open-weight |
À la seule lecture du tableau, on conclurait « Gemini Ultra gagne, fin de l'histoire ». Mais il y a un fait à mettre en gras : Anthropic propose le 1 M à taux fixe sur Opus 4.6/4.7 et Sonnet 4.6, tandis qu'OpenAI double le prix d'entrée sur GPT-5.5 au-dessus de 272 K tokens. Ce n'est pas qu'un simple curseur tarifaire — c'est une posture stratégique sur la manière dont les charges de long contexte doivent être traitées. Nous creuserons le calcul de coût dans une section ultérieure.
Personnellement, je garde Claude Opus 4.7 comme bête de somme pour le travail au long cours. Trois raisons : tarif fixe, précision stable jusque dans la bande des 200 K et qualité de la documentation Anthropic. Pour les documents qui dépassent réellement 300 K, je passe à Gemini 3 Deep Think. Mélanger les modèles selon le cas d'usage est le bon réflexe en 2026.
4. Trois raisons pour lesquelles « plus grand = mieux » ne tient pas
Le tableau précédent listait simplement les tailles physiques du contenant. La question plus dure, c'est de savoir si les modèles utilisent réellement ce qu'ils annoncent. Réponse courte : hors Gemini 3 Deep Think, c'est sombre. Trois raisons.
Raison ① : Lost in the Middle
Documenté pour la première fois par Stanford en 2023 et reproduit à chaque génération de modèle depuis. L'IA pondère fortement le début et la fin de l'entrée tout en minorant le milieu (la zone de position 30-70 %). Une information placée près du centre d'un contexte de 100 K est récupérée avec une précision inférieure de 5 à 15 points à la même information placée au début ou à la fin.
Le symptôme du quotidien : « coller un long PDF, demander "quel est le chiffre pour X ?", et le modèle se trompe sur le nombre qui est pile au milieu ». C'est Lost in the Middle. Trois ans après l'article original de Stanford, même les modèles frontière n'ont pas entièrement comblé l'écart.
Raison ② : Context Rot
Plus une conversation s'étire, plus vos instructions initiales s'estompent. Vous avez dit « répondez en français soutenu » au début ; vingt tours plus tard, le modèle est revenu à un phrasé décontracté — c'est le Context Rot.
Deux causes. ① Les instructions initiales sont relativement anciennes et pondérées plus légèrement dans l'historique. ② Avec un long historique, l'attention se disperse et il devient plus difficile de référencer des tokens spécifiques. Anthropic, en 2026, a commencé à formuler cela comme du « context engineering » — une compétence délibérée pour gérer ces effets.
Raison ③ : Contexte annoncé ≠ Contexte effectif
Voici à quoi ressemblent réellement les derniers benchmarks de 2026 (NIAH multi-aiguilles, conditions équivalentes à la production).
Contexte effectif (intégration multi-faits)
Sources : Digital Applied « Long-Context Retrieval 2026 » / Zylos Research « LLM Context Window Management 2026 ».
Sur le NIAH mono-aiguille (un seul fait à retrouver), tous les modèles passent le 1 M, mais l'intégration multi-faits raconte une autre histoire.
Pour le redire : ce n'est pas « Claude Opus 4.7 est cassé ». 200 K–400 K, c'est encore l'équivalent de 2 à 3 romans de poche en capacité. La plupart des tâches du monde réel (revue de code, écriture longue, comptes rendus de réunion, synthèse de recherche) se terminent largement dans cette plage. Le problème, c'est l'hypothèse selon laquelle « puisque c'est 1 M, il suffit d'y déverser 1 M » — cette stratégie ne marche que sur Gemini Deep Think.
5. Le piège du coût — OpenAI double au-dessus de 272 K, Anthropic reste à plat
Nous venons d'établir que « l'effectif est de 200 K–400 K ». Ajoutez par-dessus le second piège : les entrées en long contexte font bondir la facture. Anthropic et OpenAI ont adopté ici des stratégies opposées.
| Modèle | Prix d'entrée standard | Surcoût long contexte |
|---|---|---|
| Claude Opus 4.7 | 5,00 $ / 1 M tokens | Plat sur tout le 1 M, sans surcoût |
| Claude Sonnet 4.6 | 3,00 $ / 1 M tokens | Idem — sans surcoût |
| GPT-5.5 | 5,00 $ / 1 M tokens | Au-dessus de 272 K : x2 en entrée, x1,5 en sortie |
| GPT-5.4 | Comparable | Même surcoût long contexte |
Calcul concret. 500 K tokens en entrée + 50 K tokens en sortie, un aller-retour — le cas canonique de la synthèse d'un gros codebase ou d'un rapport annuel en une seule passe.
- Claude Opus 4.7 : 5,00 $ × 0,5 + 25,00 $ × 0,05 = 3,75 $
- GPT-5.5 (avec le surcoût pour dépassement de 272 K) : 10,00 $ × 0,5 + 45,00 $ × 0,05 = 7,25 $
Soit 3,50 $ par appel. Lancez-le 100 fois par jour et l'écart atteint 10 500 $ par mois. Pour les équipes qui font tourner des agents au long cours, l'écart atteint facilement le milieu des cinq chiffres mensuels. Même schéma structurel que celui couvert dans Économies de tokens et de sessions IA.
6. Cinq tactiques d'économie — classées par impact réel pour les devs solo
« Le contenant fait 1 M mais l'effectif est ~300 K, et l'utiliser longtemps coûte cher. » Tout cela est posé. Alors que peut-on faire concrètement sur le terrain ? Voici cinq tactiques que j'utilise au quotidien, classées par le bénéfice le plus important.
Économiser le contexte — Ordre de priorité
/compact ou démarrez une nouvelle session.
Des cinq, la tactique ① « Couper la session » donne le gain visible le plus important. Couper le chat réduit nettement les hallucinations.
La tactique ④ s'adresse aux développeurs API — les UI (claude.ai / ChatGPT) gèrent le cache automatiquement.
Ma meilleure pratique personnelle : se contenter de faire ① et ② avec constance déplace nettement la précision perçue. Même avec Claude Code, plutôt que de pousser une longue session unique, frapper /compact ou démarrer une session fraîche à chaque changement de sujet maintient stable la qualité finale du rendu.
Résumé
Récapitulatif :
- Fenêtre de contexte = le maximum de tokens qu'une IA peut gérer en un échange. La taille du contenant.
- En mai 2026, Claude Opus 4.7 / Sonnet 4.6 / GPT-5.5 / Gemini 3.1 Pro / DeepSeek V4-Pro prennent tous en charge 1 M ; Gemini 3.1 Ultra atteint 2 M.
- Les benchmarks indépendants (NIAH multi-aiguilles) montrent que seul Gemini 3 Deep Think conserve la précision sur la totalité du 1 M ; les autres commencent à faiblir entre 200 K et 400 K.
- Côté coût, Anthropic reste à plat tandis qu'OpenAI applique un surcoût au-dessus de 272 K. Divergence stratégique nette.
- Les cinq tactiques — couper la session, envoyer des extraits, reformuler à la fin, mettre en cache, adresser explicitement — et les tactiques ① et ② pèsent le plus.
Même avec des contenants plus grands, le vrai travail consiste toujours à décider ce que l'on envoie et ce que l'on laisse de côté. La compétence IA de 2026, ce n'est pas « tout fourrer dedans ». C'est le jugement pour n'envoyer que ce qui est nécessaire, avec précision — et c'est cela qui reste utile sur la durée. Après avoir vu cinq fournisseurs se couronner « 1 M » cette année, c'est ma conclusion.
FAQ
OpenAI propose la bibliothèque tiktoken ; Anthropic expose une API équivalente countTokens() dans le SDK officiel. Règle empirique : ~0,75 mot anglais par token, ~1 à 1,5 token par caractère CJC. Le code varie selon le tokenizer ; mesurez avant d'envoyer de longues entrées.
Le contexte vit uniquement à l'intérieur de la session — fermez le chat et il disparaît. La mémoire (ChatGPT Memory / Claude Memory) est un mécanisme de rétention transversal aux sessions à part. Le contenu de la mémoire finit injecté dans la fenêtre de contexte, mais du point de vue de l'utilisateur, c'est persistant vs éphémère.
Le RAG, c'est le motif de « charger dynamiquement uniquement l'information nécessaire dans le contexte ». Même avec une fenêtre de 1 M, tout déverser rend l'exécution lente, lourde et coûteuse, donc le « récupérer puis charger » (RAG) reste l'approche dominante. Voir Qu'est-ce que le RAG pour plus de détails.
Le décalage entre les longueurs de séquence à l'entraînement et à l'inférence, les limites d'encodage positionnel du mécanisme d'attention et l'explosion de calcul nécessaire pour intégrer plusieurs faits s'accumulent. « Pris en charge » et « précision maintenue sur toute la plage » sont deux problèmes distincts.
Oui. MCP est un mécanisme de récupération à la demande via des outils, donc vous n'avez pas besoin de tout charger dans le contexte d'emblée. Basculez du modèle mental « coller le fichier entier » à « le laisser aller lire le fichier ».