En 2023, une fenêtre de contexte de 32 K tokens semblait « spacieuse ». En mai 2026, 1 million de tokens (1 M) est devenu le standard de l'industrie. Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.5, Gemini 3.1 Pro, DeepSeek V4-Pro — tous les modèles frontière majeurs prennent en charge 1 M. Gemini 3.1 Ultra a atteint 2 M.

« Un million de tokens » correspond à environ 8 à 10 livres de poche en anglais, ou à des dizaines de milliers de lignes de code source. Nous pouvons désormais garder autant de matière « en vue » dans une seule session. Mais voici le hic : un seul de ces modèles utilise réellement ce contenant jusqu'au bout. Des benchmarks indépendants (NIAH multi-aiguilles, détaillés plus bas) montrent que seul le mode Gemini 3 Deep Think conserve sa précision sur la totalité du 1 M. Les autres commencent à perdre en précision quelque part entre 200 K et 400 K — voilà la réalité honnête du terrain en 2026.

Mon avis d'entrée de jeu : l'ère où l'on choisissait un modèle uniquement sur la taille du contenant est révolue. Ce qui compte désormais, c'est le trio « contexte effectif × coût × stratégie », et le passage d'Anthropic à une tarification 1 M à taux fixe est la nuance la plus intéressante de l'année. Cet article détaille ce qu'est réellement le contexte, le panorama des modèles en mai 2026, pourquoi « plus grand » ne suffit pas en soi, les différences de structure de coût et cinq tactiques pratiques d'économie de contexte que les développeurs solo et les petites équipes peuvent appliquer dès aujourd'hui — appuyées sur des chiffres de benchmarks indépendants.

FENÊTRE DE CONTEXTE · 2023→2026

Le contenant a grossi x250 en trois ans

— Chronologie de la transition du 1 M, du luxe au standard

2023
4 K–32 K
GPT-3.5, premiers GPT-4. Tout juste de quoi loger un seul article de recherche.
2024
128 K–200 K
Claude 3 / GPT-4 Turbo. Dix articles ou un roman complet.
2025
1 M–2 M
Claude 4.6 / Gemini 1.5 Pro ouvrent le 1 M. Gemini Ultra atteint 2 M.
2026
1 M = standard
Opus 4.7, Sonnet 4.6, GPT-5.5, Gemini 3.1, DeepSeek V4 — tous au rendez-vous.

Mais « prendre en charge » et « lire vraiment jusqu'au bout » sont deux choses différentes. Seul Gemini 3 Deep Think conserve sa précision sur la totalité du 1 M dans les benchmarks NIAH multi-aiguilles ;
les autres se dégradent dès 200 K–400 K (Digital Applied, Zylos 2026).

1. Cinq modèles à 1 M de tokens en un an — mais un seul lit vraiment jusqu'au bout

Quand OpenAI a annoncé GPT-5.5 en avril 2026, le web a applaudi : « OpenAI atteint enfin 1 M ». Le même mois, Google sortait Gemini 3.1 Ultra avec 2 M. Anthropic avait introduit une tarification 1 M à taux fixe sur Claude Opus 4.6 l'année précédente et l'avait confirmée avec 4.7. Le V4-Pro de DeepSeek est lui aussi à 1 M. Cinq fournisseurs frontière peuvent désormais légitimement écrire « 1 M+ tokens » sur la fiche technique.

Cela aurait dû être un événement majeur. Il y a tout juste trois ans, 32 K faisait sensation. Nous avons vu un bond de plus de x30 de la taille de la fenêtre depuis. La course à la taille du contenant semblait gagnée.

Puis les évaluateurs indépendants Digital Applied et Zylos Research ont fait passer en 2026 un test Needle-in-a-Haystack (NIAH) multi-aiguilles — insérant plusieurs faits dans de longs documents et demandant aux modèles de tous les retrouver correctement. Voici ce qu'ils ont constaté :

  • Gemini 3 Deep Think : conserve la précision annoncée sur la totalité du 1 M
  • Claude Opus 4.7 / GPT-5.5 / DeepSeek V4-Pro : la précision chute dès 200 K–400 K

Donc même si le « support 1 M » est universel, un seul modèle utilise réellement ce 1 M jusqu'au bout dans des conditions équivalentes à la production. Avec les autres modèles frontière, leur demander d'intégrer plusieurs faits commence à montrer ses limites entre 200 K et 400 K. C'est la réalité de 2026.

Ne lisez pas cela comme « Claude ou GPT est mauvais ». Les cas d'usage qui exigent réellement la totalité du 1 M sont rares. Si vous pouvez lire 300 K (≈ 2-3 livres de poche) de manière fiable, presque toutes les tâches de codage, de recherche ou de synthèse sont couvertes. Le piège, c'est de choisir un modèle uniquement sur l'argument « support 1 M » — cela fausse la décision.

2. Qu'est-ce que le contexte ? — Distinguer le contenant de son contenu

Petit point de terminologie. Trois mots se mélangent dans ce domaine.

Trois termes

Token, fenêtre, contexte

① TOKEN — Unité de texte
La plus petite unité dans laquelle l'IA traite le texte. ~4 caractères anglais par token (soit ~0,75 mot) ; les langues CJC tournent à environ 1 à 1,5 token par caractère.
② FENÊTRE — Taille du contenant
Le nombre maximum de tokens qu'un modèle peut gérer dans un seul échange. Entrée plus sortie combinées. Tout ce qui dépasse est coupé du côté le plus ancien.
③ CONTEXTE — Le contenu
Ce qui est actuellement chargé dans la fenêtre. Inclut le prompt système, l'historique de conversation, les pièces jointes, les sorties d'outils — tout, en somme.

En bref : « fenêtre = taille du contenant », « contexte = contenu », « token = unité ».
Un grand contenant avec un contenu désordonné vous donnera des réponses désordonnées.

Et ne confondez pas non plus « contexte » et « mémoire ». Le contexte vit à l'intérieur de la session — fermez le chat et il disparaît. Des fonctionnalités comme ChatGPT Memory ou Claude Memory, en revanche, sont un mécanisme de rétention transversal aux sessions. Le contenu de la mémoire finit par être injecté dans la fenêtre de contexte, mais du point de vue de l'utilisateur, c'est du stockage persistant vs un espace de travail éphémère.

Idée fausse courante : « Une fenêtre de contexte plus grande = une IA plus intelligente » est faux. La taille de la fenêtre n'est que la borne supérieure de ce qui peut être en vue. La capacité de raisonnement, la profondeur des connaissances et la précision dans le suivi des instructions se mesurent séparément. Chaque sortie de modèle met « 1 M de contexte ! » en titre, mais ce n'est qu'une facette de la capacité.

3. Les principaux modèles en mai 2026 — Tailles de contenant

Définitions posées, voici les tailles de contenant publiées aujourd'hui par les principaux fournisseurs. Tous les chiffres proviennent des spécifications officielles à mai 2026.

ModèleLimite d'entréeLimite de sortieNotes
Claude Opus 4.71 000 000128 0001 M à taux fixe au tarif standard, sans en-tête bêta requis
Claude Sonnet 4.61 000 00064 000Même tarif fixe
Claude Haiku 4.5200 00064 000Modèle léger, pas de palier 1 M
GPT-5.5922 000128 000API total ~1 M ; prix d'entrée x2 au-delà de 272 K
GPT-5.41 000 000128 000Même surcoût pour long contexte
Gemini 3.1 Pro1 000 00065 535Disponible via Vertex AI / AI Studio
Gemini 3.1 Ultra2 000 00065 535Palier 2 M — actuellement le seul modèle commercial 2 M
Grok 4256 00032 000Spec officielle xAI ; conservateur parmi les frontières
DeepSeek V4-Pro1 000 00096 000Le plus large dans la catégorie open-weight

À la seule lecture du tableau, on conclurait « Gemini Ultra gagne, fin de l'histoire ». Mais il y a un fait à mettre en gras : Anthropic propose le 1 M à taux fixe sur Opus 4.6/4.7 et Sonnet 4.6, tandis qu'OpenAI double le prix d'entrée sur GPT-5.5 au-dessus de 272 K tokens. Ce n'est pas qu'un simple curseur tarifaire — c'est une posture stratégique sur la manière dont les charges de long contexte doivent être traitées. Nous creuserons le calcul de coût dans une section ultérieure.

Personnellement, je garde Claude Opus 4.7 comme bête de somme pour le travail au long cours. Trois raisons : tarif fixe, précision stable jusque dans la bande des 200 K et qualité de la documentation Anthropic. Pour les documents qui dépassent réellement 300 K, je passe à Gemini 3 Deep Think. Mélanger les modèles selon le cas d'usage est le bon réflexe en 2026.

4. Trois raisons pour lesquelles « plus grand = mieux » ne tient pas

Le tableau précédent listait simplement les tailles physiques du contenant. La question plus dure, c'est de savoir si les modèles utilisent réellement ce qu'ils annoncent. Réponse courte : hors Gemini 3 Deep Think, c'est sombre. Trois raisons.

Raison ① : Lost in the Middle

Documenté pour la première fois par Stanford en 2023 et reproduit à chaque génération de modèle depuis. L'IA pondère fortement le début et la fin de l'entrée tout en minorant le milieu (la zone de position 30-70 %). Une information placée près du centre d'un contexte de 100 K est récupérée avec une précision inférieure de 5 à 15 points à la même information placée au début ou à la fin.

Le symptôme du quotidien : « coller un long PDF, demander "quel est le chiffre pour X ?", et le modèle se trompe sur le nombre qui est pile au milieu ». C'est Lost in the Middle. Trois ans après l'article original de Stanford, même les modèles frontière n'ont pas entièrement comblé l'écart.

Raison ② : Context Rot

Plus une conversation s'étire, plus vos instructions initiales s'estompent. Vous avez dit « répondez en français soutenu » au début ; vingt tours plus tard, le modèle est revenu à un phrasé décontracté — c'est le Context Rot.

Deux causes. ① Les instructions initiales sont relativement anciennes et pondérées plus légèrement dans l'historique. ② Avec un long historique, l'attention se disperse et il devient plus difficile de référencer des tokens spécifiques. Anthropic, en 2026, a commencé à formuler cela comme du « context engineering » — une compétence délibérée pour gérer ces effets.

Raison ③ : Contexte annoncé ≠ Contexte effectif

Voici à quoi ressemblent réellement les derniers benchmarks de 2026 (NIAH multi-aiguilles, conditions équivalentes à la production).

NIAH multi-aiguilles × 4 modèles

Contexte effectif (intégration multi-faits)

Gemini 3 Deep Think ~Tout le 1 M
Claude Opus 4.7 ~200 K–400 K
GPT-5.5 ~200 K–400 K
DeepSeek V4-Pro ~200 K–400 K

Sources : Digital Applied « Long-Context Retrieval 2026 » / Zylos Research « LLM Context Window Management 2026 ».
Sur le NIAH mono-aiguille (un seul fait à retrouver), tous les modèles passent le 1 M, mais l'intégration multi-faits raconte une autre histoire.

Pour le redire : ce n'est pas « Claude Opus 4.7 est cassé ». 200 K–400 K, c'est encore l'équivalent de 2 à 3 romans de poche en capacité. La plupart des tâches du monde réel (revue de code, écriture longue, comptes rendus de réunion, synthèse de recherche) se terminent largement dans cette plage. Le problème, c'est l'hypothèse selon laquelle « puisque c'est 1 M, il suffit d'y déverser 1 M » — cette stratégie ne marche que sur Gemini Deep Think.

5. Le piège du coût — OpenAI double au-dessus de 272 K, Anthropic reste à plat

Nous venons d'établir que « l'effectif est de 200 K–400 K ». Ajoutez par-dessus le second piège : les entrées en long contexte font bondir la facture. Anthropic et OpenAI ont adopté ici des stratégies opposées.

ModèlePrix d'entrée standardSurcoût long contexte
Claude Opus 4.75,00 $ / 1 M tokensPlat sur tout le 1 M, sans surcoût
Claude Sonnet 4.63,00 $ / 1 M tokensIdem — sans surcoût
GPT-5.55,00 $ / 1 M tokensAu-dessus de 272 K : x2 en entrée, x1,5 en sortie
GPT-5.4ComparableMême surcoût long contexte

Calcul concret. 500 K tokens en entrée + 50 K tokens en sortie, un aller-retour — le cas canonique de la synthèse d'un gros codebase ou d'un rapport annuel en une seule passe.

  • Claude Opus 4.7 : 5,00 $ × 0,5 + 25,00 $ × 0,05 = 3,75 $
  • GPT-5.5 (avec le surcoût pour dépassement de 272 K) : 10,00 $ × 0,5 + 45,00 $ × 0,05 = 7,25 $

Soit 3,50 $ par appel. Lancez-le 100 fois par jour et l'écart atteint 10 500 $ par mois. Pour les équipes qui font tourner des agents au long cours, l'écart atteint facilement le milieu des cinq chiffres mensuels. Même schéma structurel que celui couvert dans Économies de tokens et de sessions IA.

Note : la tarification 1 M à taux fixe d'Anthropic a été présentée comme une « différenciation intentionnelle » dans l'analyse de Finout d'avril 2026. Là où OpenAI monétise les utilisateurs de long contexte, Anthropic positionne le « utilisez le long contexte sans hésiter » comme une valeur de marque.

6. Cinq tactiques d'économie — classées par impact réel pour les devs solo

« Le contenant fait 1 M mais l'effectif est ~300 K, et l'utiliser longtemps coûte cher. » Tout cela est posé. Alors que peut-on faire concrètement sur le terrain ? Voici cinq tactiques que j'utilise au quotidien, classées par le bénéfice le plus important.

Cinq conseils pratiques

Économiser le contexte — Ordre de priorité

① Couper la session
Quand le sujet change, ouvrez un nouveau chat. Le simple fait d'empêcher l'ancien contexte de se reporter élimine le Context Rot. Dans Claude Code, utilisez /compact ou démarrez une nouvelle session.
② Envoyer des extraits, pas des textes complets
Coller un PDF de 100 pages en entier est le pire des réflexes. Utilisez grep/recherche pour extraire les sections pertinentes, compressez à 3-5 pages, puis envoyez. L'esprit RAG, appliqué en solo.
③ Répéter les instructions clés à la fin
Contre-mesure pour Lost-in-the-Middle. Reformulez la règle du début en une ligne à la fin : « Compte tenu de ce qui précède, sortez au format X. »
④ Mise en cache des prompts
Si vous réutilisez le même prompt système de manière répétée, la fonctionnalité de cache d'Anthropic / OpenAI fait baisser le prix d'entrée jusqu'à 90 %. Si vous tapez l'API, configurez ça en premier.
⑤ Rendre les adresses de fichiers explicites
Préciser « fichier N, ligne X » améliore la précision de récupération en long contexte. Voyez ça comme tendre à l'IA une table des matières avec des entrées d'index.

Des cinq, la tactique ① « Couper la session » donne le gain visible le plus important. Couper le chat réduit nettement les hallucinations.
La tactique ④ s'adresse aux développeurs API — les UI (claude.ai / ChatGPT) gèrent le cache automatiquement.

Ma meilleure pratique personnelle : se contenter de faire ① et ② avec constance déplace nettement la précision perçue. Même avec Claude Code, plutôt que de pousser une longue session unique, frapper /compact ou démarrer une session fraîche à chaque changement de sujet maintient stable la qualité finale du rendu.

Résumé

Récapitulatif :

  • Fenêtre de contexte = le maximum de tokens qu'une IA peut gérer en un échange. La taille du contenant.
  • En mai 2026, Claude Opus 4.7 / Sonnet 4.6 / GPT-5.5 / Gemini 3.1 Pro / DeepSeek V4-Pro prennent tous en charge 1 M ; Gemini 3.1 Ultra atteint 2 M.
  • Les benchmarks indépendants (NIAH multi-aiguilles) montrent que seul Gemini 3 Deep Think conserve la précision sur la totalité du 1 M ; les autres commencent à faiblir entre 200 K et 400 K.
  • Côté coût, Anthropic reste à plat tandis qu'OpenAI applique un surcoût au-dessus de 272 K. Divergence stratégique nette.
  • Les cinq tactiques — couper la session, envoyer des extraits, reformuler à la fin, mettre en cache, adresser explicitement — et les tactiques ① et ② pèsent le plus.

Même avec des contenants plus grands, le vrai travail consiste toujours à décider ce que l'on envoie et ce que l'on laisse de côté. La compétence IA de 2026, ce n'est pas « tout fourrer dedans ». C'est le jugement pour n'envoyer que ce qui est nécessaire, avec précision — et c'est cela qui reste utile sur la durée. Après avoir vu cinq fournisseurs se couronner « 1 M » cette année, c'est ma conclusion.

FAQ

Q1. Comment compter les tokens avant d'envoyer ?

OpenAI propose la bibliothèque tiktoken ; Anthropic expose une API équivalente countTokens() dans le SDK officiel. Règle empirique : ~0,75 mot anglais par token, ~1 à 1,5 token par caractère CJC. Le code varie selon le tokenizer ; mesurez avant d'envoyer de longues entrées.

Q2. En quoi la « mémoire » diffère-t-elle du contexte ?

Le contexte vit uniquement à l'intérieur de la session — fermez le chat et il disparaît. La mémoire (ChatGPT Memory / Claude Memory) est un mécanisme de rétention transversal aux sessions à part. Le contenu de la mémoire finit injecté dans la fenêtre de contexte, mais du point de vue de l'utilisateur, c'est persistant vs éphémère.

Q3. Comment le RAG se rapporte-t-il à la fenêtre de contexte ?

Le RAG, c'est le motif de « charger dynamiquement uniquement l'information nécessaire dans le contexte ». Même avec une fenêtre de 1 M, tout déverser rend l'exécution lente, lourde et coûteuse, donc le « récupérer puis charger » (RAG) reste l'approche dominante. Voir Qu'est-ce que le RAG pour plus de détails.

Q4. Pourquoi la précision se dégrade-t-elle à 300 K alors que 1 M est pris en charge ?

Le décalage entre les longueurs de séquence à l'entraînement et à l'inférence, les limites d'encodage positionnel du mécanisme d'attention et l'explosion de calcul nécessaire pour intégrer plusieurs faits s'accumulent. « Pris en charge » et « précision maintenue sur toute la plage » sont deux problèmes distincts.

Q5. Les serveurs MCP économisent-ils du contexte ?

Oui. MCP est un mécanisme de récupération à la demande via des outils, donc vous n'avez pas besoin de tout charger dans le contexte d'emblée. Basculez du modèle mental « coller le fichier entier » à « le laisser aller lire le fichier ».