Table des matières
- 1. L'obligation d'Amazon « 80 % d'usage hebdomadaire de l'IA » — et le pompage de tokens qui a suivi
- 2. Pourquoi « consommation de tokens = production de travail » s'est répandue
- 3. Données concrètes sur la divergence quantité–qualité
- 4. Trois distorsions observées sur le terrain
- 5. De meilleures métriques — AWU, DORA, axées résultats
- 6. Cinq actions pour les individus et les organisations dès aujourd'hui
- Résumé
- FAQ
En mai 2026, Tom's Hardware a rapporté que « les employés d'Amazon utilisent l'IA inutilement pour atteindre des quotas internes ». L'entreprise a fixé un objectif interne : « plus de 80 % des développeurs doivent utiliser des outils d'IA chaque semaine », avec la consommation de tokens affichée sur un tableau de classement interne. Les employés ont réagi en pompant des tokens : « faire passer des tâches de niveau copier-coller par l'IA quand même », « découper une question en plusieurs », « demander à Claude d'écrire de la poésie juste pour brûler des tokens ». Des comportements similaires ont été documentés chez Meta et Microsoft.
La Silicon Valley a donné un nom à cette tendance : « Tokenmaxxing ». Une nouvelle norme professionnelle où maximiser la consommation de tokens est récompensé. Presque toutes les entreprises du Fortune 500 suivent l'usage de l'IA, mais très peu mesurent le ROI (selon le CTO de ModelOp). La métrique « quantité utilisée = quantité de travail accompli » commence à orienter les décisions organisationnelles dans la mauvaise direction.
Mon avis d'emblée : « consommation de tokens = production de travail » est la rediffusion 2020 de la mesure des développeurs par KLOC (milliers de lignes de code) des années 1990. Le volume est facile à mesurer, mais volume et valeur sont des choses différentes. Une étude portant sur 22 000 développeurs et 4 000 équipes montre que l'usage de l'IA a augmenté l'achèvement des tâches de +34 %, mais que les bugs ont augmenté de +54 % et le temps de revue des PR a été multiplié par 5. Cet article explique pourquoi cette mauvaise métrique s'est répandue, ce qui cloche, quelles alternatives existent (AWU de Salesforce, DORA, métriques de résultats d'AWS) et cinq actions pratiques que les individus et les organisations peuvent entreprendre dès aujourd'hui — le tout étayé par des données de terrain et des sources primaires.
Ne mesurer que « combien » et le terrain s'effondre
— Volume +34 %, mais la qualité s'effrite : bugs +54 % / temps de revue ×5
Source : étude « Tokenmaxxing » de Faros AI (22 000 devs × 4 000 équipes).
Courir uniquement après le volume et le terrain s'effondre. La leçon déjà apprise du KLOC dans les années 1990 — répétée aujourd'hui avec une nouvelle unité.
1. L'obligation d'Amazon « 80 % d'usage hebdomadaire de l'IA » — et le pompage de tokens qui a suivi
En mai 2026, Tom's Hardware a publié une enquête qui a mis le « Tokenmaxxing » sur la carte. Amazon avait fixé un objectif interne : « plus de 80 % des développeurs doivent utiliser des outils d'IA chaque semaine ». La consommation de tokens était visualisée sur un tableau de classement interne, et les managers la mentionnaient dans les évaluations de performance.
Qu'ont fait les employés ? « Faire passer une tâche de niveau copier-coller par l'IA quand même. » « Découper une seule question en plusieurs. » « Faire écrire de la poésie à Claude juste pour brûler des tokens. » Une consommation à vide de tokens, sous un autre nom. Les employés d'Amazon cités par Tom's Hardware indiquent que la pression liée aux quotas était intense, et qu'ils étaient « en train de forcer l'IA dans des tâches où ne pas l'utiliser aurait été plus rapide ». Les mêmes schémas apparaissent chez Meta et Microsoft — ce n'est pas une histoire propre à Amazon.
Trending Topics (presse tech européenne) a résumé le basculement comme « une métrique technique devenue le credo d'une nouvelle culture de travail ». « Donner le spectacle de l'usage de l'IA » devient un axe d'évaluation à part entière. Cela se produit simultanément dans les entreprises du Fortune 500 en 2026.
2. Pourquoi « consommation de tokens = production de travail » s'est répandue
Pourquoi donc les grandes entreprises adoptent-elles une métrique aussi grossière dès le départ ? Trois raisons.
Raison ① : l'investissement en IA doit être justifié
Les entreprises du Fortune 500 ont investi des milliards dans l'IA ces deux dernières années. Chaque fois que le directeur financier ou le conseil d'administration demande « quel est le retour sur cet investissement ? », le CTO a besoin d'un chiffre. La consommation de tokens est le chiffre le plus facile à produire. Les logs des passerelles API, l'historique des conversations internes, l'usage des outils de codage — tout s'agrège automatiquement. Lire la « quantité utilisée » comme la « quantité de valeur créée » est devenu la voie de moindre résistance pour l'explication.
Raison ② : débusquer les résistants à l'IA
Toute organisation compte des employés sceptiques face à l'IA : préoccupations de confidentialité, préoccupations de qualité, ou simple refus d'apprendre de nouveaux outils. La direction veut imposer l'usage de l'IA, mais les ordres seuls ne font pas bouger les gens. Afficher la consommation de tokens devient un outil pour identifier « ceux qui n'utilisent pas l'IA ». L'objectif de 80 % d'Amazon est précisément conçu pour cela.
Raison ③ : la demande d'un scalaire unique et comparable
Les mesures qualitatives comme la « qualité », les « résultats » ou la « propreté du code » ne se comparent pas facilement. « La personne A a utilisé 1 M de tokens ce mois-ci, la personne B 500 K » — une valeur scalaire unique se lit comme si A en avait manifestement fait plus. La facilité de comparaison invite à la paresse décisionnelle. Cela est structurellement identique à l'échec du KLOC (milliers de lignes de code) des années 1990.
3. Données concrètes sur la divergence quantité–qualité
Si « quantité utilisée = travail accompli » se vérifiait, la métrique de tokens serait acceptable. Que montre la réalité ? L'étude Faros AI 2026 — 22 000 développeurs dans 4 000 équipes — a publié des chiffres qui l'excluent de manière décisive.
Ce que l'usage de l'IA améliore — et ce qu'il casse
- Tâches achevées : +34 %
- Epics achevés : +66 %
- Lignes de code ajoutées : forte hausse
- Nombre de PR : nettement en hausse
- Nombre de bugs : +54 %
- Temps de revue des PR : ×5
- Taux de reprise : en hausse
- Incidents en production : tendance à la hausse
« Le volume produit augmente, mais la qualité et la maintenabilité en font les frais. »
C'est la réalité du terrain. Les métriques de consommation de tokens ne regardent qu'une moitié du tableau.
« L'IA accélère le développement » en soi n'est pas faux. Tâches +34 %, epics +66 % — ce sont de vrais chiffres qui montrent une vraie valeur. Le problème, c'est ce que le même jeu de données révèle sur le coût. Bugs +54 %, temps de revue ×5 — les relecteurs humains ne suivent pas le code généré par l'IA, et les défauts fuient en aval. Certains chercheurs avertissent que les gains de productivité à court terme pourraient être annulés par la croissance de la dette technique à long terme.
4. Trois distorsions observées sur le terrain
Assez de théorie. Que se passe-t-il réellement sur le terrain ? Trois schémas observables.
Distorsion ① : le pompage de tokens
Le plus fréquent. Appeler l'IA uniquement pour « se faire voir en train de l'utiliser ». Les comportements d'Amazon : « faire passer des tâches copier-coller par l'IA », « découper une seule question en plusieurs », « bavarder avec l'IA sur des sujets sans rapport ». Pure hausse des coûts, aucune valeur. La métrique dégrade désormais activement le ROI de l'IA de l'entreprise — l'objet même qu'elle était censée suivre.
Distorsion ② : la vitesse plutôt que la substance
Si « écrire plus vous vaut de meilleures évaluations » est la règle, les gens réagissent en conséquence. Relire plus légèrement et fusionner plus vite, sauter les tests, repousser les refactorings — toutes des actions rationnelles pour gonfler la production à court terme. Le « bugs +54 % » de Faros est le résultat prévisible.
Distorsion ③ : la dérive vers les tâches « AI-friendly »
Une distorsion plus subtile. Le travail s'éloigne des problèmes difficiles et importants (conception, nettoyage de la dette technique, recherche approfondie) au profit du travail routinier où l'IA excelle (code CRUD, génération de documentation, échafaudage de tests). Seul le travail mesurable avance. C'est la loi de Goodhart (quand une mesure devient une cible, elle cesse d'être une bonne mesure) dans sa forme la plus pure.
5. De meilleures métriques — AWU, DORA, axées résultats
Si les tokens ne sont pas la réponse, que faut-il mesurer ? Trois alternatives cuvée 2026.
Mesurer l'impact de l'IA au-delà des tokens
Leur point commun : mesurer « ce qui est sorti » et non « ce qui a été utilisé ».
Plus difficile à capter, mais chacune d'elles produira de meilleures décisions que la seule consommation de tokens.
Mon choix personnel : DORA est la plus pragmatique. Quinze ans d'usage opérationnel, beaucoup de données de benchmark, et peu susceptible de se déformer à l'ère de l'IA. L'AWU de Salesforce est ambitieuse mais pas encore un standard de l'industrie. Si vous voulez quelque chose de mesurable dès demain, commencez par DORA.
6. Cinq actions pour les individus et les organisations dès aujourd'hui
La théorie est réglée. Que pouvez-vous faire concrètement demain matin ? Découpage par rôle.
Pour les développeurs individuels
- ① Ne faites pas de la consommation de tokens votre propre métrique : même si votre manager surveille, évaluez-vous selon ce que vous avez achevé. Si une tâche est plus rapide sans IA, ne forcez pas l'IA dessus
- ② Budgétez le temps de revue : partez du principe que le code généré par l'IA exige « temps de lecture ≥ temps d'écriture ». Allouez le temps de lire votre propre PR intégralement avant de le soumettre à la revue
- ③ Combinez avec l'économie de tokens : prompt caching, Batch API, instructions épurées — « fort résultat avec peu de tokens » est la vraie compétence
Pour la direction
- ④ N'utilisez la consommation de tokens que comme un signal d'achat : jamais comme évaluation individuelle. Suivez-la à l'échelle de l'organisation pour confirmer que l'investissement en IA est utilisé tout court, rien de plus
- ⑤ Basculez vers les métriques DORA : fréquence de déploiement, taux d'échec des changements, MTTR à cadence trimestrielle. Comparez avant/après l'adoption de l'IA pour voir si les gains sont réels ou s'il s'agit de pompage de tokens
Résumé
Récapitulatif :
- 2026 : le « Tokenmaxxing » (pompage de tokens pour gonfler les métriques) observé chez Amazon, Meta, Microsoft — désormais un terme du secteur
- Étude Faros AI sur 22 000 développeurs : l'usage de l'IA augmente l'achèvement des tâches de +34 % mais les bugs de +54 %, le temps de revue ×5. Quantité et qualité divergent
- « Consommation de tokens = production de travail » est la rediffusion 2020 de l'évaluation KLOC des années 1990. La loi de Goodhart rend la déformation inévitable
- Trois distorsions de terrain : pompage de tokens / vitesse plutôt que substance / dérive vers les tâches AI-friendly
- Alternatives : AWU de Salesforce / DORA 4 / indicateurs de résultats AWS. DORA est la plus pragmatique aujourd'hui
- Individu : évaluez-vous selon ce qui est fait. Organisation : basculez l'évaluation vers DORA, ne rapportez la consommation de tokens qu'en données d'activité
En 2026, avec l'IA installée dans les organisations, la tentation de mesurer le volume est plus forte que jamais. Les logs d'API vous donnent gratuitement les comptes de tokens — c'est précisément pourquoi le piège qui consiste à lire ces chiffres comme une « production de travail » est si profond. La leçon que nous avons déjà apprise du KLOC il y a trente ans ne doit pas être répétée avec une nouvelle unité appelée « tokens ». C'est la première intelligence organisationnelle requise à l'ère de l'IA.
FAQ
Oui, quelle que soit la taille. En réalité, les petites entreprises subissent une pression encore plus forte pour « évaluer selon le mesurable », et les dirigeants attrapent la métrique la plus simple. Même des startups fixent des règles internes du type « cible 100 % d'usage de l'IA ». Même piège.
« Essaye et dis-moi ce que tu en penses » fonctionne mieux à long terme que « utilise-le ». Les quotas de tokens produisent des chiffres à court terme mais transforment les résistants en gens qui l'utilisent pour la galerie. La vraie adoption demande sécurité psychologique et investissement en formation — règle de base du déploiement de toute nouvelle technologie, pas spécifique à l'IA.
Encore plus. Les productions en ventes et marketing sont qualitatives et difficiles à mesurer, donc les dirigeants se rabattent sur des métriques de surface comme le « nombre de propositions rédigées par l'IA » ou les « requêtes ChatGPT lancées ». Ce qu'il faudrait mesurer à la place : taux de closing, satisfaction client, lead time — des métriques de résultats qui existaient avant l'IA.
Des outils gratuits suffisent. GitHub Insights, Jellyfish, LinearB, Faros AI. Le site officiel dora.dev de Google fournit benchmarks et explications. Une agrégation manuelle convient pour commencer — la seule comparaison trimestre sur trimestre révèle si l'IA produit une vraie valeur.
Pas totalement faux. Comme indicateur macro de l'activité globale d'IA d'une organisation, c'est utile. « Ne pas être utilisé » est un vrai signal. Le problème, c'est l'utiliser pour de l'évaluation individuelle, des KPI ou des quotas. OK comme observation macro, PAS OK comme évaluation micro individuelle — gardez ces deux usages séparés.