Tokenmaxxing : la consommation de tokens IA = productivité ?

La consommation de tokens IA est-elle une métrique de productivité ? — Le piège du Tokenmaxxing et quoi mesurer à la place

Table des matières

1. L'obligation d'Amazon « 80 % d'usage hebdomadaire de l'IA » — et le pompage de tokens qui a suivi
2. Pourquoi « consommation de tokens = production de travail » s'est répandue
3. Données concrètes sur la divergence quantité–qualité
4. Trois distorsions observées sur le terrain
5. De meilleures métriques — AWU, DORA, axées résultats
6. Cinq actions pour les individus et les organisations dès aujourd'hui
Résumé
FAQ

En mai 2026, Tom's Hardware a rapporté que « les employés d'Amazon utilisent l'IA inutilement pour atteindre des quotas internes ». L'entreprise a fixé un objectif interne : « plus de 80 % des développeurs doivent utiliser des outils d'IA chaque semaine », avec la consommation de tokens affichée sur un tableau de classement interne. Les employés ont réagi en pompant des tokens : « faire passer des tâches de niveau copier-coller par l'IA quand même », « découper une question en plusieurs », « demander à Claude d'écrire de la poésie juste pour brûler des tokens ». Des comportements similaires ont été documentés chez Meta et Microsoft.

La Silicon Valley a donné un nom à cette tendance : « Tokenmaxxing ». Une nouvelle norme professionnelle où maximiser la consommation de tokens est récompensé. Presque toutes les entreprises du Fortune 500 suivent l'usage de l'IA, mais très peu mesurent le ROI (selon le CTO de ModelOp). La métrique « quantité utilisée = quantité de travail accompli » commence à orienter les décisions organisationnelles dans la mauvaise direction.

Mon avis d'emblée : « consommation de tokens = production de travail » est la rediffusion 2020 de la mesure des développeurs par KLOC (milliers de lignes de code) des années 1990. Le volume est facile à mesurer, mais volume et valeur sont des choses différentes. Une étude portant sur 22 000 développeurs et 4 000 équipes montre que l'usage de l'IA a augmenté l'achèvement des tâches de +34 %, mais que les bugs ont augmenté de +54 % et le temps de revue des PR a été multiplié par 5. Cet article explique pourquoi cette mauvaise métrique s'est répandue, ce qui cloche, quelles alternatives existent (AWU de Salesforce, DORA, métriques de résultats d'AWS) et cinq actions pratiques que les individus et les organisations peuvent entreprendre dès aujourd'hui — le tout étayé par des données de terrain et des sources primaires.

TOKENMAXXING · 2026

Ne mesurer que « combien » et le terrain s'effondre

— Volume +34 %, mais la qualité s'effrite : bugs +54 % / temps de revue ×5

Volume (tâches achevées)

+34 %

Epics achevés +66 %. L'usage de l'IA accélère bien le développement.

Qualité (bugs par dev)

+54 %

Bugs en production par développeur en hausse de plus de moitié. Le « rapide mais bogué » est désormais réel.

Temps de revue

×5

Temps médian de revue des PR multiplié par 5. Le volume retombe sur les relecteurs — les humains n'absorbent pas le débit de l'IA.

Source : étude « Tokenmaxxing » de Faros AI (22 000 devs × 4 000 équipes).
Courir uniquement après le volume et le terrain s'effondre. La leçon déjà apprise du KLOC dans les années 1990 — répétée aujourd'hui avec une nouvelle unité.

1. L'obligation d'Amazon « 80 % d'usage hebdomadaire de l'IA » — et le pompage de tokens qui a suivi

En mai 2026, Tom's Hardware a publié une enquête qui a mis le « Tokenmaxxing » sur la carte. Amazon avait fixé un objectif interne : « plus de 80 % des développeurs doivent utiliser des outils d'IA chaque semaine ». La consommation de tokens était visualisée sur un tableau de classement interne, et les managers la mentionnaient dans les évaluations de performance.

Qu'ont fait les employés ? « Faire passer une tâche de niveau copier-coller par l'IA quand même. » « Découper une seule question en plusieurs. » « Faire écrire de la poésie à Claude juste pour brûler des tokens. » Une consommation à vide de tokens, sous un autre nom. Les employés d'Amazon cités par Tom's Hardware indiquent que la pression liée aux quotas était intense, et qu'ils étaient « en train de forcer l'IA dans des tâches où ne pas l'utiliser aurait été plus rapide ». Les mêmes schémas apparaissent chez Meta et Microsoft — ce n'est pas une histoire propre à Amazon.

Trending Topics (presse tech européenne) a résumé le basculement comme « une métrique technique devenue le credo d'une nouvelle culture de travail ». « Donner le spectacle de l'usage de l'IA » devient un axe d'évaluation à part entière. Cela se produit simultanément dans les entreprises du Fortune 500 en 2026.

2. Pourquoi « consommation de tokens = production de travail » s'est répandue

Pourquoi donc les grandes entreprises adoptent-elles une métrique aussi grossière dès le départ ? Trois raisons.

Raison ① : l'investissement en IA doit être justifié

Les entreprises du Fortune 500 ont investi des milliards dans l'IA ces deux dernières années. Chaque fois que le directeur financier ou le conseil d'administration demande « quel est le retour sur cet investissement ? », le CTO a besoin d'un chiffre. La consommation de tokens est le chiffre le plus facile à produire. Les logs des passerelles API, l'historique des conversations internes, l'usage des outils de codage — tout s'agrège automatiquement. Lire la « quantité utilisée » comme la « quantité de valeur créée » est devenu la voie de moindre résistance pour l'explication.

Raison ② : débusquer les résistants à l'IA

Toute organisation compte des employés sceptiques face à l'IA : préoccupations de confidentialité, préoccupations de qualité, ou simple refus d'apprendre de nouveaux outils. La direction veut imposer l'usage de l'IA, mais les ordres seuls ne font pas bouger les gens. Afficher la consommation de tokens devient un outil pour identifier « ceux qui n'utilisent pas l'IA ». L'objectif de 80 % d'Amazon est précisément conçu pour cela.

Raison ③ : la demande d'un scalaire unique et comparable

Les mesures qualitatives comme la « qualité », les « résultats » ou la « propreté du code » ne se comparent pas facilement. « La personne A a utilisé 1 M de tokens ce mois-ci, la personne B 500 K » — une valeur scalaire unique se lit comme si A en avait manifestement fait plus. La facilité de comparaison invite à la paresse décisionnelle. Cela est structurellement identique à l'échec du KLOC (milliers de lignes de code) des années 1990.

3. Données concrètes sur la divergence quantité–qualité

Si « quantité utilisée = travail accompli » se vérifiait, la métrique de tokens serait acceptable. Que montre la réalité ? L'étude Faros AI 2026 — 22 000 développeurs dans 4 000 équipes — a publié des chiffres qui l'excluent de manière décisive.

Faros AI 2026 / N=22 000

Ce que l'usage de l'IA améliore — et ce qu'il casse

↑ Amélioré

Tâches achevées : +34 %
Epics achevés : +66 %
Lignes de code ajoutées : forte hausse
Nombre de PR : nettement en hausse

↓ Cassé

Nombre de bugs : +54 %
Temps de revue des PR : ×5
Taux de reprise : en hausse
Incidents en production : tendance à la hausse

« Le volume produit augmente, mais la qualité et la maintenabilité en font les frais. »
C'est la réalité du terrain. Les métriques de consommation de tokens ne regardent qu'une moitié du tableau.

« L'IA accélère le développement » en soi n'est pas faux. Tâches +34 %, epics +66 % — ce sont de vrais chiffres qui montrent une vraie valeur. Le problème, c'est ce que le même jeu de données révèle sur le coût. Bugs +54 %, temps de revue ×5 — les relecteurs humains ne suivent pas le code généré par l'IA, et les défauts fuient en aval. Certains chercheurs avertissent que les gains de productivité à court terme pourraient être annulés par la croissance de la dette technique à long terme.

4. Trois distorsions observées sur le terrain

Assez de théorie. Que se passe-t-il réellement sur le terrain ? Trois schémas observables.

Distorsion ① : le pompage de tokens

Le plus fréquent. Appeler l'IA uniquement pour « se faire voir en train de l'utiliser ». Les comportements d'Amazon : « faire passer des tâches copier-coller par l'IA », « découper une seule question en plusieurs », « bavarder avec l'IA sur des sujets sans rapport ». Pure hausse des coûts, aucune valeur. La métrique dégrade désormais activement le ROI de l'IA de l'entreprise — l'objet même qu'elle était censée suivre.

Distorsion ② : la vitesse plutôt que la substance

Si « écrire plus vous vaut de meilleures évaluations » est la règle, les gens réagissent en conséquence. Relire plus légèrement et fusionner plus vite, sauter les tests, repousser les refactorings — toutes des actions rationnelles pour gonfler la production à court terme. Le « bugs +54 % » de Faros est le résultat prévisible.

Distorsion ③ : la dérive vers les tâches « AI-friendly »

Une distorsion plus subtile. Le travail s'éloigne des problèmes difficiles et importants (conception, nettoyage de la dette technique, recherche approfondie) au profit du travail routinier où l'IA excelle (code CRUD, génération de documentation, échafaudage de tests). Seul le travail mesurable avance. C'est la loi de Goodhart (quand une mesure devient une cible, elle cesse d'être une bonne mesure) dans sa forme la plus pure.

L'histoire se répète : dans les années 1990, de nombreuses entreprises ont essayé d'évaluer les développeurs au KLOC (milliers de lignes de code). Les résultats : « du code rembourré sans raison », « une logique simple écrite de manière verbeuse », « des refactorings utiles évités (parce qu'ils réduisent le nombre de lignes) ». Trente ans plus tard, nous répétons la même erreur avec une nouvelle unité appelée « tokens ».

5. De meilleures métriques — AWU, DORA, axées résultats

Si les tokens ne sont pas la réponse, que faut-il mesurer ? Trois alternatives cuvée 2026.

Métriques alternatives × 3

Mesurer l'impact de l'IA au-delà des tokens

① AWU (Agentic Work Units)

Proposition 2026 de Salesforce. Traduit les entrées de l'IA (tokens, calcul) en unités de travail achevé. Scalarise « ce qui a été construit ». Standardisation encore en cours.

② Les 4 métriques DORA

D'origine Google. Fréquence de déploiement, lead time, taux d'échec des changements, MTTR. Axé résultats avec 15 ans de validation. Encore valable à l'ère de l'IA.

③ Indicateurs de résultats

Recommandé par AWS. Vélocité de déploiement, qualité du code, efficacité opérationnelle, productivité d'équipe, impact business combinés. Sacrifie la simplicité au profit de la précision.

Leur point commun : mesurer « ce qui est sorti » et non « ce qui a été utilisé ».
Plus difficile à capter, mais chacune d'elles produira de meilleures décisions que la seule consommation de tokens.

Mon choix personnel : DORA est la plus pragmatique. Quinze ans d'usage opérationnel, beaucoup de données de benchmark, et peu susceptible de se déformer à l'ère de l'IA. L'AWU de Salesforce est ambitieuse mais pas encore un standard de l'industrie. Si vous voulez quelque chose de mesurable dès demain, commencez par DORA.

6. Cinq actions pour les individus et les organisations dès aujourd'hui

La théorie est réglée. Que pouvez-vous faire concrètement demain matin ? Découpage par rôle.

Pour les développeurs individuels

① Ne faites pas de la consommation de tokens votre propre métrique : même si votre manager surveille, évaluez-vous selon ce que vous avez achevé. Si une tâche est plus rapide sans IA, ne forcez pas l'IA dessus
② Budgétez le temps de revue : partez du principe que le code généré par l'IA exige « temps de lecture ≥ temps d'écriture ». Allouez le temps de lire votre propre PR intégralement avant de le soumettre à la revue
③ Combinez avec l'économie de tokens : prompt caching, Batch API, instructions épurées — « fort résultat avec peu de tokens » est la vraie compétence

Pour la direction

④ N'utilisez la consommation de tokens que comme un signal d'achat : jamais comme évaluation individuelle. Suivez-la à l'échelle de l'organisation pour confirmer que l'investissement en IA est utilisé tout court, rien de plus
⑤ Basculez vers les métriques DORA : fréquence de déploiement, taux d'échec des changements, MTTR à cadence trimestrielle. Comparez avant/après l'adoption de l'IA pour voir si les gains sont réels ou s'il s'agit de pompage de tokens

Le plus important : lors des rapports aux dirigeants, au directeur financier ou au conseil, séparez « la consommation de tokens est une métrique d'activité, les résultats business sont des métriques de résultats ». Vouloir tout expliquer avec un seul chiffre est ce qui produit des décisions bâclées. Traitez « quantité utilisée » et « valeur produite » comme des sujets différents — cette discipline est la clé pour bien diriger une organisation à l'ère de l'IA.

Résumé

Récapitulatif :

2026 : le « Tokenmaxxing » (pompage de tokens pour gonfler les métriques) observé chez Amazon, Meta, Microsoft — désormais un terme du secteur
Étude Faros AI sur 22 000 développeurs : l'usage de l'IA augmente l'achèvement des tâches de +34 % mais les bugs de +54 %, le temps de revue ×5. Quantité et qualité divergent
« Consommation de tokens = production de travail » est la rediffusion 2020 de l'évaluation KLOC des années 1990. La loi de Goodhart rend la déformation inévitable
Trois distorsions de terrain : pompage de tokens / vitesse plutôt que substance / dérive vers les tâches AI-friendly
Alternatives : AWU de Salesforce / DORA 4 / indicateurs de résultats AWS. DORA est la plus pragmatique aujourd'hui
Individu : évaluez-vous selon ce qui est fait. Organisation : basculez l'évaluation vers DORA, ne rapportez la consommation de tokens qu'en données d'activité

En 2026, avec l'IA installée dans les organisations, la tentation de mesurer le volume est plus forte que jamais. Les logs d'API vous donnent gratuitement les comptes de tokens — c'est précisément pourquoi le piège qui consiste à lire ces chiffres comme une « production de travail » est si profond. La leçon que nous avons déjà apprise du KLOC il y a trente ans ne doit pas être répétée avec une nouvelle unité appelée « tokens ». C'est la première intelligence organisationnelle requise à l'ère de l'IA.

FAQ

Q1. Cela arrive-t-il aussi dans les petites entreprises ?

Oui, quelle que soit la taille. En réalité, les petites entreprises subissent une pression encore plus forte pour « évaluer selon le mesurable », et les dirigeants attrapent la métrique la plus simple. Même des startups fixent des règles internes du type « cible 100 % d'usage de l'IA ». Même piège.

Q2. Comment faire bouger les employés qui résistent à l'IA ?

« Essaye et dis-moi ce que tu en penses » fonctionne mieux à long terme que « utilise-le ». Les quotas de tokens produisent des chiffres à court terme mais transforment les résistants en gens qui l'utilisent pour la galerie. La vraie adoption demande sécurité psychologique et investissement en formation — règle de base du déploiement de toute nouvelle technologie, pas spécifique à l'IA.

Q3. Cela s'applique-t-il hors ingénierie (ventes, marketing) ?

Encore plus. Les productions en ventes et marketing sont qualitatives et difficiles à mesurer, donc les dirigeants se rabattent sur des métriques de surface comme le « nombre de propositions rédigées par l'IA » ou les « requêtes ChatGPT lancées ». Ce qu'il faudrait mesurer à la place : taux de closing, satisfaction client, lead time — des métriques de résultats qui existaient avant l'IA.

Q4. Comment mesurer DORA pour mon équipe ?

Des outils gratuits suffisent. GitHub Insights, Jellyfish, LinearB, Faros AI. Le site officiel dora.dev de Google fournit benchmarks et explications. Une agrégation manuelle convient pour commencer — la seule comparaison trimestre sur trimestre révèle si l'IA produit une vraie valeur.

Q5. « Consommation de tokens = production de travail » est-il totalement faux ?

Pas totalement faux. Comme indicateur macro de l'activité globale d'IA d'une organisation, c'est utile. « Ne pas être utilisé » est un vrai signal. Le problème, c'est l'utiliser pour de l'évaluation individuelle, des KPI ou des quotas. OK comme observation macro, PAS OK comme évaluation micro individuelle — gardez ces deux usages séparés.

La consommation de tokens IA est-elle une métrique de productivité ? — Le piège du Tokenmaxxing et quoi mesurer à la place