Tokenmaxxing: KI-Tokenverbrauch als Produktivitätsmetrik?

Ist KI-Tokenverbrauch eine Produktivitätsmetrik? — Die Tokenmaxxing-Falle und was stattdessen zu messen ist

Inhaltsverzeichnis

1. Amazons Vorgabe „80 % wöchentliche KI-Nutzung" — und das darauffolgende Token-Pumping
2. Warum sich „Tokenverbrauch = Arbeitsleistung" verbreitet hat
3. Harte Daten zur Divergenz zwischen Menge und Qualität
4. Drei Verzerrungen, die in der Praxis auftreten
5. Bessere Metriken — AWU, DORA, ergebnisbasiert
6. Fünf Maßnahmen für Einzelpersonen und Organisationen ab heute
Zusammenfassung
FAQ

Im Mai 2026 berichtete Tom's Hardware, dass „Amazon-Mitarbeiter KI unnötig nutzen, um interne Quoten zu erfüllen." Das Unternehmen setzte das interne Ziel, dass „mehr als 80 % der Entwickler jede Woche KI-Tools nutzen müssen", wobei der Tokenverbrauch auf einem internen Leaderboard sichtbar gemacht wurde. Die Mitarbeiter reagierten mit Token-Pumping: „Aufgaben im Stil von Copy-Paste trotzdem durch die KI laufen lassen", „eine Frage in viele aufteilen", „Claude bitten, Gedichte zu schreiben, nur um Tokens zu verbrennen". Ähnliche Verhaltensweisen wurden bei Meta und Microsoft dokumentiert.

Das Silicon Valley gab dem Trend einen Namen: „Tokenmaxxing". Eine neue Arbeitsplatznorm, in der die Maximierung des Tokenverbrauchs belohnt wird. Fast jedes Fortune-500-Unternehmen verfolgt die KI-Nutzung, aber nur sehr wenige messen den ROI (laut dem CTO von ModelOp). Die Metrik „genutzte Menge = erbrachte Arbeit" beginnt, organisatorische Entscheidungen in eine schlechte Richtung zu lenken.

Meine Einschätzung gleich vorweg: „Tokenverbrauch = Arbeitsleistung" ist die Neuauflage der Bewertung von Entwicklern nach KLOC (Codezeilen) aus den 1990er Jahren in den 2020ern. Menge lässt sich leicht messen, aber Menge und Wert sind verschiedene Dinge. Eine Studie mit 22.000 Entwicklern und 4.000 Teams zeigt, dass die KI-Nutzung die Aufgabenerledigung um +34 % steigerte, aber Bugs stiegen um +54 % und die PR-Review-Zeit verfünffachte sich. Dieser Artikel behandelt, warum sich die schlechte Metrik verbreitet hat, was an ihr falsch ist, welche Alternativen existieren (Salesforces AWU, DORA, AWS-Ergebnismetriken) und fünf praktische Maßnahmen, die Einzelpersonen und Organisationen ab heute ergreifen können — gestützt auf Felddaten und Primärquellen.

TOKENMAXXING · 2026

Misst man nur das „Wie viel", bricht der Boden weg

— Menge +34 %, aber die Qualität bricht ein: Bugs +54 % / Review-Zeit 5×

Menge (erledigte Aufgaben)

+34 %

Abgeschlossene Epics +66 %. KI-Nutzung beschleunigt die Entwicklung tatsächlich.

Qualität (Bugs pro Entwickler)

+54 %

Produktionsbugs pro Entwickler steigen um mehr als die Hälfte. „Schnell, aber fehlerhaft" ist nun Realität.

Review-Zeit

5×

Mediane PR-Review-Zeit verfünffacht. Die Menge wird auf die Reviewer abgewälzt — Menschen können die KI-Ausgaberate nicht aufnehmen.

Quelle: Faros AI „Tokenmaxxing"-Studie (22.000 Entwickler × 4.000 Teams).
Wer allein die Menge jagt, bei dem bricht der Boden weg. Die Lektion, die wir bereits aus KLOC in den 1990ern gelernt haben — jetzt mit einer neuen Einheit wiederholt.

1. Amazons Vorgabe „80 % wöchentliche KI-Nutzung" — und das darauffolgende Token-Pumping

Im Mai 2026 brachte Tom's Hardware einen investigativen Beitrag heraus, der „Tokenmaxxing" auf die Karte setzte. Amazon hatte ein internes Ziel gesetzt: „mehr als 80 % der Entwickler müssen jede Woche KI-Tools nutzen". Der Tokenverbrauch wurde auf einem internen Leaderboard visualisiert, und Manager bezogen sich in Leistungsbewertungen darauf.

Was taten die Mitarbeiter? „Eine Copy-Paste-Aufgabe trotzdem durch die KI laufen lassen." „Eine einzelne Frage in viele aufteilen." „Claude Gedichte schreiben lassen, nur um Tokens zu verbrennen." Token-Leerlaufverbrauch unter anderem Namen. Von Tom's Hardware zitierte Amazon-Mitarbeiter sagten, der Quotendruck sei intensiv gewesen, und sie hätten „KI in Arbeit gezwungen, in der es schneller gewesen wäre, keine KI zu nutzen." Dieselben Muster tauchen bei Meta und Microsoft auf — das ist keine reine Amazon-Geschichte.

Trending Topics (EU-Tech-Presse) fasste den Wandel zusammen als „eine technische Metrik, die zum Glaubensbekenntnis einer neuen Arbeitskultur wird." „KI-Nutzung performen" wird zu einer eigenen Bewertungsachse. Dies geschieht 2026 zeitgleich in Fortune-500-Unternehmen.

2. Warum sich „Tokenverbrauch = Arbeitsleistung" verbreitet hat

Warum übernehmen Großunternehmen überhaupt eine so grobe Metrik? Drei Gründe.

Grund ①: KI-Investitionen brauchen Rechtfertigung

Fortune-500-Unternehmen haben in den letzten zwei Jahren Milliarden in KI investiert. Jedes Mal, wenn der CFO oder der Vorstand fragt: „Was ist der Return auf diese Investition?", braucht der CTO eine Zahl. Der Tokenverbrauch ist die am einfachsten zu produzierende Zahl. Logs von API-Gateways, interne Chat-Verläufe, Nutzung von Coding-Tools — alles aggregiert sich automatisch. Die „genutzte Menge" als „geschaffenen Wert" zu lesen, wurde zum Weg des geringsten Widerstands für die Erklärung.

Grund ②: KI-Verweigerer aufspüren

Jede Organisation hat Mitarbeiter, die der KI skeptisch gegenüberstehen: Datenschutzbedenken, Qualitätsbedenken oder einfach Unwillen, neue Tools zu lernen. Das Management will KI-Nutzung vorschreiben, aber Befehle allein bewegen Menschen nicht. Die Sichtbarmachung des Tokenverbrauchs wird zum Werkzeug, um „die Leute zu identifizieren, die keine KI nutzen". Amazons 80 %-Ziel ist genau dafür gebaut.

Grund ③: Nachfrage nach einem einzigen vergleichbaren Skalar

Qualitative Maße wie „Qualität", „Ergebnisse" oder „Code-Sauberkeit" lassen sich nicht leicht vergleichen. „Person A nutzte diesen Monat 1 Mio. Tokens, Person B 500.000" — ein einzelner Skalarwert liest sich so, als hätte A offensichtlich mehr geleistet. Einfache Vergleichbarkeit lädt zu faulen Entscheidungen ein. Dies ist strukturell identisch mit dem KLOC-Versagen (Tausend Codezeilen) der 1990er.

3. Harte Daten zur Divergenz zwischen Menge und Qualität

Wenn „genutzte Menge = geleistete Arbeit" gelten würde, wäre die Token-Metrik in Ordnung. Was zeigt die Realität? Die Faros-AI-Studie 2026 — 22.000 Entwickler in 4.000 Teams — veröffentlichte Zahlen, die das entscheidend widerlegen.

Faros AI 2026 / N=22.000

Was KI-Nutzung hebt — und was sie bricht

↑ Gehoben

Erledigte Aufgaben: +34 %
Abgeschlossene Epics: +66 %
Hinzugefügte Codezeilen: stark gestiegen
Anzahl PRs: deutlich gestiegen

↓ Gebrochen

Bug-Anzahl: +54 %
PR-Review-Zeit: 5×
Rework-Rate: gestiegen
Produktionsvorfälle: steigender Trend

„Das Ausgabevolumen steigt, aber Qualität und Wartbarkeit nehmen den Schlag."
Das ist die Realität im Feld. Tokenverbrauchsmetriken sehen nur die eine Hälfte des Bildes.

„KI macht die Entwicklung schneller" an sich ist nicht falsch. Aufgaben +34 %, Epics +66 % — das sind reale Zahlen, die realen Wert zeigen. Das Problem ist, was derselbe Datensatz über die Kosten zeigt. Bugs +54 %, Review-Zeit 5× — menschliche Reviewer kommen bei KI-generiertem Code nicht hinterher, und Mängel sickern stromabwärts durch. Einige Forscher warnen, dass kurzfristige Produktivitätsgewinne durch langfristiges Wachstum der technischen Schulden aufgewogen werden können.

4. Drei Verzerrungen, die in der Praxis auftreten

Genug Theorie. Was passiert tatsächlich in der Praxis? Drei beobachtbare Muster.

Verzerrung ①: Token-Pumping

Das häufigste. KI rein deshalb aufzurufen, um „als Nutzer gesehen zu werden". Die Amazon-Verhaltensweisen: „Copy-Paste-Aufgaben durch die KI laufen lassen", „eine Frage in viele aufteilen", „mit der KI über unverwandte Themen plaudern". Reine Kostensteigerung, kein Wert. Die Metrik verschlechtert nun aktiv den KI-ROI des Unternehmens — genau das, was sie eigentlich messen sollte.

Verzerrung ②: Geschwindigkeit vor Substanz

Wenn „mehr zu schreiben bringt bessere Reviews" die Regel ist, reagieren die Menschen entsprechend. Leichteres Reviewen und schnelleres Mergen, Tests überspringen, Refactorings aufschieben — alles rationale Handlungen, um den kurzfristigen Output zu steigern. Faros' „Bugs +54 %" ist das vorhersehbare Ergebnis.

Verzerrung ③: Abdriften zu „KI-freundlichen" Aufgaben

Eine subtilere Verzerrung. Arbeit verlagert sich weg von schwierigen, wichtigen Problemen (Design, Abbau technischer Schulden, Tiefenrecherche) hin zu Routinearbeit, in der KI gut ist (CRUD-Code, Dokumentationsgenerierung, Test-Gerüste). Nur die messbare Arbeit kommt voran. Dies ist Goodharts Gesetz (sobald ein Maß zum Ziel wird, hört es auf, ein gutes Maß zu sein) in Lehrbuchform.

Geschichte wiederholt sich: In den 1990ern versuchten viele Unternehmen, Entwickler nach KLOC (Tausend Codezeilen) zu bewerten. Die Ergebnisse: „Code, der zwecklos aufgebläht wurde", „einfache Logik weitschweifig geschrieben", „nützliche Refactorings vermieden (weil sie die Zeilenzahl reduzieren)". Dreißig Jahre später wiederholen wir denselben Fehler mit einer neuen Einheit namens „Tokens".

5. Bessere Metriken — AWU, DORA, ergebnisbasiert

Wenn Tokens nicht die Antwort sind, was sollten Sie dann messen? Drei Alternativen aus dem Jahrgang 2026.

Alternative Metriken × 3

KI-Wirkung jenseits von Tokens messen

① AWU (Agentic Work Units)

Salesforces Vorschlag von 2026. Übersetzt KI-Inputs (Tokens, Compute) in Einheiten erledigter Arbeit. Skalarisiert „was gebaut wurde". Standardisierung noch im Gange.

② DORA 4 Metriken

Ursprung Google. Deploy-Frequenz, Lead Time, Change Failure Rate, MTTR. Ergebnisfokussiert mit 15 Jahren Validierung. Funktioniert auch im KI-Zeitalter.

③ Ergebnisindikatoren

Von AWS empfohlen. Deployment-Geschwindigkeit, Code-Qualität, Betriebseffizienz, Team-Produktivität, Geschäftswirkung in Kombination. Opfert Einfachheit für Genauigkeit.

Was sie gemeinsam haben: messen „was herauskam", nicht „was verbraucht wurde".
Schwerer zu erfassen, aber jede davon treibt bessere Entscheidungen als der reine Tokenverbrauch.

Meine persönliche Empfehlung: DORA ist am praktischsten. Fünfzehn Jahre operative Nutzung, reichlich Benchmark-Daten und unwahrscheinlich, dass es sich im KI-Zeitalter verformt. Salesforces AWU ist ambitioniert, aber noch kein Industriestandard. Wenn Sie etwas wollen, das Sie morgen messen können, beginnen Sie mit DORA.

6. Fünf Maßnahmen für Einzelpersonen und Organisationen ab heute

Die Theorie ist geklärt. Was können Sie morgen früh tatsächlich tun? Aufgeteilt nach Rolle.

Für einzelne Entwickler

① Machen Sie den Tokenverbrauch nicht zu Ihrer eigenen Metrik: Auch wenn Ihr Manager zusieht, bewerten Sie sich nach dem, was Sie erledigt haben. Wenn eine Aufgabe ohne KI schneller geht, zwingen Sie keine KI hinein
② Budgetieren Sie Review-Zeit: Gehen Sie davon aus, dass KI-generierter Code „Lesezeit ≥ Schreibzeit" erfordert. Reservieren Sie die Zeit, um Ihren eigenen PR vollständig zu lesen, bevor Sie ihn zur Review schicken
③ Kombinieren Sie mit Token-Einsparung: Prompt-Caching, Batch-API, schlanke Anweisungen — „hohes Ergebnis bei geringem Tokenverbrauch" ist die echte Fähigkeit

Für das Management

④ Nutzen Sie den Tokenverbrauch nur als Beschaffungssignal: niemals als individuelle Bewertung. Verfolgen Sie ihn organisationsweit, um zu bestätigen, dass die KI-Investition überhaupt genutzt wird, nicht mehr
⑤ Wechseln Sie zu DORA-Metriken: Deploy-Frequenz, Change Failure Rate, MTTR im Quartalsrhythmus. Vergleichen Sie vor/nach der KI-Einführung, um zu sehen, ob die Gewinne echt sind oder nur Token-Pumping

Am wichtigsten: Wenn Sie an die Geschäftsleitung, den CFO oder den Vorstand berichten, trennen Sie „Tokenverbrauch ist eine Aktivitätsmetrik, Geschäftsergebnisse sind Ergebnismetriken". Der Versuch, alles mit einer Zahl zu erklären, ist es, was schlampige Entscheidungen erzeugt. Behandeln Sie „genutzte Menge" und „erzeugter Wert" als getrennte Themen — diese Disziplin ist der Schlüssel, um eine Organisation im KI-Zeitalter gut zu führen.

Zusammenfassung

Rückblick:

2026: „Tokenmaxxing" (Token-Pumping zur Aufblähung der Metrik) bei Amazon, Meta, Microsoft beobachtet — inzwischen ein Branchenbegriff
Faros-AI-Studie mit 22.000 Entwicklern: KI-Nutzung hebt die Aufgabenerledigung um +34 %, aber Bugs +54 %, Review-Zeit 5×. Menge und Qualität divergieren
„Tokenverbrauch = Arbeitsleistung" ist die Neuauflage der KLOC-Bewertung der 1990er in den 2020ern. Goodharts Gesetz macht die Verformung unausweichlich
Drei Verzerrungen im Feld: Token-Pumping / Geschwindigkeit vor Substanz / Abdriften zu KI-freundlichen Aufgaben
Alternativen: Salesforce AWU / DORA 4 / AWS-Ergebnisindikatoren. DORA ist heute am praktischsten
Einzelperson: Bewerten Sie sich nach dem, was erledigt ist. Organisation: Bewertung auf DORA umstellen, Tokenverbrauch nur als Daten auf Aktivitätsebene berichten

2026, mit KI innerhalb von Organisationen, ist die Versuchung, Menge zu messen, stärker denn je. API-Logs liefern Token-Zählungen kostenlos — genau deshalb ist die Falle, diese Zahlen als „Arbeitsleistung" zu lesen, so tief. Die Lektion, die wir bereits vor dreißig Jahren aus KLOC gelernt haben, sollte nicht mit einer neuen Einheit namens „Tokens" wiederholt werden. Das ist die erste organisatorische Intelligenz, die im KI-Zeitalter erforderlich ist.

FAQ

F1. Passiert das auch in kleineren Unternehmen?

Ja, unabhängig von der Größe. Tatsächlich stehen kleinere Unternehmen unter stärkerem Druck, „nach dem zu bewerten, was messbar ist", und Führungskräfte greifen zur einfachsten Metrik. Selbst Start-ups setzen interne Regeln wie „100 % KI-Nutzungsziel". Dieselbe Falle.

F2. Wie bewegt man KI-verweigernde Mitarbeiter?

„Probieren Sie das aus und sagen Sie mir, was Sie davon halten" schlägt „nutzen Sie es" auf lange Sicht. Token-Quoten erzeugen kurzfristig Zahlen, aber machen aus Verweigerern Menschen, die es nur zur Schau nutzen. Echte Akzeptanz erfordert psychologische Sicherheit und Investition in Schulungen — eine Grundregel des Roll-outs neuer Technologien, nicht KI-spezifisch.

F3. Gilt das auch außerhalb des Engineerings (Vertrieb, Marketing)?

Noch mehr. Vertriebs- und Marketing-Outputs sind qualitativ und schwer zu messen, daher greifen Führungskräfte zu Oberflächenmetriken wie „Anzahl KI-entworfener Angebote" oder „abgefeuerte ChatGPT-Anfragen". Was Sie stattdessen messen sollten: Abschlussquote, Kundenzufriedenheit, Lead Time — Ergebnismetriken, die es schon vor der KI gab.

F4. Wie messe ich DORA für mein Team?

Kostenlose Tools funktionieren. GitHub Insights, Jellyfish, LinearB, Faros AI. Googles offizielle Seite dora.dev bietet Benchmarks und Erklärungen. Manuelle Aggregation ist am Anfang in Ordnung — schon ein Quartalsvergleich zeigt, ob KI echten Wert produziert.

F5. Ist „Tokenverbrauch = Arbeitsleistung" völlig falsch?

Nicht völlig falsch. Als Makro-Indikator für die gesamte organisatorische KI-Aktivität ist es nützlich. „Wird nicht genutzt" ist ein echtes Signal. Das Problem ist die Verwendung für individuelle Bewertung, KPIs oder Quoten. OK als Makro-Beobachtung, NICHT OK als individuelle Mikro-Bewertung — halten Sie diese getrennt.

Ist KI-Tokenverbrauch eine Produktivitätsmetrik? — Die Tokenmaxxing-Falle und was stattdessen zu messen ist