Inhaltsverzeichnis
- 1. Amazons Vorgabe „80 % wöchentliche KI-Nutzung" — und das darauffolgende Token-Pumping
- 2. Warum sich „Tokenverbrauch = Arbeitsleistung" verbreitet hat
- 3. Harte Daten zur Divergenz zwischen Menge und Qualität
- 4. Drei Verzerrungen, die in der Praxis auftreten
- 5. Bessere Metriken — AWU, DORA, ergebnisbasiert
- 6. Fünf Maßnahmen für Einzelpersonen und Organisationen ab heute
- Zusammenfassung
- FAQ
Im Mai 2026 berichtete Tom's Hardware, dass „Amazon-Mitarbeiter KI unnötig nutzen, um interne Quoten zu erfüllen." Das Unternehmen setzte das interne Ziel, dass „mehr als 80 % der Entwickler jede Woche KI-Tools nutzen müssen", wobei der Tokenverbrauch auf einem internen Leaderboard sichtbar gemacht wurde. Die Mitarbeiter reagierten mit Token-Pumping: „Aufgaben im Stil von Copy-Paste trotzdem durch die KI laufen lassen", „eine Frage in viele aufteilen", „Claude bitten, Gedichte zu schreiben, nur um Tokens zu verbrennen". Ähnliche Verhaltensweisen wurden bei Meta und Microsoft dokumentiert.
Das Silicon Valley gab dem Trend einen Namen: „Tokenmaxxing". Eine neue Arbeitsplatznorm, in der die Maximierung des Tokenverbrauchs belohnt wird. Fast jedes Fortune-500-Unternehmen verfolgt die KI-Nutzung, aber nur sehr wenige messen den ROI (laut dem CTO von ModelOp). Die Metrik „genutzte Menge = erbrachte Arbeit" beginnt, organisatorische Entscheidungen in eine schlechte Richtung zu lenken.
Meine Einschätzung gleich vorweg: „Tokenverbrauch = Arbeitsleistung" ist die Neuauflage der Bewertung von Entwicklern nach KLOC (Codezeilen) aus den 1990er Jahren in den 2020ern. Menge lässt sich leicht messen, aber Menge und Wert sind verschiedene Dinge. Eine Studie mit 22.000 Entwicklern und 4.000 Teams zeigt, dass die KI-Nutzung die Aufgabenerledigung um +34 % steigerte, aber Bugs stiegen um +54 % und die PR-Review-Zeit verfünffachte sich. Dieser Artikel behandelt, warum sich die schlechte Metrik verbreitet hat, was an ihr falsch ist, welche Alternativen existieren (Salesforces AWU, DORA, AWS-Ergebnismetriken) und fünf praktische Maßnahmen, die Einzelpersonen und Organisationen ab heute ergreifen können — gestützt auf Felddaten und Primärquellen.
Misst man nur das „Wie viel", bricht der Boden weg
— Menge +34 %, aber die Qualität bricht ein: Bugs +54 % / Review-Zeit 5×
Quelle: Faros AI „Tokenmaxxing"-Studie (22.000 Entwickler × 4.000 Teams).
Wer allein die Menge jagt, bei dem bricht der Boden weg. Die Lektion, die wir bereits aus KLOC in den 1990ern gelernt haben — jetzt mit einer neuen Einheit wiederholt.
1. Amazons Vorgabe „80 % wöchentliche KI-Nutzung" — und das darauffolgende Token-Pumping
Im Mai 2026 brachte Tom's Hardware einen investigativen Beitrag heraus, der „Tokenmaxxing" auf die Karte setzte. Amazon hatte ein internes Ziel gesetzt: „mehr als 80 % der Entwickler müssen jede Woche KI-Tools nutzen". Der Tokenverbrauch wurde auf einem internen Leaderboard visualisiert, und Manager bezogen sich in Leistungsbewertungen darauf.
Was taten die Mitarbeiter? „Eine Copy-Paste-Aufgabe trotzdem durch die KI laufen lassen." „Eine einzelne Frage in viele aufteilen." „Claude Gedichte schreiben lassen, nur um Tokens zu verbrennen." Token-Leerlaufverbrauch unter anderem Namen. Von Tom's Hardware zitierte Amazon-Mitarbeiter sagten, der Quotendruck sei intensiv gewesen, und sie hätten „KI in Arbeit gezwungen, in der es schneller gewesen wäre, keine KI zu nutzen." Dieselben Muster tauchen bei Meta und Microsoft auf — das ist keine reine Amazon-Geschichte.
Trending Topics (EU-Tech-Presse) fasste den Wandel zusammen als „eine technische Metrik, die zum Glaubensbekenntnis einer neuen Arbeitskultur wird." „KI-Nutzung performen" wird zu einer eigenen Bewertungsachse. Dies geschieht 2026 zeitgleich in Fortune-500-Unternehmen.
2. Warum sich „Tokenverbrauch = Arbeitsleistung" verbreitet hat
Warum übernehmen Großunternehmen überhaupt eine so grobe Metrik? Drei Gründe.
Grund ①: KI-Investitionen brauchen Rechtfertigung
Fortune-500-Unternehmen haben in den letzten zwei Jahren Milliarden in KI investiert. Jedes Mal, wenn der CFO oder der Vorstand fragt: „Was ist der Return auf diese Investition?", braucht der CTO eine Zahl. Der Tokenverbrauch ist die am einfachsten zu produzierende Zahl. Logs von API-Gateways, interne Chat-Verläufe, Nutzung von Coding-Tools — alles aggregiert sich automatisch. Die „genutzte Menge" als „geschaffenen Wert" zu lesen, wurde zum Weg des geringsten Widerstands für die Erklärung.
Grund ②: KI-Verweigerer aufspüren
Jede Organisation hat Mitarbeiter, die der KI skeptisch gegenüberstehen: Datenschutzbedenken, Qualitätsbedenken oder einfach Unwillen, neue Tools zu lernen. Das Management will KI-Nutzung vorschreiben, aber Befehle allein bewegen Menschen nicht. Die Sichtbarmachung des Tokenverbrauchs wird zum Werkzeug, um „die Leute zu identifizieren, die keine KI nutzen". Amazons 80 %-Ziel ist genau dafür gebaut.
Grund ③: Nachfrage nach einem einzigen vergleichbaren Skalar
Qualitative Maße wie „Qualität", „Ergebnisse" oder „Code-Sauberkeit" lassen sich nicht leicht vergleichen. „Person A nutzte diesen Monat 1 Mio. Tokens, Person B 500.000" — ein einzelner Skalarwert liest sich so, als hätte A offensichtlich mehr geleistet. Einfache Vergleichbarkeit lädt zu faulen Entscheidungen ein. Dies ist strukturell identisch mit dem KLOC-Versagen (Tausend Codezeilen) der 1990er.
3. Harte Daten zur Divergenz zwischen Menge und Qualität
Wenn „genutzte Menge = geleistete Arbeit" gelten würde, wäre die Token-Metrik in Ordnung. Was zeigt die Realität? Die Faros-AI-Studie 2026 — 22.000 Entwickler in 4.000 Teams — veröffentlichte Zahlen, die das entscheidend widerlegen.
Was KI-Nutzung hebt — und was sie bricht
- Erledigte Aufgaben: +34 %
- Abgeschlossene Epics: +66 %
- Hinzugefügte Codezeilen: stark gestiegen
- Anzahl PRs: deutlich gestiegen
- Bug-Anzahl: +54 %
- PR-Review-Zeit: 5×
- Rework-Rate: gestiegen
- Produktionsvorfälle: steigender Trend
„Das Ausgabevolumen steigt, aber Qualität und Wartbarkeit nehmen den Schlag."
Das ist die Realität im Feld. Tokenverbrauchsmetriken sehen nur die eine Hälfte des Bildes.
„KI macht die Entwicklung schneller" an sich ist nicht falsch. Aufgaben +34 %, Epics +66 % — das sind reale Zahlen, die realen Wert zeigen. Das Problem ist, was derselbe Datensatz über die Kosten zeigt. Bugs +54 %, Review-Zeit 5× — menschliche Reviewer kommen bei KI-generiertem Code nicht hinterher, und Mängel sickern stromabwärts durch. Einige Forscher warnen, dass kurzfristige Produktivitätsgewinne durch langfristiges Wachstum der technischen Schulden aufgewogen werden können.
4. Drei Verzerrungen, die in der Praxis auftreten
Genug Theorie. Was passiert tatsächlich in der Praxis? Drei beobachtbare Muster.
Verzerrung ①: Token-Pumping
Das häufigste. KI rein deshalb aufzurufen, um „als Nutzer gesehen zu werden". Die Amazon-Verhaltensweisen: „Copy-Paste-Aufgaben durch die KI laufen lassen", „eine Frage in viele aufteilen", „mit der KI über unverwandte Themen plaudern". Reine Kostensteigerung, kein Wert. Die Metrik verschlechtert nun aktiv den KI-ROI des Unternehmens — genau das, was sie eigentlich messen sollte.
Verzerrung ②: Geschwindigkeit vor Substanz
Wenn „mehr zu schreiben bringt bessere Reviews" die Regel ist, reagieren die Menschen entsprechend. Leichteres Reviewen und schnelleres Mergen, Tests überspringen, Refactorings aufschieben — alles rationale Handlungen, um den kurzfristigen Output zu steigern. Faros' „Bugs +54 %" ist das vorhersehbare Ergebnis.
Verzerrung ③: Abdriften zu „KI-freundlichen" Aufgaben
Eine subtilere Verzerrung. Arbeit verlagert sich weg von schwierigen, wichtigen Problemen (Design, Abbau technischer Schulden, Tiefenrecherche) hin zu Routinearbeit, in der KI gut ist (CRUD-Code, Dokumentationsgenerierung, Test-Gerüste). Nur die messbare Arbeit kommt voran. Dies ist Goodharts Gesetz (sobald ein Maß zum Ziel wird, hört es auf, ein gutes Maß zu sein) in Lehrbuchform.
5. Bessere Metriken — AWU, DORA, ergebnisbasiert
Wenn Tokens nicht die Antwort sind, was sollten Sie dann messen? Drei Alternativen aus dem Jahrgang 2026.
KI-Wirkung jenseits von Tokens messen
Was sie gemeinsam haben: messen „was herauskam", nicht „was verbraucht wurde".
Schwerer zu erfassen, aber jede davon treibt bessere Entscheidungen als der reine Tokenverbrauch.
Meine persönliche Empfehlung: DORA ist am praktischsten. Fünfzehn Jahre operative Nutzung, reichlich Benchmark-Daten und unwahrscheinlich, dass es sich im KI-Zeitalter verformt. Salesforces AWU ist ambitioniert, aber noch kein Industriestandard. Wenn Sie etwas wollen, das Sie morgen messen können, beginnen Sie mit DORA.
6. Fünf Maßnahmen für Einzelpersonen und Organisationen ab heute
Die Theorie ist geklärt. Was können Sie morgen früh tatsächlich tun? Aufgeteilt nach Rolle.
Für einzelne Entwickler
- ① Machen Sie den Tokenverbrauch nicht zu Ihrer eigenen Metrik: Auch wenn Ihr Manager zusieht, bewerten Sie sich nach dem, was Sie erledigt haben. Wenn eine Aufgabe ohne KI schneller geht, zwingen Sie keine KI hinein
- ② Budgetieren Sie Review-Zeit: Gehen Sie davon aus, dass KI-generierter Code „Lesezeit ≥ Schreibzeit" erfordert. Reservieren Sie die Zeit, um Ihren eigenen PR vollständig zu lesen, bevor Sie ihn zur Review schicken
- ③ Kombinieren Sie mit Token-Einsparung: Prompt-Caching, Batch-API, schlanke Anweisungen — „hohes Ergebnis bei geringem Tokenverbrauch" ist die echte Fähigkeit
Für das Management
- ④ Nutzen Sie den Tokenverbrauch nur als Beschaffungssignal: niemals als individuelle Bewertung. Verfolgen Sie ihn organisationsweit, um zu bestätigen, dass die KI-Investition überhaupt genutzt wird, nicht mehr
- ⑤ Wechseln Sie zu DORA-Metriken: Deploy-Frequenz, Change Failure Rate, MTTR im Quartalsrhythmus. Vergleichen Sie vor/nach der KI-Einführung, um zu sehen, ob die Gewinne echt sind oder nur Token-Pumping
Zusammenfassung
Rückblick:
- 2026: „Tokenmaxxing" (Token-Pumping zur Aufblähung der Metrik) bei Amazon, Meta, Microsoft beobachtet — inzwischen ein Branchenbegriff
- Faros-AI-Studie mit 22.000 Entwicklern: KI-Nutzung hebt die Aufgabenerledigung um +34 %, aber Bugs +54 %, Review-Zeit 5×. Menge und Qualität divergieren
- „Tokenverbrauch = Arbeitsleistung" ist die Neuauflage der KLOC-Bewertung der 1990er in den 2020ern. Goodharts Gesetz macht die Verformung unausweichlich
- Drei Verzerrungen im Feld: Token-Pumping / Geschwindigkeit vor Substanz / Abdriften zu KI-freundlichen Aufgaben
- Alternativen: Salesforce AWU / DORA 4 / AWS-Ergebnisindikatoren. DORA ist heute am praktischsten
- Einzelperson: Bewerten Sie sich nach dem, was erledigt ist. Organisation: Bewertung auf DORA umstellen, Tokenverbrauch nur als Daten auf Aktivitätsebene berichten
2026, mit KI innerhalb von Organisationen, ist die Versuchung, Menge zu messen, stärker denn je. API-Logs liefern Token-Zählungen kostenlos — genau deshalb ist die Falle, diese Zahlen als „Arbeitsleistung" zu lesen, so tief. Die Lektion, die wir bereits vor dreißig Jahren aus KLOC gelernt haben, sollte nicht mit einer neuen Einheit namens „Tokens" wiederholt werden. Das ist die erste organisatorische Intelligenz, die im KI-Zeitalter erforderlich ist.
FAQ
Ja, unabhängig von der Größe. Tatsächlich stehen kleinere Unternehmen unter stärkerem Druck, „nach dem zu bewerten, was messbar ist", und Führungskräfte greifen zur einfachsten Metrik. Selbst Start-ups setzen interne Regeln wie „100 % KI-Nutzungsziel". Dieselbe Falle.
„Probieren Sie das aus und sagen Sie mir, was Sie davon halten" schlägt „nutzen Sie es" auf lange Sicht. Token-Quoten erzeugen kurzfristig Zahlen, aber machen aus Verweigerern Menschen, die es nur zur Schau nutzen. Echte Akzeptanz erfordert psychologische Sicherheit und Investition in Schulungen — eine Grundregel des Roll-outs neuer Technologien, nicht KI-spezifisch.
Noch mehr. Vertriebs- und Marketing-Outputs sind qualitativ und schwer zu messen, daher greifen Führungskräfte zu Oberflächenmetriken wie „Anzahl KI-entworfener Angebote" oder „abgefeuerte ChatGPT-Anfragen". Was Sie stattdessen messen sollten: Abschlussquote, Kundenzufriedenheit, Lead Time — Ergebnismetriken, die es schon vor der KI gab.
Kostenlose Tools funktionieren. GitHub Insights, Jellyfish, LinearB, Faros AI. Googles offizielle Seite dora.dev bietet Benchmarks und Erklärungen. Manuelle Aggregation ist am Anfang in Ordnung — schon ein Quartalsvergleich zeigt, ob KI echten Wert produziert.
Nicht völlig falsch. Als Makro-Indikator für die gesamte organisatorische KI-Aktivität ist es nützlich. „Wird nicht genutzt" ist ein echtes Signal. Das Problem ist die Verwendung für individuelle Bewertung, KPIs oder Quoten. OK als Makro-Beobachtung, NICHT OK als individuelle Mikro-Bewertung — halten Sie diese getrennt.