Токенмаксинг: расход AI-токенов как метрика продуктивности?

Расход AI-токенов как метрика продуктивности? — Ловушка токенмаксинга и что измерять вместо этого

Содержание

1. Директива Amazon «80% еженедельного использования AI» — и последовавшее «накручивание» токенов
2. Почему распространилось «расход токенов = результат работы»
3. Жёсткие данные о расхождении количества и качества
4. Три искажения, происходящие на местах
5. Лучшие метрики — AWU, DORA, ориентированные на результат
6. Пять действий для отдельных сотрудников и организаций уже сегодня
Итоги
FAQ

В мае 2026 года издание Tom's Hardware сообщило, что «сотрудники Amazon используют AI без необходимости, чтобы выполнить внутренние нормативы». Компания установила внутреннюю цель: «более 80% разработчиков должны использовать AI-инструменты каждую неделю», а расход токенов выводился во внутренний рейтинг. Сотрудники отреагировали накручиванием токенов: «всё равно прогоняют через AI задачи уровня copy-paste», «разбивают один вопрос на множество», «просят Claude писать стихи, лишь бы сжечь токены». Похожее поведение задокументировано в Meta и Microsoft.

Кремниевая долина дала тренду имя: «Tokenmaxxing» (токенмаксинг). Новая корпоративная норма, при которой максимизация расхода токенов вознаграждается. Почти каждая компания из Fortune 500 отслеживает использование AI, но очень немногие измеряют ROI (по словам CTO ModelOp). Метрика «сколько использовано = сколько сделано» начинает кривить организационные решения в плохую сторону.

Сразу выскажу свою позицию: «расход токенов = результат работы» — это повтор 2020-х той же истории, когда в 1990-е разработчиков оценивали по KLOC (тысячам строк кода). Объём легко измерить, но объём и ценность — разные вещи. Исследование 22 000 разработчиков в 4 000 команд показывает: использование AI подняло выполнение задач на +34%, но число багов выросло на +54%, а время ревью PR — в 5 раз. В статье разбирается, почему распространилась плохая метрика, что с ней не так, какие есть альтернативы (AWU от Salesforce, DORA, ориентированные на результат метрики AWS), и пять практических действий, которые отдельные сотрудники и организации могут предпринять уже сегодня — всё подкреплено полевыми данными и первоисточниками.

TOKENMAXXING · 2026

Измеряй только «сколько» — и почва уходит из-под ног

— Объём +34%, но качество рушится: баги +54% / время ревью x5

Объём (выполненные задачи)

+34%

Эпики выполнены +66%. AI действительно ускоряет разработку.

Качество (баги на разработчика)

+54%

Продакшен-баги на разработчика выросли более чем в полтора раза. «Быстро, но с багами» — теперь реальность.

Время ревью

5×

Медианное время ревью PR в 5 раз дольше. Объём перекладывается на ревьюеров — люди не успевают переваривать темп вывода AI.

Источник: исследование Faros AI «Tokenmaxxing» (22 000 разработчиков × 4 000 команд).
Гонитесь только за объёмом — и почва уходит из-под ног. Урок, который мы уже усвоили на KLOC в 1990-е, — теперь повторяется в новой единице измерения.

1. Директива Amazon «80% еженедельного использования AI» — и последовавшее «накручивание» токенов

В мае 2026 года Tom's Hardware опубликовал расследование, которое вывело «токенмаксинг» на широкую публику. Amazon установила внутреннюю цель: «более 80% разработчиков должны использовать AI-инструменты каждую неделю». Расход токенов визуализировался во внутреннем рейтинге, а менеджеры ссылались на него при оценке производительности.

Что делали сотрудники? «Всё равно прогонять через AI задачу уровня copy-paste». «Разбивать один вопрос на множество». «Просить Claude писать стихи, лишь бы сжечь токены». Это холостой расход токенов, как его ни называй. Цитируемые Tom's Hardware сотрудники Amazon говорили, что давление норматива было интенсивным, и они «втискивали AI в работу, где без AI было бы быстрее». Те же паттерны видны в Meta и Microsoft — это не история одной только Amazon.

Trending Topics (европейская технологическая пресса) подытожил сдвиг как «технический показатель, превратившийся в догмат новой рабочей культуры». «Демонстрация использования AI» становится отдельной осью оценки. И это происходит в 2026 году одновременно по всему Fortune 500.

2. Почему распространилось «расход токенов = результат работы»

Так почему же крупные компании вообще взяли на вооружение столь грубую метрику? Три причины.

Причина 1: инвестициям в AI нужно оправдание

Компании Fortune 500 за последние два года вложили в AI миллиарды. Каждый раз, когда CFO или совет директоров спрашивает: «какова отдача от этих инвестиций?», CTO нужна цифра. Расход токенов — самая лёгкая цифра, которую можно получить. Логи API-шлюзов, история внутренних чатов, использование кодинг-инструментов — всё агрегируется автоматически. Прочесть «сколько использовано» как «сколько создано ценности» стало путём наименьшего сопротивления при объяснениях.

Причина 2: вычислить «AI-скептиков»

В каждой организации есть сотрудники, скептически настроенные к AI: опасения по приватности, по качеству, или просто нежелание учить новые инструменты. Руководство хочет принудить к использованию AI, но одних приказов мало. Вывод расхода токенов на витрину становится инструментом выявления «тех, кто не пользуется AI». Цель Amazon в 80% построена именно для этого.

Причина 3: спрос на единый сравнимый скаляр

Качественные показатели вроде «качества», «результатов» или «чистоты кода» плохо сравниваются между собой. «Сотрудник A использовал в этом месяце 1 млн токенов, сотрудник B — 500 тыс.» — единое скалярное значение читается так, будто A очевидно сделал больше. Лёгкое сравнение порождает ленивые решения. По структуре это идентично провалу KLOC (тысяч строк кода) в 1990-е.

3. Жёсткие данные о расхождении количества и качества

Если бы «сколько использовано = сколько сделано» работало, метрика токенов была бы в порядке. Что показывает реальность? Исследование Faros AI 2026 года — 22 000 разработчиков в 4 000 команд — опубликовало цифры, которые однозначно её опровергают.

Faros AI 2026 / N=22 000

Что использование AI поднимает — и что ломает

↑ Поднимает

Выполненные задачи: +34%
Выполненные эпики: +66%;
Добавленные строки кода: резкий рост
Количество PR: явно растёт

↓ Ломает

Количество багов: +54%
Время ревью PR: x5
Доля переделок: растёт
Продакшен-инциденты: тренд вверх

«Объём вывода растёт, но качество и поддерживаемость берут на себя удар».
Такова полевая реальность. Метрики расхода токенов смотрят лишь на половину картины.

Сам по себе тезис «AI ускоряет разработку» не ложен. Задачи +34%, эпики +66% — это реальные числа, показывающие реальную ценность. Проблема в том, что показывает тот же датасет о цене. Баги +54%, время ревью в 5 раз — люди-ревьюеры не успевают за AI-сгенерированным кодом, и дефекты утекают вниз по потоку. Часть исследователей предупреждает, что краткосрочный прирост продуктивности может быть нивелирован долгосрочным ростом технического долга.

4. Три искажения, происходящие на местах

Хватит теории. Что реально происходит на местах? Три наблюдаемых паттерна.

Искажение 1: накручивание токенов

Самое распространённое. Вызов AI исключительно ради того, чтобы «тебя видели за использованием AI». Поведение в Amazon: «прогон copy-paste задач через AI», «дробление одного вопроса на множество», «беседы с AI на посторонние темы». Чистый прирост затрат, никакой ценности. Метрика теперь активно ухудшает AI-ROI компании — то самое, что она должна была отслеживать.

Искажение 2: скорость в ущерб содержанию

Если правило таково: «пишешь больше — получаешь лучшие оценки», люди реагируют соответствующе. Ревью становится поверхностнее, мерджи быстрее, тесты пропускаются, рефакторинги откладываются — все рациональные действия, чтобы поднять краткосрочный объём. Faros «баги +54%» — предсказуемый результат.

Искажение 3: дрейф в сторону «AI-дружественных» задач

Более тонкое искажение. Работа смещается от сложных, важных задач (проектирование, разгребание техдолга, глубокие исследования) к рутине, в которой AI хорош (CRUD-код, генерация документации, скелеты тестов). Двигается вперёд только то, что измеримо. Это закон Гудхарта (когда мера становится целью, она перестаёт быть хорошей мерой) в учебниковой форме.

История повторяется: в 1990-е многие компании пытались оценивать разработчиков по KLOC (тысячам строк кода). Результаты: «код, раздутый без всякой цели», «простая логика, написанная многословно», «полезные рефакторинги, которых избегают (потому что они уменьшают число строк)». Тридцать лет спустя мы повторяем ту же ошибку в новой единице — «токенах».

5. Лучшие метрики — AWU, DORA, ориентированные на результат

Если токены — не ответ, то что измерять? Три альтернативы образца 2026 года.

Альтернативные метрики × 3

Измеряйте влияние AI шире токенов

1. AWU (Agentic Work Units)

Предложение Salesforce 2026 года. Переводит входы AI (токены, вычисления) в единицы выполненной работы. Скаляризует «что построено». Стандартизация пока в работе.

2. DORA-метрики (4 показателя)

Родом из Google. Частота деплоев, lead time, доля провальных изменений, MTTR. Ориентированы на результат, валидированы 15 лет. Работают и в эпоху AI.

3. Индикаторы результата

Рекомендация AWS. Скорость деплоя, качество кода, операционная эффективность, продуктивность команды, влияние на бизнес — в связке. Жертвует простотой ради точности.

Общее у всех: меряют «что получилось на выходе», а не «что было использовано».
Сложнее измерять, но любая из них приведёт к лучшим решениям, чем один лишь расход токенов.

Моя личная позиция: DORA — самая практичная. Пятнадцать лет операционного применения, обильные бенчмарки и малая вероятность деформации в эпоху AI. AWU от Salesforce амбициозна, но пока не отраслевой стандарт. Если хотите начать измерять уже завтра — начинайте с DORA.

6. Пять действий для отдельных сотрудников и организаций уже сегодня

Теория ясна. Что можно реально сделать завтра утром? Разделим по ролям.

Для разработчиков-индивидуалов

1. Не делайте расход токенов своей личной метрикой: даже если менеджер смотрит, оценивайте себя по тому, что вы завершили. Если без AI задача быстрее — не втискивайте в неё AI
2. Закладывайте время на ревью: предполагайте, что AI-сгенерированный код требует «времени чтения ≥ времени написания». Выделяйте время на полное прочтение собственного PR, прежде чем отправлять его на ревью
3. Сочетайте с экономией токенов: prompt caching, Batch API, лаконичные инструкции — «высокий результат при низком расходе токенов» — вот настоящий навык

Для менеджмента

4. Используйте расход токенов только как сигнал по закупкам: никогда — как индивидуальную оценку. Отслеживайте на уровне всей организации, чтобы убедиться, что AI-инвестиции вообще используются, и не более того
5. Переходите на DORA-метрики: частота деплоев, доля провальных изменений, MTTR с квартальной ритмикой. Сравнивайте «до/после» внедрения AI, чтобы увидеть, реальны ли выигрыши, или это просто накрутка токенов

Самое важное: при докладах руководству, CFO или совету директоров разделяйте «расход токенов — это метрика активности, бизнес-результаты — метрики итога». Попытка объяснить всё одним числом — вот что порождает небрежные решения. Считайте «сколько использовано» и «сколько создано ценности» разными темами — эта дисциплина и есть ключ к управлению организацией в эпоху AI.

Итоги

Подведём итог:

2026 год: «токенмаксинг» (накрутка токенов ради раздувания метрик) наблюдается в Amazon, Meta, Microsoft — теперь это отраслевой термин
Исследование Faros AI на 22 000 разработчиков: использование AI поднимает выполнение задач на +34%, но багов +54%, время ревью x5. Количество и качество расходятся
«Расход токенов = результат работы» — это повтор 2020-х той же оценки по KLOC, что была в 1990-е. Закон Гудхарта делает деформацию неизбежной
Три полевых искажения: накручивание токенов / скорость в ущерб содержанию / дрейф к «AI-дружественным» задачам
Альтернативы: Salesforce AWU / DORA-4 / индикаторы результата AWS. На сегодня самая практичная — DORA
Индивидуально: оценивайте себя по сделанному. Организационно: переводите оценку на DORA, расход токенов докладывайте только как данные уровня активности

В 2026 году, когда AI вошёл внутрь организаций, искушение измерять объём сильнее, чем когда-либо. Логи API дают подсчёт токенов бесплатно — именно поэтому ловушка читать эти цифры как «результат работы» так глубока. Урок, который мы уже усвоили на KLOC тридцать лет назад, нельзя повторять в новой единице «токены». Это первое требование к организационному интеллекту в эпоху AI.

FAQ

Q1. Случается ли это и в небольших компаниях?

Да, вне зависимости от размера. Более того, в небольших компаниях давление «оценивать по измеримому» сильнее, и руководители хватаются за самую лёгкую метрику. Даже стартапы вводят внутренние правила вроде «цель — 100% использования AI». Та же ловушка.

Q2. Как сдвинуть AI-скептически настроенных сотрудников?

«Попробуй и расскажи, что думаешь» в долгую работает лучше, чем «используй». Нормативы по токенам в краткосрочной перспективе дают цифры, но превращают скептиков в тех, кто пользуется ради вида. Реальное внедрение требует психологической безопасности и инвестиций в обучение — это базовое правило выкатки новых технологий, не специфичное для AI.

Q3. Применимо ли это вне инженерии (продажи, маркетинг)?

Тем более. Результаты в продажах и маркетинге качественные и плохо измеримы, поэтому руководители хватаются за поверхностные метрики вроде «числа AI-черновиков предложений» или «числа запросов в ChatGPT». Что измерять стоит на самом деле: конверсию закрытия, удовлетворённость клиентов, lead time — итоговые метрики, существовавшие и до AI.

Q4. Как измерять DORA для своей команды?

Подойдут бесплатные инструменты. GitHub Insights, Jellyfish, LinearB, Faros AI. Официальный сайт Google dora.dev содержит бенчмарки и пояснения. На старте подойдёт и ручная агрегация — уже простое сравнение квартал к кварталу покажет, создаёт ли AI реальную ценность.

Q5. «Расход токенов = результат работы» — это полностью неверно?

Не полностью. Как макропоказатель общей AI-активности организации он полезен. «Не используется» — реальный сигнал. Проблема в использовании для индивидуальной оценки, KPI или нормативов. ОК как макронаблюдение, НЕ ОК как микрооценка отдельного сотрудника — держите эти вещи раздельно.

Расход AI-токенов как метрика продуктивности? — Ловушка токенмаксинга и что измерять вместо этого