Содержание
- 1. Директива Amazon «80% еженедельного использования AI» — и последовавшее «накручивание» токенов
- 2. Почему распространилось «расход токенов = результат работы»
- 3. Жёсткие данные о расхождении количества и качества
- 4. Три искажения, происходящие на местах
- 5. Лучшие метрики — AWU, DORA, ориентированные на результат
- 6. Пять действий для отдельных сотрудников и организаций уже сегодня
- Итоги
- FAQ
В мае 2026 года издание Tom's Hardware сообщило, что «сотрудники Amazon используют AI без необходимости, чтобы выполнить внутренние нормативы». Компания установила внутреннюю цель: «более 80% разработчиков должны использовать AI-инструменты каждую неделю», а расход токенов выводился во внутренний рейтинг. Сотрудники отреагировали накручиванием токенов: «всё равно прогоняют через AI задачи уровня copy-paste», «разбивают один вопрос на множество», «просят Claude писать стихи, лишь бы сжечь токены». Похожее поведение задокументировано в Meta и Microsoft.
Кремниевая долина дала тренду имя: «Tokenmaxxing» (токенмаксинг). Новая корпоративная норма, при которой максимизация расхода токенов вознаграждается. Почти каждая компания из Fortune 500 отслеживает использование AI, но очень немногие измеряют ROI (по словам CTO ModelOp). Метрика «сколько использовано = сколько сделано» начинает кривить организационные решения в плохую сторону.
Сразу выскажу свою позицию: «расход токенов = результат работы» — это повтор 2020-х той же истории, когда в 1990-е разработчиков оценивали по KLOC (тысячам строк кода). Объём легко измерить, но объём и ценность — разные вещи. Исследование 22 000 разработчиков в 4 000 команд показывает: использование AI подняло выполнение задач на +34%, но число багов выросло на +54%, а время ревью PR — в 5 раз. В статье разбирается, почему распространилась плохая метрика, что с ней не так, какие есть альтернативы (AWU от Salesforce, DORA, ориентированные на результат метрики AWS), и пять практических действий, которые отдельные сотрудники и организации могут предпринять уже сегодня — всё подкреплено полевыми данными и первоисточниками.
Измеряй только «сколько» — и почва уходит из-под ног
— Объём +34%, но качество рушится: баги +54% / время ревью x5
Источник: исследование Faros AI «Tokenmaxxing» (22 000 разработчиков × 4 000 команд).
Гонитесь только за объёмом — и почва уходит из-под ног. Урок, который мы уже усвоили на KLOC в 1990-е, — теперь повторяется в новой единице измерения.
1. Директива Amazon «80% еженедельного использования AI» — и последовавшее «накручивание» токенов
В мае 2026 года Tom's Hardware опубликовал расследование, которое вывело «токенмаксинг» на широкую публику. Amazon установила внутреннюю цель: «более 80% разработчиков должны использовать AI-инструменты каждую неделю». Расход токенов визуализировался во внутреннем рейтинге, а менеджеры ссылались на него при оценке производительности.
Что делали сотрудники? «Всё равно прогонять через AI задачу уровня copy-paste». «Разбивать один вопрос на множество». «Просить Claude писать стихи, лишь бы сжечь токены». Это холостой расход токенов, как его ни называй. Цитируемые Tom's Hardware сотрудники Amazon говорили, что давление норматива было интенсивным, и они «втискивали AI в работу, где без AI было бы быстрее». Те же паттерны видны в Meta и Microsoft — это не история одной только Amazon.
Trending Topics (европейская технологическая пресса) подытожил сдвиг как «технический показатель, превратившийся в догмат новой рабочей культуры». «Демонстрация использования AI» становится отдельной осью оценки. И это происходит в 2026 году одновременно по всему Fortune 500.
2. Почему распространилось «расход токенов = результат работы»
Так почему же крупные компании вообще взяли на вооружение столь грубую метрику? Три причины.
Причина 1: инвестициям в AI нужно оправдание
Компании Fortune 500 за последние два года вложили в AI миллиарды. Каждый раз, когда CFO или совет директоров спрашивает: «какова отдача от этих инвестиций?», CTO нужна цифра. Расход токенов — самая лёгкая цифра, которую можно получить. Логи API-шлюзов, история внутренних чатов, использование кодинг-инструментов — всё агрегируется автоматически. Прочесть «сколько использовано» как «сколько создано ценности» стало путём наименьшего сопротивления при объяснениях.
Причина 2: вычислить «AI-скептиков»
В каждой организации есть сотрудники, скептически настроенные к AI: опасения по приватности, по качеству, или просто нежелание учить новые инструменты. Руководство хочет принудить к использованию AI, но одних приказов мало. Вывод расхода токенов на витрину становится инструментом выявления «тех, кто не пользуется AI». Цель Amazon в 80% построена именно для этого.
Причина 3: спрос на единый сравнимый скаляр
Качественные показатели вроде «качества», «результатов» или «чистоты кода» плохо сравниваются между собой. «Сотрудник A использовал в этом месяце 1 млн токенов, сотрудник B — 500 тыс.» — единое скалярное значение читается так, будто A очевидно сделал больше. Лёгкое сравнение порождает ленивые решения. По структуре это идентично провалу KLOC (тысяч строк кода) в 1990-е.
3. Жёсткие данные о расхождении количества и качества
Если бы «сколько использовано = сколько сделано» работало, метрика токенов была бы в порядке. Что показывает реальность? Исследование Faros AI 2026 года — 22 000 разработчиков в 4 000 команд — опубликовало цифры, которые однозначно её опровергают.
Что использование AI поднимает — и что ломает
- Выполненные задачи: +34%
- Выполненные эпики: +66%;
- Добавленные строки кода: резкий рост
- Количество PR: явно растёт
- Количество багов: +54%
- Время ревью PR: x5
- Доля переделок: растёт
- Продакшен-инциденты: тренд вверх
«Объём вывода растёт, но качество и поддерживаемость берут на себя удар».
Такова полевая реальность. Метрики расхода токенов смотрят лишь на половину картины.
Сам по себе тезис «AI ускоряет разработку» не ложен. Задачи +34%, эпики +66% — это реальные числа, показывающие реальную ценность. Проблема в том, что показывает тот же датасет о цене. Баги +54%, время ревью в 5 раз — люди-ревьюеры не успевают за AI-сгенерированным кодом, и дефекты утекают вниз по потоку. Часть исследователей предупреждает, что краткосрочный прирост продуктивности может быть нивелирован долгосрочным ростом технического долга.
4. Три искажения, происходящие на местах
Хватит теории. Что реально происходит на местах? Три наблюдаемых паттерна.
Искажение 1: накручивание токенов
Самое распространённое. Вызов AI исключительно ради того, чтобы «тебя видели за использованием AI». Поведение в Amazon: «прогон copy-paste задач через AI», «дробление одного вопроса на множество», «беседы с AI на посторонние темы». Чистый прирост затрат, никакой ценности. Метрика теперь активно ухудшает AI-ROI компании — то самое, что она должна была отслеживать.
Искажение 2: скорость в ущерб содержанию
Если правило таково: «пишешь больше — получаешь лучшие оценки», люди реагируют соответствующе. Ревью становится поверхностнее, мерджи быстрее, тесты пропускаются, рефакторинги откладываются — все рациональные действия, чтобы поднять краткосрочный объём. Faros «баги +54%» — предсказуемый результат.
Искажение 3: дрейф в сторону «AI-дружественных» задач
Более тонкое искажение. Работа смещается от сложных, важных задач (проектирование, разгребание техдолга, глубокие исследования) к рутине, в которой AI хорош (CRUD-код, генерация документации, скелеты тестов). Двигается вперёд только то, что измеримо. Это закон Гудхарта (когда мера становится целью, она перестаёт быть хорошей мерой) в учебниковой форме.
5. Лучшие метрики — AWU, DORA, ориентированные на результат
Если токены — не ответ, то что измерять? Три альтернативы образца 2026 года.
Измеряйте влияние AI шире токенов
Общее у всех: меряют «что получилось на выходе», а не «что было использовано».
Сложнее измерять, но любая из них приведёт к лучшим решениям, чем один лишь расход токенов.
Моя личная позиция: DORA — самая практичная. Пятнадцать лет операционного применения, обильные бенчмарки и малая вероятность деформации в эпоху AI. AWU от Salesforce амбициозна, но пока не отраслевой стандарт. Если хотите начать измерять уже завтра — начинайте с DORA.
6. Пять действий для отдельных сотрудников и организаций уже сегодня
Теория ясна. Что можно реально сделать завтра утром? Разделим по ролям.
Для разработчиков-индивидуалов
- 1. Не делайте расход токенов своей личной метрикой: даже если менеджер смотрит, оценивайте себя по тому, что вы завершили. Если без AI задача быстрее — не втискивайте в неё AI
- 2. Закладывайте время на ревью: предполагайте, что AI-сгенерированный код требует «времени чтения ≥ времени написания». Выделяйте время на полное прочтение собственного PR, прежде чем отправлять его на ревью
- 3. Сочетайте с экономией токенов: prompt caching, Batch API, лаконичные инструкции — «высокий результат при низком расходе токенов» — вот настоящий навык
Для менеджмента
- 4. Используйте расход токенов только как сигнал по закупкам: никогда — как индивидуальную оценку. Отслеживайте на уровне всей организации, чтобы убедиться, что AI-инвестиции вообще используются, и не более того
- 5. Переходите на DORA-метрики: частота деплоев, доля провальных изменений, MTTR с квартальной ритмикой. Сравнивайте «до/после» внедрения AI, чтобы увидеть, реальны ли выигрыши, или это просто накрутка токенов
Итоги
Подведём итог:
- 2026 год: «токенмаксинг» (накрутка токенов ради раздувания метрик) наблюдается в Amazon, Meta, Microsoft — теперь это отраслевой термин
- Исследование Faros AI на 22 000 разработчиков: использование AI поднимает выполнение задач на +34%, но багов +54%, время ревью x5. Количество и качество расходятся
- «Расход токенов = результат работы» — это повтор 2020-х той же оценки по KLOC, что была в 1990-е. Закон Гудхарта делает деформацию неизбежной
- Три полевых искажения: накручивание токенов / скорость в ущерб содержанию / дрейф к «AI-дружественным» задачам
- Альтернативы: Salesforce AWU / DORA-4 / индикаторы результата AWS. На сегодня самая практичная — DORA
- Индивидуально: оценивайте себя по сделанному. Организационно: переводите оценку на DORA, расход токенов докладывайте только как данные уровня активности
В 2026 году, когда AI вошёл внутрь организаций, искушение измерять объём сильнее, чем когда-либо. Логи API дают подсчёт токенов бесплатно — именно поэтому ловушка читать эти цифры как «результат работы» так глубока. Урок, который мы уже усвоили на KLOC тридцать лет назад, нельзя повторять в новой единице «токены». Это первое требование к организационному интеллекту в эпоху AI.
FAQ
Да, вне зависимости от размера. Более того, в небольших компаниях давление «оценивать по измеримому» сильнее, и руководители хватаются за самую лёгкую метрику. Даже стартапы вводят внутренние правила вроде «цель — 100% использования AI». Та же ловушка.
«Попробуй и расскажи, что думаешь» в долгую работает лучше, чем «используй». Нормативы по токенам в краткосрочной перспективе дают цифры, но превращают скептиков в тех, кто пользуется ради вида. Реальное внедрение требует психологической безопасности и инвестиций в обучение — это базовое правило выкатки новых технологий, не специфичное для AI.
Тем более. Результаты в продажах и маркетинге качественные и плохо измеримы, поэтому руководители хватаются за поверхностные метрики вроде «числа AI-черновиков предложений» или «числа запросов в ChatGPT». Что измерять стоит на самом деле: конверсию закрытия, удовлетворённость клиентов, lead time — итоговые метрики, существовавшие и до AI.
Подойдут бесплатные инструменты. GitHub Insights, Jellyfish, LinearB, Faros AI. Официальный сайт Google dora.dev содержит бенчмарки и пояснения. На старте подойдёт и ручная агрегация — уже простое сравнение квартал к кварталу покажет, создаёт ли AI реальную ценность.
Не полностью. Как макропоказатель общей AI-активности организации он полезен. «Не используется» — реальный сигнал. Проблема в использовании для индивидуальной оценки, KPI или нормативов. ОК как макронаблюдение, НЕ ОК как микрооценка отдельного сотрудника — держите эти вещи раздельно.