Tokenmaxxing：AI代币消耗能算生产力指标吗？

1. 亚马逊的"每周80% AI使用率"指令——以及随之而来的代币灌水
2. 为什么"代币消耗=工作产出"会蔓延
3. 量与质背离的硬数据
4. 现场正在发生的三种扭曲
5. 更好的指标——AWU、DORA、结果导向
6. 个人和组织今天就能采取的五个行动
总结
常见问题

2026年5月，Tom's Hardware报道称"亚马逊员工为完成内部配额而不必要地使用AI"。该公司设定了内部目标："超过80%的开发者必须每周使用AI工具"，并将代币消耗量呈现在内部排行榜上。员工的回应是灌水代币："把复制粘贴级别的任务也硬塞给AI跑一遍"，"把一个问题拆成多个"，"让Claude写诗只为烧掉代币"。Meta和微软也有类似行为被记录在案。

硅谷给这种趋势取了个名字："Tokenmaxxing"。一种最大化代币消耗就会被奖励的新职场规范。几乎每一家《财富》500强企业都在追踪AI使用情况，但极少有公司测量ROI（据ModelOp的CTO所言）。"使用量=工作量"这一指标，开始把组织决策推向错误方向。

先把我的观点摆出来："代币消耗=工作产出"是1990年代用KLOC（千行代码）评估开发者这一做法在2020年代的重演。数量容易测量，但数量和价值是两码事。一项覆盖22,000名开发者和4,000个团队的研究显示，使用AI使任务完成率提升+34%，但缺陷上升+54%、PR审查时间增长5倍。本文将介绍这一糟糕指标为何蔓延、它的问题在哪里、有哪些替代方案（Salesforce的AWU、DORA、AWS的结果指标），以及个人和组织从今天起可以采取的五个实际行动——全部以现场数据和一手资料为依据。

TOKENMAXXING · 2026

只测量"多少"，地基就会塌陷

——产量+34%，但质量崩坏：缺陷+54% / 审查时间5倍

产量（任务完成数）

+34%

史诗任务完成+66%。使用AI确实能加快开发。

质量（人均缺陷）

+54%

每位开发者的生产缺陷数增长过半。"快但满是bug"已成现实。

审查时间

5×

PR审查时间中位数延长5倍。产量压到审查者身上——人类无法吸收AI的输出速度。

来源：Faros AI"Tokenmaxxing"研究（22,000名开发者×4,000个团队）。
只追逐产量，地基就会塌陷。我们在1990年代已经从KLOC学到的教训——如今正用新的单位重演。

1. 亚马逊的"每周80% AI使用率"指令——以及随之而来的代币灌水

2026年5月，Tom's Hardware发表了一篇调查报道，把"Tokenmaxxing"这个词推上了风口。亚马逊设定了一个内部目标："超过80%的开发者必须每周使用AI工具"。代币消耗量被可视化在内部排行榜上，管理者还在绩效考核中引用它。

员工们做了什么？"把复制粘贴级别的任务也硬塞给AI跑一遍"，"把一个问题拆成多个"，"让Claude写诗只为烧掉代币"。换个说法，就是代币的空转消耗。Tom's Hardware引用的亚马逊员工表示，配额压力相当大，他们"在那些不用AI反而更快的工作中也被迫使用AI"。同样的模式出现在Meta和微软——这不是亚马逊独有的故事。

Trending Topics（欧洲科技媒体）将这一转变概括为"一项技术指标正在变成新职场文化的信条"。"表演式AI使用"本身成了一个评估维度。2026年，这种现象正同时发生在多家《财富》500强公司中。

2. 为什么"代币消耗=工作产出"会蔓延

那么，大公司为什么一开始就采用了这样一个粗糙的指标？有三个原因。

原因①：AI投资需要被合理化

《财富》500强企业在过去两年里向AI投入了数十亿美元。每次CFO或董事会问"这笔投资的回报是多少？"，CTO都需要给出一个数字。代币消耗量是最容易拿出来的数字。API网关日志、内部聊天记录、编码工具使用记录——都能自动汇总。把"使用量"读作"创造的价值量"，成了解释这个问题阻力最小的路径。

原因②：揪出抵制AI的人

每个组织里都有对AI持怀疑态度的员工：担心隐私、担心质量，或者只是不愿意学新工具。管理层想强制推行AI，但仅靠命令推不动人。把代币消耗量摆到台面上，就成了识别"那些不用AI的人"的工具。亚马逊80%的目标正是为此而设。

原因③：对单一可比标量的需求

"质量"、"成果"、"代码整洁度"这类定性指标不容易比较。"A本月用了100万代币，B用了50万"——单一标量值看起来就好像A明显做得更多。容易比较就会招来懒惰的决策。这在结构上与1990年代KLOC（千行代码）的失败如出一辙。

3. 量与质背离的硬数据

如果"使用量=工作量"成立，代币指标就没问题。现实显示的是什么？Faros AI 2026年的研究——覆盖4,000个团队的22,000名开发者——发布的数据决定性地否定了这一点。

Faros AI 2026 / N=22,000

AI使用拉升了什么——又破坏了什么

↑ 提升

任务完成数：+34%
史诗任务完成数：+66%
新增代码行数：大幅上升
PR数量：明显增加

↓ 崩坏

缺陷数：+54%
PR审查时间：5倍
返工率：上升
生产事故：呈上升趋势

"产出量上升了，但质量和可维护性受到打击。"
这就是现场的现实。代币消耗指标只看到画面的一半。

"AI让开发更快"这件事本身并不假。任务+34%、史诗+66%——这些是显示出真实价值的真实数字。问题在于同一份数据集所揭示的代价。缺陷+54%、审查时间5倍——人类审查者跟不上AI生成代码的速度，缺陷会流向下游。一些研究者警告，短期生产力的提升可能会被长期技术债务的增长所抵消。

4. 现场正在发生的三种扭曲

理论说够了。现场实际上正在发生什么？三种可观察到的模式。

扭曲①：代币灌水

最常见的一种。纯粹为了"被看见在用AI"而调用AI。亚马逊出现的行为："把复制粘贴任务也塞给AI跑"，"把一个问题拆成多个"，"和AI聊和工作无关的话题"。纯粹的成本增加，没有价值。这一指标如今正在主动恶化公司的AI ROI——也就是它本来要追踪的东西。

扭曲②：速度压倒实质

如果"写得更多就能获得更好的评价"成为规则，人们就会照此回应。审查变得更轻、合并变得更快，跳过测试，推迟重构——都是为了拉升短期产出的理性行为。Faros研究中"缺陷+54%"就是可以预见的结果。

扭曲③：向"AI友好型"任务漂移

一种更微妙的扭曲。工作从困难而重要的问题（设计、技术债清理、深度调研）转向AI擅长的常规工作（CRUD代码、文档生成、测试脚手架）。只有可测量的工作会被推进。这是古德哈特定律（当一个指标变成目标时，它就不再是好指标）的教科书式案例。

历史在重演：1990年代，许多公司试图用KLOC（千行代码）来评价开发者。结果："没有任何意义的代码膨胀"，"简单逻辑被冗长地写出来"，"有用的重构被回避（因为会减少行数）"。三十年后，我们正在用一个叫"代币"的新单位重复同样的错误。

5. 更好的指标——AWU、DORA、结果导向

如果代币不是答案，应该测量什么？三种2026年版的替代方案。

三种替代指标

超越代币，测量AI影响

① AWU（Agentic Work Units）

Salesforce 2026年提出的方案。将AI输入（代币、算力）换算为已完成工作的单位。把"已经做出了什么"标量化。标准化仍在推进中。

② DORA四项指标

源自Google。部署频率、交付前置时间、变更失败率、MTTR。以结果为导向，经过15年验证。在AI时代依然有效。

③ 结果指标

AWS推荐。综合使用部署速度、代码质量、运维效率、团队生产力、业务影响。为了精确而牺牲简洁。

它们的共通点：测量"产出了什么"，而非"消耗了什么"。
更难捕捉，但其中任何一个都比单纯的代币消耗更能驱动更好的决策。

我个人的判断：DORA最实用。15年的运营使用历史、充足的基准数据，且在AI时代不太会变形。Salesforce的AWU雄心勃勃，但尚未成为行业标准。如果你想要明天就能测量的东西，先从DORA开始。

6. 个人和组织今天就能采取的五个行动

理论已经定了。明天早上你实际能做什么？按角色分别说明。

面向个人开发者

① 不要把代币消耗当成自己的指标：即使经理在看，也要按自己完成了什么来评估自己。如果某项任务不用AI更快，就别强迫自己用AI
② 给审查时间预算：假设AI生成的代码"阅读时间≥编写时间"。在把PR推给别人审查之前，分配时间完整阅读自己的PR
③ 与代币节省相结合：提示缓存、Batch API、精简指令——"低代币消耗、高产出"才是真正的本事

面向管理层

④ 代币消耗只作为采购信号使用：绝不用于个人评价。组织层面追踪它，仅用于确认AI投资是否真的被使用，仅此而已
⑤ 切换到DORA指标：按季度看部署频率、变更失败率、MTTR。比较AI采用前后，判断收益是真实的还是只是代币灌水

最重要的一点：向高管、CFO或董事会汇报时，要把"代币消耗是活动指标，业务结果是结果指标"分开来说。试图用一个数字解释所有事情，恰恰是产生草率决策的根源。把"使用量"和"产生的价值"作为不同主题来处理——这种纪律是AI时代运营好一个组织的关键。

总结

要点回顾：

2026年："Tokenmaxxing"（为虚增指标而灌水代币）在亚马逊、Meta、微软被观察到——如今已是行业术语
Faros AI 22,000名开发者研究：使用AI使任务完成提升+34%，但缺陷+54%、审查时间5倍。数量与质量出现背离
"代币消耗=工作产出"是1990年代KLOC评价在2020年代的重演。古德哈特定律使变形不可避免
三种现场扭曲：代币灌水 / 速度压倒实质 / 向AI友好型任务漂移
替代方案：Salesforce AWU / DORA四项 / AWS结果指标。如今DORA最实用
个人层面：按已完成的事来评价自己。组织层面：将评价切换到DORA，代币消耗仅作为活动级数据汇报

2026年，AI走进组织内部，测量"量"的诱惑前所未有地强烈。API日志免费给你代币计数——正因如此，把这些数字读作"工作产出"的陷阱才如此之深。三十年前我们已经从KLOC学到的教训，不应当用一个叫"代币"的新单位重演一遍。这是AI时代必备的第一项组织智慧。

常见问题

Q1. 小公司里也会发生这种情况吗？

会，无关规模。事实上，小公司面临"按可测量的东西来评价"的压力更强，领导者更容易抓最容易拿到的指标。即使是初创公司也在制定"100% AI使用率目标"这样的内部规则。同样的陷阱。

Q2. 怎样推动抵制AI的员工？

长期来看，"试一下，告诉我你的想法"胜过"必须用"。代币配额短期内能产出数字，但会把抵制者变成做样子的人。真正的采用需要心理安全感和培训投入——这是新技术推广的基本原则，并非AI独有。

Q3. 工程之外（销售、市场）也适用吗？

更加适用。销售和市场的产出是定性的、难以测量，领导者就会抓住"AI起草的提案数"或"ChatGPT查询次数"这类表面指标。你真正应该测量的是：成交率、客户满意度、交付前置时间——AI出现之前就存在的结果指标。

Q4. 如何为我的团队测量DORA？

免费工具就能用。GitHub Insights、Jellyfish、LinearB、Faros AI。Google官方的dora.dev提供了基准和说明。一开始手动汇总也没问题——仅仅做季度环比，就能看出AI是否在产生真实价值。

Q5. "代币消耗=工作产出"完全错误吗？

并非完全错误。作为组织整体AI活动的宏观指标，它是有用的。"没人用"本身就是一个真实信号。问题在于把它用于个人评价、KPI或配额。作为宏观观察可以，作为个人微观评价不行——两者要分开。

AI代币消耗是生产力指标吗？——Tokenmaxxing陷阱与替代测量法