2026年5月,Tom's Hardware报道称"亚马逊员工为完成内部配额而不必要地使用AI"。该公司设定了内部目标:"超过80%的开发者必须每周使用AI工具",并将代币消耗量呈现在内部排行榜上。员工的回应是灌水代币:"把复制粘贴级别的任务也硬塞给AI跑一遍","把一个问题拆成多个","让Claude写诗只为烧掉代币"。Meta和微软也有类似行为被记录在案。

硅谷给这种趋势取了个名字:"Tokenmaxxing"。一种最大化代币消耗就会被奖励的新职场规范。几乎每一家《财富》500强企业都在追踪AI使用情况,但极少有公司测量ROI(据ModelOp的CTO所言)。"使用量=工作量"这一指标,开始把组织决策推向错误方向。

先把我的观点摆出来:"代币消耗=工作产出"是1990年代用KLOC(千行代码)评估开发者这一做法在2020年代的重演数量容易测量,但数量和价值是两码事。一项覆盖22,000名开发者和4,000个团队的研究显示,使用AI使任务完成率提升+34%,但缺陷上升+54%、PR审查时间增长5倍。本文将介绍这一糟糕指标为何蔓延、它的问题在哪里、有哪些替代方案(Salesforce的AWU、DORA、AWS的结果指标),以及个人和组织从今天起可以采取的五个实际行动——全部以现场数据和一手资料为依据。

TOKENMAXXING · 2026

只测量"多少",地基就会塌陷

——产量+34%,但质量崩坏:缺陷+54% / 审查时间5倍

产量(任务完成数)
+34%
史诗任务完成+66%。使用AI确实能加快开发。
质量(人均缺陷)
+54%
每位开发者的生产缺陷数增长过半。"快但满是bug"已成现实。
审查时间
PR审查时间中位数延长5倍。产量压到审查者身上——人类无法吸收AI的输出速度。

来源:Faros AI"Tokenmaxxing"研究(22,000名开发者×4,000个团队)
只追逐产量,地基就会塌陷。我们在1990年代已经从KLOC学到的教训——如今正用新的单位重演。

1. 亚马逊的"每周80% AI使用率"指令——以及随之而来的代币灌水

2026年5月,Tom's Hardware发表了一篇调查报道,把"Tokenmaxxing"这个词推上了风口。亚马逊设定了一个内部目标:"超过80%的开发者必须每周使用AI工具"。代币消耗量被可视化在内部排行榜上,管理者还在绩效考核中引用它。

员工们做了什么?"把复制粘贴级别的任务也硬塞给AI跑一遍","把一个问题拆成多个","让Claude写诗只为烧掉代币"。换个说法,就是代币的空转消耗。Tom's Hardware引用的亚马逊员工表示,配额压力相当大,他们"在那些不用AI反而更快的工作中也被迫使用AI"。同样的模式出现在Meta和微软——这不是亚马逊独有的故事。

Trending Topics(欧洲科技媒体)将这一转变概括为"一项技术指标正在变成新职场文化的信条""表演式AI使用"本身成了一个评估维度。2026年,这种现象正同时发生在多家《财富》500强公司中。

2. 为什么"代币消耗=工作产出"会蔓延

那么,大公司为什么一开始就采用了这样一个粗糙的指标?有三个原因。

原因①:AI投资需要被合理化

《财富》500强企业在过去两年里向AI投入了数十亿美元。每次CFO或董事会问"这笔投资的回报是多少?",CTO都需要给出一个数字。代币消耗量是最容易拿出来的数字。API网关日志、内部聊天记录、编码工具使用记录——都能自动汇总。把"使用量"读作"创造的价值量",成了解释这个问题阻力最小的路径。

原因②:揪出抵制AI的人

每个组织里都有对AI持怀疑态度的员工:担心隐私、担心质量,或者只是不愿意学新工具。管理层想强制推行AI,但仅靠命令推不动人。把代币消耗量摆到台面上,就成了识别"那些不用AI的人"的工具。亚马逊80%的目标正是为此而设。

原因③:对单一可比标量的需求

"质量"、"成果"、"代码整洁度"这类定性指标不容易比较。"A本月用了100万代币,B用了50万"——单一标量值看起来就好像A明显做得更多。容易比较就会招来懒惰的决策。这在结构上与1990年代KLOC(千行代码)的失败如出一辙。

3. 量与质背离的硬数据

如果"使用量=工作量"成立,代币指标就没问题。现实显示的是什么?Faros AI 2026年的研究——覆盖4,000个团队的22,000名开发者——发布的数据决定性地否定了这一点。

Faros AI 2026 / N=22,000

AI使用拉升了什么——又破坏了什么

↑ 提升
  • 任务完成数:+34%
  • 史诗任务完成数:+66%
  • 新增代码行数:大幅上升
  • PR数量:明显增加
↓ 崩坏
  • 缺陷数:+54%
  • PR审查时间:5倍
  • 返工率:上升
  • 生产事故:呈上升趋势

"产出量上升了,但质量和可维护性受到打击。"
这就是现场的现实。代币消耗指标只看到画面的一半。

"AI让开发更快"这件事本身并不假。任务+34%、史诗+66%——这些是显示出真实价值的真实数字。问题在于同一份数据集所揭示的代价。缺陷+54%、审查时间5倍——人类审查者跟不上AI生成代码的速度,缺陷会流向下游。一些研究者警告,短期生产力的提升可能会被长期技术债务的增长所抵消

4. 现场正在发生的三种扭曲

理论说够了。现场实际上正在发生什么?三种可观察到的模式。

扭曲①:代币灌水

最常见的一种。纯粹为了"被看见在用AI"而调用AI。亚马逊出现的行为:"把复制粘贴任务也塞给AI跑","把一个问题拆成多个","和AI聊和工作无关的话题"纯粹的成本增加,没有价值。这一指标如今正在主动恶化公司的AI ROI——也就是它本来要追踪的东西。

扭曲②:速度压倒实质

如果"写得更多就能获得更好的评价"成为规则,人们就会照此回应。审查变得更轻、合并变得更快跳过测试推迟重构——都是为了拉升短期产出的理性行为。Faros研究中"缺陷+54%"就是可以预见的结果。

扭曲③:向"AI友好型"任务漂移

一种更微妙的扭曲。工作从困难而重要的问题(设计、技术债清理、深度调研)转向AI擅长的常规工作(CRUD代码、文档生成、测试脚手架)只有可测量的工作会被推进。这是古德哈特定律(当一个指标变成目标时,它就不再是好指标)的教科书式案例。

历史在重演:1990年代,许多公司试图用KLOC(千行代码)来评价开发者。结果:"没有任何意义的代码膨胀","简单逻辑被冗长地写出来","有用的重构被回避(因为会减少行数)"。三十年后,我们正在用一个叫"代币"的新单位重复同样的错误

5. 更好的指标——AWU、DORA、结果导向

如果代币不是答案,应该测量什么?三种2026年版的替代方案

三种替代指标

超越代币,测量AI影响

① AWU(Agentic Work Units)
Salesforce 2026年提出的方案。将AI输入(代币、算力)换算为已完成工作的单位。把"已经做出了什么"标量化。标准化仍在推进中。
② DORA四项指标
源自Google。部署频率、交付前置时间、变更失败率、MTTR以结果为导向,经过15年验证。在AI时代依然有效。
③ 结果指标
AWS推荐。综合使用部署速度、代码质量、运维效率、团队生产力、业务影响。为了精确而牺牲简洁。

它们的共通点:测量"产出了什么",而非"消耗了什么"。
更难捕捉,但其中任何一个都比单纯的代币消耗更能驱动更好的决策。

我个人的判断:DORA最实用。15年的运营使用历史、充足的基准数据,且在AI时代不太会变形。Salesforce的AWU雄心勃勃,但尚未成为行业标准。如果你想要明天就能测量的东西,先从DORA开始

6. 个人和组织今天就能采取的五个行动

理论已经定了。明天早上你实际能做什么?按角色分别说明。

面向个人开发者

  • ① 不要把代币消耗当成自己的指标:即使经理在看,也要按自己完成了什么来评估自己。如果某项任务不用AI更快,就别强迫自己用AI
  • ② 给审查时间预算:假设AI生成的代码"阅读时间≥编写时间"。在把PR推给别人审查之前,分配时间完整阅读自己的PR
  • ③ 与代币节省相结合:提示缓存、Batch API、精简指令——"低代币消耗、高产出"才是真正的本事

面向管理层

  • ④ 代币消耗只作为采购信号使用:绝不用于个人评价。组织层面追踪它,仅用于确认AI投资是否真的被使用,仅此而已
  • ⑤ 切换到DORA指标:按季度看部署频率、变更失败率、MTTR。比较AI采用前后,判断收益是真实的还是只是代币灌水
最重要的一点:向高管、CFO或董事会汇报时,要把"代币消耗是活动指标,业务结果是结果指标"分开来说。试图用一个数字解释所有事情,恰恰是产生草率决策的根源。把"使用量"和"产生的价值"作为不同主题来处理——这种纪律是AI时代运营好一个组织的关键。

总结

要点回顾:

  • 2026年:"Tokenmaxxing"(为虚增指标而灌水代币)在亚马逊、Meta、微软被观察到——如今已是行业术语
  • Faros AI 22,000名开发者研究:使用AI使任务完成提升+34%,但缺陷+54%、审查时间5倍数量与质量出现背离
  • "代币消耗=工作产出"是1990年代KLOC评价在2020年代的重演。古德哈特定律使变形不可避免
  • 三种现场扭曲:代币灌水 / 速度压倒实质 / 向AI友好型任务漂移
  • 替代方案:Salesforce AWU / DORA四项 / AWS结果指标。如今DORA最实用
  • 个人层面:按已完成的事来评价自己。组织层面:将评价切换到DORA,代币消耗仅作为活动级数据汇报

2026年,AI走进组织内部,测量"量"的诱惑前所未有地强烈。API日志免费给你代币计数——正因如此,把这些数字读作"工作产出"的陷阱才如此之深。三十年前我们已经从KLOC学到的教训,不应当用一个叫"代币"的新单位重演一遍。这是AI时代必备的第一项组织智慧。

常见问题

Q1. 小公司里也会发生这种情况吗?

会,无关规模。事实上,小公司面临"按可测量的东西来评价"的压力更强,领导者更容易抓最容易拿到的指标。即使是初创公司也在制定"100% AI使用率目标"这样的内部规则。同样的陷阱。

Q2. 怎样推动抵制AI的员工?

长期来看,"试一下,告诉我你的想法"胜过"必须用"。代币配额短期内能产出数字,但会把抵制者变成做样子的人。真正的采用需要心理安全感和培训投入——这是新技术推广的基本原则,并非AI独有。

Q3. 工程之外(销售、市场)也适用吗?

更加适用。销售和市场的产出是定性的、难以测量,领导者就会抓住"AI起草的提案数"或"ChatGPT查询次数"这类表面指标。你真正应该测量的是:成交率、客户满意度、交付前置时间——AI出现之前就存在的结果指标。

Q4. 如何为我的团队测量DORA?

免费工具就能用。GitHub Insights、Jellyfish、LinearB、Faros AI。Google官方的dora.dev提供了基准和说明。一开始手动汇总也没问题——仅仅做季度环比,就能看出AI是否在产生真实价值

Q5. "代币消耗=工作产出"完全错误吗?

并非完全错误。作为组织整体AI活动的宏观指标,它是有用的。"没人用"本身就是一个真实信号。问题在于把它用于个人评价、KPI或配额作为宏观观察可以,作为个人微观评价不行——两者要分开。