目录
2026年5月,Tom's Hardware报道称"亚马逊员工为完成内部配额而不必要地使用AI"。该公司设定了内部目标:"超过80%的开发者必须每周使用AI工具",并将代币消耗量呈现在内部排行榜上。员工的回应是灌水代币:"把复制粘贴级别的任务也硬塞给AI跑一遍","把一个问题拆成多个","让Claude写诗只为烧掉代币"。Meta和微软也有类似行为被记录在案。
硅谷给这种趋势取了个名字:"Tokenmaxxing"。一种最大化代币消耗就会被奖励的新职场规范。几乎每一家《财富》500强企业都在追踪AI使用情况,但极少有公司测量ROI(据ModelOp的CTO所言)。"使用量=工作量"这一指标,开始把组织决策推向错误方向。
先把我的观点摆出来:"代币消耗=工作产出"是1990年代用KLOC(千行代码)评估开发者这一做法在2020年代的重演。数量容易测量,但数量和价值是两码事。一项覆盖22,000名开发者和4,000个团队的研究显示,使用AI使任务完成率提升+34%,但缺陷上升+54%、PR审查时间增长5倍。本文将介绍这一糟糕指标为何蔓延、它的问题在哪里、有哪些替代方案(Salesforce的AWU、DORA、AWS的结果指标),以及个人和组织从今天起可以采取的五个实际行动——全部以现场数据和一手资料为依据。
只测量"多少",地基就会塌陷
——产量+34%,但质量崩坏:缺陷+54% / 审查时间5倍
来源:Faros AI"Tokenmaxxing"研究(22,000名开发者×4,000个团队)。
只追逐产量,地基就会塌陷。我们在1990年代已经从KLOC学到的教训——如今正用新的单位重演。
1. 亚马逊的"每周80% AI使用率"指令——以及随之而来的代币灌水
2026年5月,Tom's Hardware发表了一篇调查报道,把"Tokenmaxxing"这个词推上了风口。亚马逊设定了一个内部目标:"超过80%的开发者必须每周使用AI工具"。代币消耗量被可视化在内部排行榜上,管理者还在绩效考核中引用它。
员工们做了什么?"把复制粘贴级别的任务也硬塞给AI跑一遍","把一个问题拆成多个","让Claude写诗只为烧掉代币"。换个说法,就是代币的空转消耗。Tom's Hardware引用的亚马逊员工表示,配额压力相当大,他们"在那些不用AI反而更快的工作中也被迫使用AI"。同样的模式出现在Meta和微软——这不是亚马逊独有的故事。
Trending Topics(欧洲科技媒体)将这一转变概括为"一项技术指标正在变成新职场文化的信条"。"表演式AI使用"本身成了一个评估维度。2026年,这种现象正同时发生在多家《财富》500强公司中。
2. 为什么"代币消耗=工作产出"会蔓延
那么,大公司为什么一开始就采用了这样一个粗糙的指标?有三个原因。
原因①:AI投资需要被合理化
《财富》500强企业在过去两年里向AI投入了数十亿美元。每次CFO或董事会问"这笔投资的回报是多少?",CTO都需要给出一个数字。代币消耗量是最容易拿出来的数字。API网关日志、内部聊天记录、编码工具使用记录——都能自动汇总。把"使用量"读作"创造的价值量",成了解释这个问题阻力最小的路径。
原因②:揪出抵制AI的人
每个组织里都有对AI持怀疑态度的员工:担心隐私、担心质量,或者只是不愿意学新工具。管理层想强制推行AI,但仅靠命令推不动人。把代币消耗量摆到台面上,就成了识别"那些不用AI的人"的工具。亚马逊80%的目标正是为此而设。
原因③:对单一可比标量的需求
"质量"、"成果"、"代码整洁度"这类定性指标不容易比较。"A本月用了100万代币,B用了50万"——单一标量值看起来就好像A明显做得更多。容易比较就会招来懒惰的决策。这在结构上与1990年代KLOC(千行代码)的失败如出一辙。
3. 量与质背离的硬数据
如果"使用量=工作量"成立,代币指标就没问题。现实显示的是什么?Faros AI 2026年的研究——覆盖4,000个团队的22,000名开发者——发布的数据决定性地否定了这一点。
AI使用拉升了什么——又破坏了什么
- 任务完成数:+34%
- 史诗任务完成数:+66%
- 新增代码行数:大幅上升
- PR数量:明显增加
- 缺陷数:+54%
- PR审查时间:5倍
- 返工率:上升
- 生产事故:呈上升趋势
"产出量上升了,但质量和可维护性受到打击。"
这就是现场的现实。代币消耗指标只看到画面的一半。
"AI让开发更快"这件事本身并不假。任务+34%、史诗+66%——这些是显示出真实价值的真实数字。问题在于同一份数据集所揭示的代价。缺陷+54%、审查时间5倍——人类审查者跟不上AI生成代码的速度,缺陷会流向下游。一些研究者警告,短期生产力的提升可能会被长期技术债务的增长所抵消。
4. 现场正在发生的三种扭曲
理论说够了。现场实际上正在发生什么?三种可观察到的模式。
扭曲①:代币灌水
最常见的一种。纯粹为了"被看见在用AI"而调用AI。亚马逊出现的行为:"把复制粘贴任务也塞给AI跑","把一个问题拆成多个","和AI聊和工作无关的话题"。纯粹的成本增加,没有价值。这一指标如今正在主动恶化公司的AI ROI——也就是它本来要追踪的东西。
扭曲②:速度压倒实质
如果"写得更多就能获得更好的评价"成为规则,人们就会照此回应。审查变得更轻、合并变得更快,跳过测试,推迟重构——都是为了拉升短期产出的理性行为。Faros研究中"缺陷+54%"就是可以预见的结果。
扭曲③:向"AI友好型"任务漂移
一种更微妙的扭曲。工作从困难而重要的问题(设计、技术债清理、深度调研)转向AI擅长的常规工作(CRUD代码、文档生成、测试脚手架)。只有可测量的工作会被推进。这是古德哈特定律(当一个指标变成目标时,它就不再是好指标)的教科书式案例。
5. 更好的指标——AWU、DORA、结果导向
如果代币不是答案,应该测量什么?三种2026年版的替代方案。
超越代币,测量AI影响
它们的共通点:测量"产出了什么",而非"消耗了什么"。
更难捕捉,但其中任何一个都比单纯的代币消耗更能驱动更好的决策。
我个人的判断:DORA最实用。15年的运营使用历史、充足的基准数据,且在AI时代不太会变形。Salesforce的AWU雄心勃勃,但尚未成为行业标准。如果你想要明天就能测量的东西,先从DORA开始。
6. 个人和组织今天就能采取的五个行动
理论已经定了。明天早上你实际能做什么?按角色分别说明。
面向个人开发者
- ① 不要把代币消耗当成自己的指标:即使经理在看,也要按自己完成了什么来评估自己。如果某项任务不用AI更快,就别强迫自己用AI
- ② 给审查时间预算:假设AI生成的代码"阅读时间≥编写时间"。在把PR推给别人审查之前,分配时间完整阅读自己的PR
- ③ 与代币节省相结合:提示缓存、Batch API、精简指令——"低代币消耗、高产出"才是真正的本事
面向管理层
- ④ 代币消耗只作为采购信号使用:绝不用于个人评价。组织层面追踪它,仅用于确认AI投资是否真的被使用,仅此而已
- ⑤ 切换到DORA指标:按季度看部署频率、变更失败率、MTTR。比较AI采用前后,判断收益是真实的还是只是代币灌水
总结
要点回顾:
- 2026年:"Tokenmaxxing"(为虚增指标而灌水代币)在亚马逊、Meta、微软被观察到——如今已是行业术语
- Faros AI 22,000名开发者研究:使用AI使任务完成提升+34%,但缺陷+54%、审查时间5倍。数量与质量出现背离
- "代币消耗=工作产出"是1990年代KLOC评价在2020年代的重演。古德哈特定律使变形不可避免
- 三种现场扭曲:代币灌水 / 速度压倒实质 / 向AI友好型任务漂移
- 替代方案:Salesforce AWU / DORA四项 / AWS结果指标。如今DORA最实用
- 个人层面:按已完成的事来评价自己。组织层面:将评价切换到DORA,代币消耗仅作为活动级数据汇报
2026年,AI走进组织内部,测量"量"的诱惑前所未有地强烈。API日志免费给你代币计数——正因如此,把这些数字读作"工作产出"的陷阱才如此之深。三十年前我们已经从KLOC学到的教训,不应当用一个叫"代币"的新单位重演一遍。这是AI时代必备的第一项组织智慧。
常见问题
会,无关规模。事实上,小公司面临"按可测量的东西来评价"的压力更强,领导者更容易抓最容易拿到的指标。即使是初创公司也在制定"100% AI使用率目标"这样的内部规则。同样的陷阱。
长期来看,"试一下,告诉我你的想法"胜过"必须用"。代币配额短期内能产出数字,但会把抵制者变成做样子的人。真正的采用需要心理安全感和培训投入——这是新技术推广的基本原则,并非AI独有。
更加适用。销售和市场的产出是定性的、难以测量,领导者就会抓住"AI起草的提案数"或"ChatGPT查询次数"这类表面指标。你真正应该测量的是:成交率、客户满意度、交付前置时间——AI出现之前就存在的结果指标。
免费工具就能用。GitHub Insights、Jellyfish、LinearB、Faros AI。Google官方的dora.dev提供了基准和说明。一开始手动汇总也没问题——仅仅做季度环比,就能看出AI是否在产生真实价值。
并非完全错误。作为组织整体AI活动的宏观指标,它是有用的。"没人用"本身就是一个真实信号。问题在于把它用于个人评价、KPI或配额。作为宏观观察可以,作为个人微观评价不行——两者要分开。