2023 年发布的 GPT-4,据估计是在 Microsoft Azure 上动用约 25,000 块 GPU、连续运行数月训练而成的。投入那一次训练的算力大约是 2×10²⁵ 次浮点运算(FLOPs)。即便是更早的 GPT-3,单单训练就烧掉了约 1,287 MWh 电力——相当于一个普通家庭一个多世纪的用电量,只为打造出一个模型。在我们随手敲下的"嘿,帮我总结一下"背后,藏着一个由物理学和成堆现金构成的世界。

本文将从机制、电力、金钱三个方向,深入剖析"LLM(大语言模型)究竟是如何运作的"。具体来说——(1)为什么 LLM 仅凭一堆叫"权重(参数)"的旋钮就能生成语言;(2)一次提问或一次训练究竟消耗多少电;(3)"前沿 LLM 开发就是烧钱大战"这种说法是不是真的?对第三点的简短回答是:"对于绝对前沿而言,基本属实——但'光有钱赢不了'的反向潮流在 2026 年变得更强了。"这才是准确的图景。

先亮明我的立场:LLM 的"智能"既不是魔法也不是意识——它是用电力把一台巨大的概率预测机器硬生生塑造成型的结果。理解了机制,过度的炒作和过度的恐惧就都会消散。本文会深入到中级程度。如果你还在"LLM 到底是什么"的起点,请先读 什么是 LLM(入门);关于上下文长度见 上下文窗口;关于价格见 面向初学者的 AI API

HOW LLMs WORK · WEIGHTS × POWER × CASH

从三个方向解剖一台 LLM

——智能由什么构成、它烧掉的电、它花掉的钱

机制
权重预测下一个词
数千亿到 1 万亿以上的旋钮只是在计算概率
电力
单次查询 ≈ 0.4–33 Wh
一次训练 = 100 多个家庭年的用电
金钱
前沿一次 $200–500M
预计到 2027 年,单次训练将达 $1–3B

LLM 的聪明绝非魔法。它是用电力和金钱把一台巨大的概率机器硬塑造成型的结果。
懂了机制,炒作与恐惧便一并消散。

1. LLM 只是不停地猜"下一个词"

这听上去也许令人意外,但 ChatGPT、Claude、Gemini 本质上做的都是同一件事。"根据目前为止的文本,计算出最可能作为续写的下一个词(更准确地说是'token')的概率,挑一个出来,再一个接一个排好。"就这么简单。喂给它"猫趴在 ___ 上",它会给"垫子""沙发""地板"等候选项分配概率,然后输出概率最高的那个(或按概率采样出来的那个)。它每次生成一个 token,如此反复,直到文本结束。

这里有个让很多人卡住的问题。"区区一个猜词游戏,怎么能总结论文、写代码?"答案是:"为了真正准确地猜出下一个词,它别无选择,只能在某种程度上'理解'世界的结构。"要猜"日本的首都是 ___"需要地理知识;"3 + 5 = ___"需要算术;"这个 bug 的原因是 ___"则需要它内部掌握编程知识。作为把"猜下一个词"在海量文本上训练到极致的副产物,知识与推理便涌现出来。这正是 LLM 既奇异又本质的特性。

那么,计算这个"下一个词概率"的,又是什么呢?正如前文所暗示,主角是一堆数量惊人的数字,叫做"权重(参数)"。下一章就揭晓它们究竟是什么。

2. 什么是"权重"?——一万亿个旋钮造就智能

用一个比喻概括 LLM 的内部:"一台拥有数千亿到一万亿以上'旋钮'的巨型计算装置。"每个旋钮都是一个"权重(参数)",当输入词的信号传向下一层时,它决定"该增强还是削弱哪些信号、增强或削弱多少"。GPT-3 约有 1750 亿个;据说最新的前沿模型已超过一万亿。这些海量旋钮的设定值,恰恰就是模型所学到的"知识"本身。

WEIGHTS

"权重"如何变成语言

① 分词
把文本切成词片段(token),并转换成数值向量
② 穿过权重
数十层 Transformer 通过乘以权重来变换信号
③ Attention
权重判断应该关注句子中的哪些词
④ 输出概率
计算下一个 token 的概率分布并挑出一个

"学习"就是把这一万亿个旋钮一点点拧向正确答案的工作。
拧好后的旋钮设定(权重)= 模型的"知识"本身。

2017 年问世的 Transformer 是现代 LLM 的基石。它的核心是 "Attention"机制,它通过权重动态判断"句子中哪个词对当前词最重要"。"看到银行前面的那条河"里的"bank"究竟指金融机构还是河岸,是由它在上下文中与其他词的关系的加权来决定的——而这种"依赖上下文的加权"正是 LLM 即便在长篇段落上也能给出连贯回应的原因。当人们说"什么加权之类的"时,指的正是这个 Attention,以及它背后那数以万亿计的乘法运算。

关键的一点:这些权重并非人工设定的。一开始它们只是一团随机数字,毫无意义。意义是通过"学习"被灌输进去的。那么,这个学习又是如何发生的?

3. 学习的两个阶段——预训练与后训练(RLHF)

LLM 的学习大致分为两个阶段——也就是上一章那些"随机旋钮"变成"聪明旋钮"的过程。

阶段 1:预训练。喂给它互联网规模的文本(书籍、网页、代码),让它不停地"猜下一个词"。每当它猜错,所有参数都会朝着缩小误差的方向被微调一点点(这个调整算法就是著名的"反向传播 + 梯度下降")。在数以万亿计的 token 上反复这么做,语法、知识与推理的基础便被刻进旋钮里。预训练吃掉了大部分算力、大部分电力和大部分金钱。GPT-4 级别模型那天文数字般的约 2×10²⁵ FLOPs,就烧在这里。

阶段 2:后训练。仅经过预训练的模型是"有学问但没教养"。于是RLHF(基于人类反馈的强化学习)等方法教会它"有益、安全的回答方式"。此外,从 2025 年起,专门打磨长链推理(认真思考)、工具使用和智能体行为的后训练分量大幅增加,以至于对 Claude、GPT、Gemini 这些系列而言,后训练如今已占到总算力的约 15–25%。近来的模型之所以那么爱"先思考再回答",正是这种后训练进化的结果。多智能体行为也是在这里被灌输的。

4. 推理——你的问题变成电力的瞬间

如果说训练是"设定旋钮的建造工程",那么推理就是"用设定好的旋钮实际生成答案的运行操作"。每当你在 ChatGPT 里敲下一个问题,数以万亿计的乘法就会穿过近一万亿个旋钮,token 被一个接一个地生成出来。我们已经看到训练有多重——但从整个社会层面看,吃电的不是训练,而是推理。

原因很简单:训练每个模型基本上只跑一次,而推理在全球每天要跑上亿次。有估计认为,推理占所有 AI 算力的 80–90%,并且到 2030 年,预计 AI 电力需求的 75% 将来自推理。"一个问题用不了多少电"——没错,单个确实微不足道。但"微不足道 × 上亿次 × 每一天"累积起来,就成了国家级的电力问题。下面我们来看具体数字。

5. 电力——LLM 究竟要吃掉多少电?

"AI 吃电"常被提起,但究竟有多少?以下是截至 2026 年公布的代表性数据。

ELECTRICITY

用数字看 LLM 的电力消耗

单次查询(短)
0.43Wh
GPT-4o 级别
一个简短问题
一次重度推理
33Wh+
长思考模型
约为轻量版的 70 倍
训练 GPT-3
1,287MWh
550t+ CO2
(老一代)
全球数据中心电力
415→945
TWh
2024→2030 预测

哪怕是一次简短查询(0.43Wh),按 每天 7 亿次计算,就相当于约 35,000 户美国家庭的用电。
一个数据中心机架的功率高达旧标准的 10 倍;一座专用 AI 数据中心吃掉 20MW–1GW。

最引人注目的是,"不同模型之间的能效差着数量级。"对轻量模型问一个简短问题不到 0.5 Wh,但把一个重度问题抛给长思考的推理模型(那种回答前先反复琢磨的类型),消耗就高达 33 Wh+——约为轻量版的 70 倍。正如 把 token 消耗当作工作量的陷阱中谈到的,"什么都用顶级模型来跑"在电力和成本上都是一种奢侈。把轻活儿交给轻量模型,既对地球友好,也对你的钱包友好。全球数据中心电力在 2024 年达到 415 TWh(约占全球总量的 1.5%),预计到 2030 年将翻倍至 945 TWh——而 AI 正是这一增长的主要推手。

6. "开发就是烧钱大战"是真的吗?

这就是你最好奇的那个问题。"前沿 LLM 开发是烧钱大战吗?"先给出经过核实的结论:"仅就前沿的预训练而言,基本属实。"数字支持这一点。

MONEY FIGHT

前沿训练成本的演变轨迹

GPT-3 (2020)
3×10²³ FLOPs。在当时高得离谱
GPT-4 (2023)
2×10²⁵ FLOPs。约 25,000 块 GPU
2026 前沿
10²⁶–10²⁷ FLOPs / $200–500M
2027 预测
单次训练高达 $1–3B

前沿训练算力长期以 每年 4–10 倍 的速度增长。
一次 GPT-5 / Gemini Ultra 级别的训练 = $200–500M——确实是一场烧钱大战。

具体而言,训练一个 GPT-5 / Gemini Ultra 级别的模型一次,估计需要 2 亿到 5 亿美元,而某些预测把 2027 年底的前沿成本定在每次训练 10 亿到 30 亿美元。而且这还只是"一次成功的训练"——在它背后,还有失败的反复试错、数据准备、薪资以及推理基础设施。除此之外,每块 GPU 售价数千美元;让数万块运行数月,电费便层层叠加。前沿的入口处,矗立着一堵仅凭"一个绝妙的点子"或"一套巧妙的算法"永远迈不过去的金钱之墙。从这个意义上说,"烧钱大战"并不夸张——它就是事实。这也正是为什么只有少数几家筹得巨额资本的玩家——OpenAI、Google、Anthropic、Meta、xAI——才能在最前线厮杀。

7. 但光有钱赢不了——效率的反向潮流

上一章说"烧钱大战是真的"。但故事到此为止,就误读了 2026 年的现实。"只要有足够的钱就能赢"绝非事实——若要说有什么,反倒是一股反向潮流变强了。作为一个诚实的回答,我把这另一面也写出来。

象征性的案例,是中国的 DeepSeek 以相对小的预算发布了逼近前沿的模型,并被认为"重设了成本下限"的一连串动作。用低出几个数量级的成本造出同等性能的技术——高效架构、专家混合(MoE)、蒸馏(把大模型的知识迁移进小模型)以及精细的数据质量打磨——接连被验证出来,给"巨额资本 = 胜利"这一公式打入了楔子。事实上,前沿算力的增长预计将从每年 10 倍放缓到 2026 年起约 3–4 倍,行业的注意力正从"只管做得更大"转向"如何用更低成本、更少电力交付同等性能"

所以准确的图景是这样的:"刷新前沿'巅峰性能'的竞赛是烧钱大战。但交付'够用性能'的竞赛,则是一场智慧与效率的比拼。"我们日常使用的大多数模型都受益于后者,逐年变得更便宜、更快、更省电。正如 免费版能走多远中所写,到 2026 年,连免费版都已达到实用水平——这是效率反向潮流交到用户手中的果实。

8. 接下来呢——烧钱之后的"电力与物理"之墙

那么,只要不断堆钱就能无限扩展吗?不——这正是 2026 年开始显现的新墙。在大约 10²⁷ FLOPs 以上,瓶颈不再是"买 GPU 的预算"。取而代之挡在路上的,是——

  • 电力:你能否在一个地方持续供应千兆瓦级别的电力?这如今是发电厂和电网的问题
  • 互连:在没有延迟的情况下同步数万到数十万块 GPU所需的带宽。单个超大训练任务能承受的规模存在物理上限
  • 数据:高质量的训练文本本身正在枯竭(人类写出的好文字总有个限度)

"烧钱大战"之后到来的,是"电力、物理与智慧之战"。这也是为什么各公司如今正转向投资核电、研发自家专用芯片、利用合成数据、研究高效架构。能用砸钱取胜的时代,讽刺地,正在变成光靠钱赢不了的时代。

总结

LLM 的真正本质是"一台巨型预测装置,其中数千亿到一万亿以上的'权重'不停地计算下一个词的概率。"Transformer 的 Attention 负责"依赖上下文的加权",而预训练(吃掉大部分算力、电力和金钱)加上后训练(RLHF、推理训练)让旋钮变聪明。这份聪明绝非魔法——它是把"猜下一个词"在海量文本上钻研到极致的副产物。

关于电力:一次简短查询 ≈ 0.43 Wh,重度推理 33 Wh+(约为轻量版的 70 倍),而 GPT-3 单单训练就要 1,287 MWh。从整个社会看,推理占了 80–90% 的电力,全球数据中心电力预计到 2030 年翻倍至 945 TWh。"什么都用顶级模型来跑"在电力和成本上都是奢侈;聪明的做法是按任务的轻重来挑模型。

而那个核心问题——"LLM 开发是烧钱大战吗?"答案是"仅就前沿的预训练而言,基本属实"(每次 GPT-5 级别训练 $200–500M;2027 年预计 $1–3B)。但"光有钱赢不了"的反向潮流也很强(DeepSeek 重设下限、效率、蒸馏)。刷新巅峰性能是烧钱之战;以低成本交付实用性能则是智慧之战——这种双层结构正是 2026 年的现实。而接下来到来的,是电力、互连与数据枯竭的物理之墙。把 LLM 理解为一台"靠电驱动的概率机器"而非"魔法盒子",能让你既不被炒作裹挟,也不被恐惧吞没。想了解更多,请参阅 什么是 LLM(入门)上下文窗口,以及 免费版对比

常见问题

Q. 参数(权重)越多就一定越聪明吗?
A. "越大越聪明"曾经几乎是普遍规律,但在 2026 年事情没那么简单了。即便参数量相同,性能也会因数据质量、后训练和架构上的巧思而大相径庭。又小又聪明的模型(蒸馏与高效设计的产物)大量涌现,"参数量 = 智能"已不再成立。我们已进入一个"怎么训练"重于"有多少参数"的时代。

Q. LLM 是真的"理解",还是死记硬背?
A. 连专家都意见不一——这是个难题。可以确定的是,"它展现出死记硬背无法解释的泛化能力"(它能解决训练数据里没有的问题)。至于那是不是"与人类相同的意义理解",则是另一个没有明确答案的问题。从实用角度,可以把它当作"一台行为表现得仿佛理解了的极其先进的预测装置"。这也正是它为何会如此自信地犯错(幻觉)。

Q. 我能自己造一个 LLM 吗?
A. "前沿级别"对个人而言是不可能的(它需要数亿美元和数万块 GPU)。但训练一个小模型,或对现有开源模型进行微调,对个人来说也是可行的。而且,大多数实用需求都可以通过 API 调用现有模型来满足。几乎没有必要"什么都自己从头造"。

Q. AI 的电力消耗对地球来说是个严重问题吗?
A. 规模正变得不容忽视,这是事实(数据中心电力约占全球的 1.5%,预计到 2030 年翻倍)。但效率也在同步飞速提升;"每 token 的电力"正逐年下降。问题与其说在于"单次查询的能效",不如说在于"总量 × 频率的爆炸式增长"。可再生能源、核能和专用芯片能在多大程度上抵消这一点,是未来的焦点。

Q. 归根结底,作为用户值得知道的是什么?
A. 三件事。(1)模型是"概率预测器",所以哪怕语气自信也会犯错(重要信息要核实)。(2)重度问题在电力和金钱上都昂贵,所以按任务的轻重挑模型(轻活儿交给轻量模型)。(3)"巅峰性能"是烧钱大战,但"实用性能"每年都在变得更便宜、更省电(等待免费/低价模型进化也是一种聪明做法)。你越懂机制,就越能既省钱又聪明地用 AI。