LLM 如何运作：权重、电力与成本详解

Q: 参数（权重）越多就一定越聪明吗？

"越大越聪明"曾经几乎是普遍规律，但在 2026 年事情没那么简单了。即便参数量相同，性能也会因数据质量、后训练和架构上的巧思而大相径庭。又小又聪明的模型（蒸馏与高效设计的产物）大量涌现，"参数量 = 智能"已不再成立。我们已进入一个"怎么训练"重于"有多少参数"的时代。

Q: LLM 是真的"理解"，还是死记硬背？

连专家都意见不一——这是个难题。可以确定的是，"它展现出死记硬背无法解释的泛化能力"（它能解决训练数据里没有的问题）。至于那是不是"与人类相同的意义理解"，则是另一个没有明确答案的问题。从实用角度，可以把它当作"一台行为表现得仿佛理解了的极其先进的预测装置"。这也正是它为何会如此自信地犯错（幻觉）。

Q: 我能自己造一个 LLM 吗？

"前沿级别"对个人而言是不可能的（它需要数亿美元和数万块 GPU）。但训练一个小模型，或对现有开源模型进行微调，对个人来说也是可行的。而且，大多数实用需求都可以通过 API 调用现有模型来满足。几乎没有必要"什么都自己从头造"。

Q: 归根结底，作为用户值得知道的是什么？

三件事。（1）模型是"概率预测器"，所以哪怕语气自信也会犯错（重要信息要核实）。（2）重度问题在电力和金钱上都昂贵，所以按任务的轻重挑模型（轻活儿交给轻量模型）。（3）"巅峰性能"是烧钱大战，但"实用性能"每年都在变得更便宜、更省电（等待免费/低价模型进化也是一种聪明做法）。你越懂机制，就越能既省钱又聪明地用 AI。

LLM 究竟是如何运作的——预测词语的权重、电力消耗，以及为什么开发是一场烧钱大战

1. LLM 只是不停地猜"下一个词"
2. 什么是"权重"？——一万亿个旋钮造就智能
3. 学习的两个阶段——预训练与后训练（RLHF）
4. 推理——你的问题变成电力的瞬间
5. 电力——LLM 究竟要吃掉多少电？
6. "开发就是烧钱大战"是真的吗？
7. 但光有钱赢不了——效率的反向潮流
8. 接下来呢——烧钱之后的"电力与物理"之墙
总结
常见问题

2023 年发布的 GPT-4，据估计是在 Microsoft Azure 上动用约 25,000 块 GPU、连续运行数月训练而成的。投入那一次训练的算力大约是 2×10²⁵ 次浮点运算（FLOPs）。即便是更早的 GPT-3，单单训练就烧掉了约 1,287 MWh 电力——相当于一个普通家庭一个多世纪的用电量，只为打造出一个模型。在我们随手敲下的"嘿，帮我总结一下"背后，藏着一个由物理学和成堆现金构成的世界。

本文将从机制、电力、金钱三个方向，深入剖析"LLM（大语言模型）究竟是如何运作的"。具体来说——（1）为什么 LLM 仅凭一堆叫"权重（参数）"的旋钮就能生成语言；（2）一次提问或一次训练究竟消耗多少电；（3）"前沿 LLM 开发就是烧钱大战"这种说法是不是真的？对第三点的简短回答是："对于绝对前沿而言，基本属实——但'光有钱赢不了'的反向潮流在 2026 年变得更强了。"这才是准确的图景。

先亮明我的立场：LLM 的"智能"既不是魔法也不是意识——它是用电力把一台巨大的概率预测机器硬生生塑造成型的结果。理解了机制，过度的炒作和过度的恐惧就都会消散。本文会深入到中级程度。如果你还在"LLM 到底是什么"的起点，请先读什么是 LLM（入门）；关于上下文长度见上下文窗口；关于价格见面向初学者的 AI API。

HOW LLMs WORK · WEIGHTS × POWER × CASH

从三个方向解剖一台 LLM

——智能由什么构成、它烧掉的电、它花掉的钱

机制

权重预测下一个词

数千亿到 1 万亿以上的旋钮只是在计算概率

电力

单次查询 ≈ 0.4–33 Wh

一次训练 = 100 多个家庭年的用电

金钱

前沿一次 $200–500M

预计到 2027 年，单次训练将达 $1–3B

LLM 的聪明绝非魔法。它是用电力和金钱把一台巨大的概率机器硬塑造成型的结果。
懂了机制，炒作与恐惧便一并消散。

1. LLM 只是不停地猜"下一个词"

这听上去也许令人意外，但 ChatGPT、Claude、Gemini 本质上做的都是同一件事。"根据目前为止的文本，计算出最可能作为续写的下一个词（更准确地说是'token'）的概率，挑一个出来，再一个接一个排好。"就这么简单。喂给它"猫趴在 ___ 上"，它会给"垫子""沙发""地板"等候选项分配概率，然后输出概率最高的那个（或按概率采样出来的那个）。它每次生成一个 token，如此反复，直到文本结束。

这里有个让很多人卡住的问题。"区区一个猜词游戏，怎么能总结论文、写代码？"答案是："为了真正准确地猜出下一个词，它别无选择，只能在某种程度上'理解'世界的结构。"要猜"日本的首都是 ___"需要地理知识；"3 + 5 = ___"需要算术；"这个 bug 的原因是 ___"则需要它内部掌握编程知识。作为把"猜下一个词"在海量文本上训练到极致的副产物，知识与推理便涌现出来。这正是 LLM 既奇异又本质的特性。

那么，计算这个"下一个词概率"的，又是什么呢？正如前文所暗示，主角是一堆数量惊人的数字，叫做"权重（参数）"。下一章就揭晓它们究竟是什么。

2. 什么是"权重"？——一万亿个旋钮造就智能

用一个比喻概括 LLM 的内部："一台拥有数千亿到一万亿以上'旋钮'的巨型计算装置。"每个旋钮都是一个"权重（参数）"，当输入词的信号传向下一层时，它决定"该增强还是削弱哪些信号、增强或削弱多少"。GPT-3 约有 1750 亿个；据说最新的前沿模型已超过一万亿。这些海量旋钮的设定值，恰恰就是模型所学到的"知识"本身。

WEIGHTS

"权重"如何变成语言

① 分词

把文本切成词片段（token），并转换成数值向量

② 穿过权重

数十层 Transformer 通过乘以权重来变换信号

③ Attention

权重判断应该关注句子中的哪些词

④ 输出概率

计算下一个 token 的概率分布并挑出一个

"学习"就是把这一万亿个旋钮一点点拧向正确答案的工作。
拧好后的旋钮设定（权重）= 模型的"知识"本身。

2017 年问世的 Transformer 是现代 LLM 的基石。它的核心是 "Attention"机制，它通过权重动态判断"句子中哪个词对当前词最重要"。"看到银行前面的那条河"里的"bank"究竟指金融机构还是河岸，是由它在上下文中与其他词的关系的加权来决定的——而这种"依赖上下文的加权"正是 LLM 即便在长篇段落上也能给出连贯回应的原因。当人们说"什么加权之类的"时，指的正是这个 Attention，以及它背后那数以万亿计的乘法运算。

关键的一点：这些权重并非人工设定的。一开始它们只是一团随机数字，毫无意义。意义是通过"学习"被灌输进去的。那么，这个学习又是如何发生的？

3. 学习的两个阶段——预训练与后训练（RLHF）

LLM 的学习大致分为两个阶段——也就是上一章那些"随机旋钮"变成"聪明旋钮"的过程。

阶段 1：预训练。喂给它互联网规模的文本（书籍、网页、代码），让它不停地"猜下一个词"。每当它猜错，所有参数都会朝着缩小误差的方向被微调一点点（这个调整算法就是著名的"反向传播 + 梯度下降"）。在数以万亿计的 token 上反复这么做，语法、知识与推理的基础便被刻进旋钮里。预训练吃掉了大部分算力、大部分电力和大部分金钱。GPT-4 级别模型那天文数字般的约 2×10²⁵ FLOPs，就烧在这里。

阶段 2：后训练。仅经过预训练的模型是"有学问但没教养"。于是RLHF（基于人类反馈的强化学习）等方法教会它"有益、安全的回答方式"。此外，从 2025 年起，专门打磨长链推理（认真思考）、工具使用和智能体行为的后训练分量大幅增加，以至于对 Claude、GPT、Gemini 这些系列而言，后训练如今已占到总算力的约 15–25%。近来的模型之所以那么爱"先思考再回答"，正是这种后训练进化的结果。多智能体行为也是在这里被灌输的。

4. 推理——你的问题变成电力的瞬间

如果说训练是"设定旋钮的建造工程"，那么推理就是"用设定好的旋钮实际生成答案的运行操作"。每当你在 ChatGPT 里敲下一个问题，数以万亿计的乘法就会穿过近一万亿个旋钮，token 被一个接一个地生成出来。我们已经看到训练有多重——但从整个社会层面看，吃电的不是训练，而是推理。

原因很简单：训练每个模型基本上只跑一次，而推理在全球每天要跑上亿次。因此，在一个模型的整个生命周期里，电力与算力的需求压倒性地累积在推理一侧，而非训练。"一个问题用不了多少电"——没错，单个确实微不足道。但"微不足道 × 上亿次 × 每一天"累积起来，就成了国家级的电力问题。下面我们来看具体数字。

5. 电力——LLM 究竟要吃掉多少电？

"AI 吃电"常被提起，但究竟有多少？以下是截至 2026 年公布的代表性数据。

ELECTRICITY

用数字看 LLM 的电力消耗

单次查询（短）

0.43Wh

GPT-4o 级别
一个简短问题

一次重度推理

33Wh+

长思考模型
约为轻量版的 70 倍

训练 GPT-3

1,287MWh

550t+ CO2
（老一代）

全球数据中心电力

415→945

TWh
2024→2030 预测

哪怕是一次简短查询（0.43Wh），按 每天 7 亿次计算，就相当于约 35,000 户美国家庭的用电。
一个数据中心机架的功率高达旧标准的 10 倍；一座专用 AI 数据中心吃掉 20MW–1GW。

最引人注目的是，"不同模型之间的能效差着数量级。"对轻量模型问一个简短问题不到 0.5 Wh，但把一个重度问题抛给长思考的推理模型（那种回答前先反复琢磨的类型），消耗就高达 33 Wh+——约为轻量版的 70 倍。正如把 token 消耗当作工作量的陷阱中谈到的，"什么都用顶级模型来跑"在电力和成本上都是一种奢侈。把轻活儿交给轻量模型，既对地球友好，也对你的钱包友好。据 IEA 估计，全球数据中心电力在 2024 年达到约 415 TWh（约占全球总量的 1.5%），预计到 2030 年将翻倍至约 945 TWh——而 AI 正是这一增长的主要推手。

6. "开发就是烧钱大战"是真的吗？

这就是你最好奇的那个问题。"前沿 LLM 开发是烧钱大战吗？"先给出经过核实的结论："仅就前沿的预训练而言，基本属实。"数字支持这一点。

MONEY FIGHT

前沿训练成本的演变轨迹

GPT-3 (2020)

约 3×10²³ FLOPs。在当时高得离谱

GPT-4 (2023)

约 2×10²⁵ FLOPs。约 25,000 块 GPU

2026 前沿

10²⁶–10²⁷ FLOPs / $200–500M

2027 预测

单次训练高达 $1–3B

前沿训练算力长期以 每年 4–10 倍 的速度增长。
一次 GPT-5 / Gemini Ultra 级别的训练 = $200–500M——确实是一场烧钱大战。

具体而言，训练一个 GPT-5 / Gemini Ultra 级别的模型一次，估计需要 2 亿到 5 亿美元，而某些预测把 2027 年底的前沿成本定在每次训练 10 亿到 30 亿美元。而且这还只是"一次成功的训练"——在它背后，还有失败的反复试错、数据准备、薪资以及推理基础设施。除此之外，每块 GPU 售价数千美元；让数万块运行数月，电费便层层叠加。前沿的入口处，矗立着一堵仅凭"一个绝妙的点子"或"一套巧妙的算法"永远迈不过去的金钱之墙。从这个意义上说，"烧钱大战"并不夸张——它就是事实。这也正是为什么只有少数几家筹得巨额资本的玩家——OpenAI、Google、Anthropic、Meta、xAI——才能在最前线厮杀。

7. 但光有钱赢不了——效率的反向潮流

上一章说"烧钱大战是真的"。但故事到此为止，就误读了 2026 年的现实。"只要有足够的钱就能赢"绝非事实——若要说有什么，反倒是一股反向潮流变强了。作为一个诚实的回答，我把这另一面也写出来。

象征性的案例，是中国的 DeepSeek 以相对小的预算发布了逼近前沿的模型，并被认为"重设了成本下限"的一连串动作。用低出几个数量级的成本造出同等性能的技术——高效架构、专家混合（MoE）、蒸馏（把大模型的知识迁移进小模型）以及精细的数据质量打磨——接连被验证出来，给"巨额资本 = 胜利"这一公式打入了楔子。事实上，前沿算力的增长预计将从每年 10 倍放缓到 2026 年起约 3–4 倍，行业的注意力正从"只管做得更大"转向"如何用更低成本、更少电力交付同等性能"。

所以准确的图景是这样的："刷新前沿'巅峰性能'的竞赛是烧钱大战。但交付'够用性能'的竞赛，则是一场智慧与效率的比拼。"我们日常使用的大多数模型都受益于后者，逐年变得更便宜、更快、更省电。正如免费版能走多远中所写，到 2026 年，连免费版都已达到实用水平——这是效率反向潮流交到用户手中的果实。

8. 接下来呢——烧钱之后的"电力与物理"之墙

那么，只要不断堆钱就能无限扩展吗？不——这正是 2026 年开始显现的新墙。在大约 10²⁷ FLOPs 以上，瓶颈不再是"买 GPU 的预算"。取而代之挡在路上的，是——

电力：你能否在一个地方持续供应千兆瓦级别的电力？这如今是发电厂和电网的问题
互连：在没有延迟的情况下同步数万到数十万块 GPU所需的带宽。单个超大训练任务能承受的规模存在物理上限
数据：高质量的训练文本本身正在枯竭（人类写出的好文字总有个限度）

"烧钱大战"之后到来的，是"电力、物理与智慧之战"。这也是为什么各公司如今正转向投资核电、研发自家专用芯片、利用合成数据、研究高效架构。能用砸钱取胜的时代，讽刺地，正在变成光靠钱赢不了的时代。

总结

LLM 的真正本质是"一台巨型预测装置，其中数千亿到一万亿以上的'权重'不停地计算下一个词的概率。"Transformer 的 Attention 负责"依赖上下文的加权"，而预训练（吃掉大部分算力、电力和金钱）加上后训练（RLHF、推理训练）让旋钮变聪明。这份聪明绝非魔法——它是把"猜下一个词"在海量文本上钻研到极致的副产物。

关于电力：一次简短查询 ≈ 0.43 Wh，重度推理 33 Wh+（约为轻量版的 70 倍），而 GPT-3 单单训练就要 1,287 MWh。从整个社会看，在模型的整个生命周期里，电力需求主要累积在推理一侧而非训练，据 IEA 估计，全球数据中心电力预计到 2030 年翻倍至约 945 TWh。"什么都用顶级模型来跑"在电力和成本上都是奢侈；聪明的做法是按任务的轻重来挑模型。

而那个核心问题——"LLM 开发是烧钱大战吗？"答案是"仅就前沿的预训练而言，基本属实"（每次 GPT-5 级别训练 $200–500M；2027 年预计 $1–3B）。但"光有钱赢不了"的反向潮流也很强（DeepSeek 重设下限、效率、蒸馏）。刷新巅峰性能是烧钱之战；以低成本交付实用性能则是智慧之战——这种双层结构正是 2026 年的现实。而接下来到来的，是电力、互连与数据枯竭的物理之墙。把 LLM 理解为一台"靠电驱动的概率机器"而非"魔法盒子"，能让你既不被炒作裹挟，也不被恐惧吞没。想了解更多，请参阅什么是 LLM（入门）、上下文窗口，以及免费版对比。

常见问题

Q. 参数（权重）越多就一定越聪明吗？
A. "越大越聪明"曾经几乎是普遍规律，但在 2026 年事情没那么简单了。即便参数量相同，性能也会因数据质量、后训练和架构上的巧思而大相径庭。又小又聪明的模型（蒸馏与高效设计的产物）大量涌现，"参数量 = 智能"已不再成立。我们已进入一个"怎么训练"重于"有多少参数"的时代。

Q. LLM 是真的"理解"，还是死记硬背？
A. 连专家都意见不一——这是个难题。可以确定的是，"它展现出死记硬背无法解释的泛化能力"（它能解决训练数据里没有的问题）。至于那是不是"与人类相同的意义理解"，则是另一个没有明确答案的问题。从实用角度，可以把它当作"一台行为表现得仿佛理解了的极其先进的预测装置"。这也正是它为何会如此自信地犯错（幻觉）。

Q. 我能自己造一个 LLM 吗？
A. "前沿级别"对个人而言是不可能的（它需要数亿美元和数万块 GPU）。但训练一个小模型，或对现有开源模型进行微调，对个人来说也是可行的。而且，大多数实用需求都可以通过 API 调用现有模型来满足。几乎没有必要"什么都自己从头造"。

Q. AI 的电力消耗对地球来说是个严重问题吗？
A. 规模正变得不容忽视，这是事实（数据中心电力约占全球的 1.5%，预计到 2030 年翻倍；IEA）。但效率也在同步飞速提升；"每 token 的电力"正逐年下降。问题与其说在于"单次查询的能效"，不如说在于"总量 × 频率的爆炸式增长"。可再生能源、核能和专用芯片能在多大程度上抵消这一点，是未来的焦点。

Q. 归根结底，作为用户值得知道的是什么？
A. 三件事。（1）模型是"概率预测器"，所以哪怕语气自信也会犯错（重要信息要核实）。（2）重度问题在电力和金钱上都昂贵，所以按任务的轻重挑模型（轻活儿交给轻量模型）。（3）"巅峰性能"是烧钱大战，但"实用性能"每年都在变得更便宜、更省电（等待免费/低价模型进化也是一种聪明做法）。你越懂机制，就越能既省钱又聪明地用 AI。

LLM 究竟是如何运作的——预测词语的权重、电力消耗，以及为什么开发是一场烧钱大战

从三个方向解剖一台 LLM

1. LLM 只是不停地猜"下一个词"

2. 什么是"权重"？——一万亿个旋钮造就智能

"权重"如何变成语言

3. 学习的两个阶段——预训练与后训练（RLHF）

4. 推理——你的问题变成电力的瞬间

5. 电力——LLM 究竟要吃掉多少电？

用数字看 LLM 的电力消耗

6. "开发就是烧钱大战"是真的吗？

前沿训练成本的演变轨迹

7. 但光有钱赢不了——效率的反向潮流

8. 接下来呢——烧钱之后的"电力与物理"之墙

总结

常见问题

相关文章

主流生成AI知识截止日期一览｜ChatGPT、Claude、Gemini全面对比

什么是生成式AI？与传统AI的区别通俗解析

生成AI擅长的和不擅长的｜能做什么、不能做什么？真实案例全面解析

什么是LLM？大语言模型的工作原理、主流模型与应用场景

评论

发表评论