目次
2023年に公開された GPT-4 は、Microsoft Azure 上の 約25,000枚のGPUを数ヶ月回して訓練されたと推定されている。その1回の学習に投じられた計算量はおよそ 2×10²⁵ 回の浮動小数点演算(FLOPs)。さらに古い GPT-3 の訓練ですら 電力にして約1,287MWh——一般家庭の100年分以上の電気を、たった1つのモデルを作るために燃やした計算になる。私たちが何気なく打ち込む「ねえ、これ要約して」の裏側には、こういう物理と札束の世界が広がっている。
この記事は 「LLM(大規模言語モデル)が実際どう動いているのか」を、仕組み・電力・お金の3方向から深掘りする。具体的には——① LLMはなぜ「重み(パラメータ)」というツマミの集合で言葉を生み出せるのか、② 1回の質問や1回の学習でどれだけの電気を食うのか、③ 「フロンティアLLMの開発は札束の殴り合い」という言説は本当か。結論を先に言えば、3つ目は 「フロンティアの最前線に限ればほぼ本当。ただし"札束だけ"では勝てない逆流も2026年に強まっている」——これが正確な答えだ。
個人的なスタンスを先に書く。LLMの「賢さ」は魔法でも意識でもなく、巨大な確率予測装置を電力で殴り倒した結果だと理解すると、過度な期待も過度な恐怖も両方ほどける。仕組みを知ることは、AIを冷静に使いこなすいちばんの近道だ。本記事は中級者向けに踏み込んで書く。「そもそもLLMって何?」からなら LLMとは(入門) を先に、コンテキストの実効性は コンテキストウィンドウ、料金面は AI API入門 もあわせてどうぞ。
LLMの正体を3方向から解剖する
— 知能の中身・消費する電気・かかる札束
LLMの賢さは魔法ではない。巨大な確率予測装置を、電力と札束で殴り倒した結果だ。
仕組みを知れば、過度な期待も過度な恐怖も両方ほどける。
1. LLMは「次の単語」を当て続けているだけ
意外に聞こえるかもしれないが、ChatGPT も Claude も Gemini も、本質的にやっていることは1つだけだ。「ここまでの文章の続きとして、次に来る単語(正確には"トークン")として最もありそうなものは何か」を確率で計算し、1個ずつ選んで並べている。それだけ。「猫がマットの上に___」と入力されれば、「座っている」「いる」「乗っている」などの候補に確率を振り、最も高いもの(あるいは確率に従ってサンプリングしたもの)を出す。これを1トークンずつ、文章が終わるまで繰り返す。
ここで多くの人が引っかかる疑問がある。「ただの単語当てゲームが、なぜ論文を要約したりコードを書いたりできるのか?」。答えは——「次の単語を本当に正確に当てるには、世界の構造をある程度"理解"せざるを得ない」からだ。「日本の首都は___」を当てるには地理を、「3 + 5 = ___」を当てるには算術を、「このバグの原因は___」を当てるにはプログラミングの知識を、内部に持っていないと当てられない。大量のテキストで「次の単語当て」を極限まで鍛えた副産物として、知識と推論能力が浮かび上がってくる——これがLLMの不思議で本質的なところだ。
では、その「次の単語の確率」を計算しているのは何者なのか。前章で予告したとおり、主役は 「重み(weights / パラメータ)」と呼ばれる、とてつもない数の数値の集まりだ。次章でその正体を見る。
2. 「重み」とは何か——1兆個のツマミが知能をつくる
LLMの中身を一言でたとえるなら、「数千億〜1兆個以上の"ツマミ"がついた、巨大な計算装置」だ。このツマミ1つ1つが「重み(パラメータ)」で、入力された単語の信号を次の層へ伝えるときに 「どの信号をどれだけ強める/弱めるか」を決めている。GPT-3 で約 1,750億個、最新のフロンティアモデルでは 1兆個を超えるとも言われる。この膨大なツマミの設定値こそが、モデルが学んだ「知識」の正体だ。
「重み」が言葉を生むまでの流れ
「学習」とは この1兆個のツマミを、正解に近づくよう少しずつ回す作業。
完成したツマミの設定値(重み)= モデルの「知識」そのもの。
2017年に登場した Transformer(トランスフォーマー)という構造が、現代LLMの土台だ。その心臓部が 「Attention(注意機構)」で、これは「文中のどの単語が、いまの単語にとって重要か」を重みで動的に判断する仕組み。「銀行の前で川を見た」の「銀行(bank)」が金融機関か土手かを、文脈の他の単語との関係から重みづけして決める——この「文脈に応じた重みづけ」こそが、LLMが長い文章でも筋の通った応答を返せる理由だ。ユーザーが言う「重みづけがどうのこうの」は、まさにこの Attention と、その背後にある数兆回の掛け算のことを指している。
大事なのは、これらの重みは人間が手で設定したものではないという点だ。最初はランダムな数値の塊で、何の意味もない。そこに「学習」を通じて意味が宿る。では、その学習はどう行われるのか。
3. 学習の2段階——事前学習と事後学習(RLHF)
LLMの学習は、大きく 2段階に分かれる。前章の「ランダムなツマミ」が「賢いツマミ」に変わるまでの工程だ。
第1段階:事前学習(Pre-training)。インターネット規模の膨大なテキスト(書籍、Web、コードなど)を読ませ、ひたすら「次の単語当て」をさせる。間違えるたびに、誤差が小さくなる方向へ 全パラメータをほんの少しずつ調整する(この調整アルゴリズムが有名な「バックプロパゲーション+勾配降下法」)。これを何兆トークンも繰り返すと、文法・知識・推論の土台がツマミの中に刻まれる。計算量の大半・電力の大半・札束の大半を食うのがこの事前学習だ。GPT-4 級で約 2×10²⁵ FLOPs という天文学的な計算がここで燃える。
第2段階:事後学習(Post-training)。事前学習だけのモデルは「物知りだが行儀が悪い」状態。そこで RLHF(人間のフィードバックによる強化学習)などで「人間にとって役立つ・安全な答え方」を教え込む。さらに2025年以降は、長い推論(じっくり考える)・ツール使用・エージェント的な行動を鍛える事後学習の比重が急増し、Claude・GPT・Gemini 系では 総計算量の15〜25%程度を事後学習が占めるまでになった。「最近のモデルがやたら"考えてから答える"」のは、この事後学習の進化の結果だ。マルチエージェント 的な振る舞いもここで仕込まれる。
4. 推論——あなたの質問が電気に変わる瞬間
学習が「ツマミを設定する工事」なら、推論(Inference)は「完成したツマミを使って実際に答えを出す運用」だ。あなたが ChatGPT に質問を打つたびに、1兆個近いツマミを通した数兆回の掛け算が走り、トークンが1個ずつ生成される。前章までで「学習がいかに重いか」を見てきたが——実は社会全体で見ると、電力を食っているのは学習よりむしろ推論のほうだ。
理由は単純で、学習は1モデルにつき基本1回だが、推論は世界中で毎日何億回も走るから。ある推計では、AI計算全体のうち 推論が80〜90%を占め、2030年にはAI電力需要の 75%が推論になると予測されている。「1回の質問なんて大した電気じゃない」——確かに1回は小さい。だが 「小さい×何億回×毎日」が積み上がると、国家規模の電力問題になる。次章で具体的な数字を見よう。
5. 電力——LLMはどれだけ電気を食うのか
「AIは電力を食う」とよく言われるが、実際どのくらいなのか。2026年時点で公表されている代表的な数字を整理する。
LLMの電力消費を数字で見る
短い質問1回
軽量版の約70倍
(古い世代で既に)
2024→2030予測
短い質問1回(0.43Wh)でも 7億回/日に増やすと米国の約35,000世帯の電力に相当。
データセンター1ラックは従来の最大10倍、AI専用DCは 20MW〜1GWを食う。
注目すべきは 「モデルによって電力効率が桁違いに違う」点だ。軽量モデルへの短い質問は 0.5Wh 未満だが、長考型の推論モデル(じっくり考えてから答えるタイプ)に重い質問を投げると 33Wh超——軽量版の約70倍を消費する。トークン消費=業務量の罠 でも触れたが、「とりあえず最上位モデルで全部やる」は、電力的にもコスト的にも贅沢だ。軽い用事は軽いモデルに回すのは、地球にもサイフにも優しい。世界のデータセンター電力は2024年に415TWh(世界全体の約1.5%)、2030年には945TWhへ倍増が予測されており、その伸びの主因がAIだ。
6. 「開発は札束の殴り合い」は本当か
ここからが、ユーザーがいちばん気にしていた問いだ。「フロンティアLLMの開発は札束の殴り合い」——これは本当か? 検証した結論を先に言う:「最前線(フロンティア)の事前学習に限れば、ほぼ本当」。数字がそれを裏づける。
フロンティア訓練コストの推移
フロンティア訓練の計算量は長らく 年4〜10倍で増加。
GPT-5 / Gemini Ultra 級の1回の訓練で $2〜5億——まさに札束の殴り合い。
具体的に言えば、GPT-5 / Gemini Ultra 級のモデルを1回訓練するコストは $2億〜$5億(約300〜750億円)と推定され、2027年後半のフロンティアでは 1回 $10億〜$30億に達するという予測もある。しかもこれは「成功した1回」の話で、実際にはその裏に 失敗した試行錯誤・データ整備・人件費・推論用インフラが乗る。さらに GPU 自体が1枚数百万円、それを数万枚、数ヶ月間ぶん回す電気代——「思いつき」や「優れたアルゴリズム」だけでは絶対に到達できない金額の壁が、フロンティアの入口に立っている。この意味で「札束の殴り合い」は誇張ではなく、事実だ。だからこそ最前線で戦えるのは OpenAI・Google・Anthropic・Meta・xAI といった 巨額資本を確保できた一握りに限られている。
7. ただし「札束だけ」では勝てない——効率化という逆流
前章で「札束の殴り合いは本当」と書いた。だが、それで話を終わらせると2026年の現実を見誤る。「札束さえあれば勝てる」わけでは決してない——むしろ逆流が強まっている。ユーザーへの誠実な答えとして、この反対側も書いておきたい。
象徴的なのが、中国の DeepSeek が比較的小さな予算で最前線に肉薄するモデルを出し、「コストの底(floor)をリセットした」と評された一連の動きだ。同じ性能を 桁違いに安く作る手法——効率的なアーキテクチャ、混合専門家(MoE)、蒸留(大モデルの知識を小モデルに移す)、データの質の作り込み——が次々と実証され、「巨大資本=勝利」という図式に楔を打ち込んだ。実際、フロンティアの計算量増加は 年10倍ペースから2026年以降は年3〜4倍へ減速すると予測されており、業界の関心は「とにかくデカく」から 「同じ性能をいかに安く・省電力で」へ移りつつある。
つまり正確な構図はこうだ。「最前線の"最高性能"を更新する競争は札束の殴り合い。だが"実用十分な性能"を安く届ける競争は、知恵と効率の勝負」。私たちユーザーが日常で使うモデルの多くは後者の恩恵で、年々 安く・速く・省電力になっている。無料枠でどこまでできるか で書いたように、2026年は無料枠でも実用レベルに達した——これは効率化の逆流がもたらした、ユーザーにとっての果実だ。
8. これから——札束の次に来る「電力と物理」の壁
では、札束を積み続ければどこまでもスケールできるのか。そうではない、というのが2026年に見え始めた新しい壁だ。計算量が 10²⁷ FLOPs を超えるあたりから、ボトルネックは「GPUを買う予算」ではなくなる。代わりに立ちはだかるのが——
- 電力:1か所に ギガワット級の電力を継続供給できるか。もはや発電所・送電網の問題
- 相互接続:数万〜数十万のGPUを 遅延なく同期させる帯域。1つの巨大訓練が物理的に扱える上限がある
- データ:高品質な学習用テキストが そもそも枯渇しつつある(人類が書いた良質な文章の量には限りがある)
「札束の殴り合い」の次に来るのは、「電力と物理と知恵の殴り合い」だ。だから各社はいま、原子力発電への投資、専用チップの自社開発、合成データの活用、そして効率的アーキテクチャの研究へと軸足を移している。お金で殴れる時代は、皮肉にもお金だけでは殴れない時代へ移ろうとしている。
まとめ
LLMの正体は、「数千億〜1兆超の"重み"というツマミが、次に来る単語の確率を計算し続ける巨大な予測装置」だ。Transformer の Attention が「文脈に応じた重みづけ」を担い、事前学習(計算・電力・札束の大半を食う)+事後学習(RLHF・推論訓練)でツマミが賢くなる。賢さは魔法ではなく、大量のテキストで「次の単語当て」を極限まで鍛えた副産物だ。
電力面では、短い質問1回 ≒ 0.43Wh、重い推論は33Wh超(軽量版の約70倍)、GPT-3 の訓練だけで 1,287MWh。社会全体では 推論が電力の8〜9割を占め、世界のデータセンター電力は2030年に945TWhへ倍増予測。「最上位モデルで全部やる」は電力もコストも贅沢で、用事の重さでモデルを選び分けるのが賢い。
そして核心の問い——「LLM開発は札束の殴り合いか」。答えは"最前線の事前学習に限ればほぼ本当"(GPT-5級で1回 $2〜5億、2027年予測 $10〜30億)。だが "札束だけ"では勝てない逆流も強い(DeepSeek の floor reset、効率化、蒸留)。最高性能の更新は札束勝負、実用性能を安く届けるのは知恵勝負——この二層構造が2026年の現実だ。そして次に来るのは 電力・相互接続・データ枯渇という物理の壁。LLMを「魔法の箱」ではなく「電力で動く確率機械」として理解しておくと、過度な期待にも過度な恐怖にも振り回されずに済む。さらに学ぶなら LLMとは(入門)、コンテキストウィンドウ、無料枠比較 をどうぞ。
FAQ
Q. パラメータ(重み)が多いほど賢いんですか?
A. かつては「大きいほど賢い」がほぼ成り立ったが、2026年は単純ではない。同じパラメータ数でも、学習データの質・事後学習・アーキテクチャの工夫で性能は大きく変わる。小さくても賢いモデル(蒸留や効率設計の産物)が増え、「パラメータ数=賢さ」とは言い切れなくなった。数より「鍛え方」の時代に入っている。
Q. LLMは本当に"理解"しているんですか? それとも丸暗記?
A. 専門家でも見解が割れる難問だ。確かなのは 「単なる丸暗記では説明できない汎化能力を見せる」こと(学習に無い問題も解ける)。一方で「人間と同じ意味理解か」は別問題で、明確に答えは出ていない。実用上は 「理解しているかのように振る舞う、極めて高度な予測装置」と捉えるのが安全だ。だからこそ平気で間違える(ハルシネーション)。
Q. 自分でLLMを作ることはできますか?
A. 「フロンティア級」は個人には不可能(数百億円と数万GPUが要る)。だが 小型モデルの学習や、既存オープンモデルの微調整(ファインチューニング)なら個人でも可能だ。さらに、ほとんどの実用ニーズは API 経由で既存モデルを使えば足りる。「自分で全部作る」必要はほぼない。
Q. AIの電力消費は地球にとって深刻な問題ですか?
A. 無視できない規模になりつつあるのは事実だ(データセンター電力は世界の約1.5%、2030年に倍増予測)。ただし効率化も同時に猛烈に進んでおり、「1トークンあたりの電力」は年々下がっている。問題は「1回の効率」より 「総量×回数の爆発的増加」のほう。再エネ・原子力・専用チップでどこまで相殺できるかが今後の焦点だ。
Q. 結局、ユーザーとしては何を知っておけば得ですか?
A. 3つ。① モデルは「確率予測機」なので断定口調でも間違える(重要情報は裏取りする)。② 重い質問は電力もコストも高いので、用事の重さでモデルを選ぶ(軽い用事は軽量モデル)。③ "最高性能"は札束勝負でも、"実用性能"は年々安く省電力になる(無料・格安モデルの進化を待つのも賢い)。仕組みを知る人ほど、AIを安く賢く使える。