LLMの仕組み｜重み・電力・開発コストを深掘り

Q: パラメータ（重み）が多いほど賢いんですか?

かつては「大きいほど賢い」がほぼ成り立ったが、2026年は単純ではない。同じパラメータ数でも、学習データの質・事後学習・アーキテクチャの工夫で性能は大きく変わる。小さくても賢いモデル（蒸留や効率設計の産物）が増え、「パラメータ数＝賢さ」とは言い切れなくなった。数より「鍛え方」の時代に入っている。

Q: LLMは本当に"理解"しているんですか? それとも丸暗記?

専門家でも見解が割れる難問だ。確かなのは 「単なる丸暗記では説明できない汎化能力を見せる」こと（学習に無い問題も解ける）。一方で「人間と同じ意味理解か」は別問題で、明確に答えは出ていない。実用上は 「理解しているかのように振る舞う、極めて高度な予測装置」と捉えるのが安全だ。だからこそ平気で間違える（ハルシネーション）。

Q: 自分でLLMを作ることはできますか?

「フロンティア級」は個人には不可能（数百億円と数万GPUが要る）。だが 小型モデルの学習や、既存オープンモデルの微調整（ファインチューニング）なら個人でも可能だ。さらに、ほとんどの実用ニーズは API 経由で既存モデルを使えば足りる。「自分で全部作る」必要はほぼない。

Q: AIの電力消費は地球にとって深刻な問題ですか?

無視できない規模になりつつあるのは事実だ（データセンター電力は世界の約1.5%、IEA推計で2030年に倍増見通し）。ただし効率化も同時に猛烈に進んでおり、「1トークンあたりの電力」は年々下がっている。問題は「1回の効率」より 「総量×回数の爆発的増加」のほう。再エネ・原子力・専用チップでどこまで相殺できるかが今後の焦点だ。

Q: 結局、ユーザーとしては何を知っておけば得ですか?

3つ。① モデルは「確率予測機」なので断定口調でも間違える（重要情報は裏取りする）。② 重い質問は電力もコストも高いので、用事の重さでモデルを選ぶ（軽い用事は軽量モデル）。③ "最高性能"は札束勝負でも、"実用性能"は年々安く省電力になる（無料・格安モデルの進化を待つのも賢い）。仕組みを知る人ほど、AIを安く賢く使える。

LLMの仕組みを深掘り——「重み」で言葉を予測する原理・電力消費・開発が札束の殴り合いになる理由

1. LLMは「次の単語」を当て続けているだけ
2. 「重み」とは何か——1兆個のツマミが知能をつくる
3. 学習の2段階——事前学習と事後学習（RLHF）
4. 推論——あなたの質問が電気に変わる瞬間
5. 電力——LLMはどれだけ電気を食うのか
6. 「開発は札束の殴り合い」は本当か
7. ただし「札束だけ」では勝てない——効率化という逆流
8. これから——札束の次に来る「電力と物理」の壁
まとめ
FAQ

2023年に公開された GPT-4 は、Microsoft Azure 上の 約25,000枚のGPUを数ヶ月回して訓練されたと推定されている。その1回の学習に投じられた計算量はおよそ 2×10²⁵ 回の浮動小数点演算（FLOPs）。さらに古い GPT-3 の訓練ですら 電力にして約1,287MWh——一般家庭の100年分以上の電気を、たった1つのモデルを作るために燃やした計算になる。私たちが何気なく打ち込む「ねえ、これ要約して」の裏側には、こういう物理と札束の世界が広がっている。

この記事は 「LLM（大規模言語モデル）が実際どう動いているのか」を、仕組み・電力・お金の3方向から深掘りする。具体的には——① LLMはなぜ「重み（パラメータ）」というツマミの集合で言葉を生み出せるのか、② 1回の質問や1回の学習でどれだけの電気を食うのか、③ 「フロンティアLLMの開発は札束の殴り合い」という言説は本当か。結論を先に言えば、3つ目は 「フロンティアの最前線に限ればほぼ本当。ただし"札束だけ"では勝てない逆流も2026年に強まっている」——これが正確な答えだ。

個人的なスタンスを先に書く。LLMの「賢さ」は魔法でも意識でもなく、巨大な確率予測装置を電力で殴り倒した結果だと理解すると、過度な期待も過度な恐怖も両方ほどける。仕組みを知ることは、AIを冷静に使いこなすいちばんの近道だ。本記事は中級者向けに踏み込んで書く。「そもそもLLMって何?」からなら LLMとは（入門）を先に、コンテキストの実効性はコンテキストウィンドウ、料金面は AI API入門もあわせてどうぞ。

LLM の仕組み · 重み × 電力 × 札束

LLMの正体を3方向から解剖する

— 知能の中身・消費する電気・かかる札束

仕組み

重みで次の語を予測

数千億〜1兆超の ツマミが確率を計算するだけ

電力

質問1回 ≒ 0.4〜33Wh

訓練1回は 家庭100年分超の電気

札束

最前線で $2〜5億

2027年には $10〜30億の訓練も予測

LLMの賢さは魔法ではない。巨大な確率予測装置を、電力と札束で殴り倒した結果だ。
仕組みを知れば、過度な期待も過度な恐怖も両方ほどける。

1. LLMは「次の単語」を当て続けているだけ

意外に聞こえるかもしれないが、ChatGPT も Claude も Gemini も、本質的にやっていることは1つだけだ。「ここまでの文章の続きとして、次に来る単語（正確には"トークン"）として最もありそうなものは何か」を確率で計算し、1個ずつ選んで並べている。それだけ。「猫がマットの上に___」と入力されれば、「座っている」「いる」「乗っている」などの候補に確率を振り、最も高いもの（あるいは確率に従ってサンプリングしたもの）を出す。これを1トークンずつ、文章が終わるまで繰り返す。

ここで多くの人が引っかかる疑問がある。「ただの単語当てゲームが、なぜ論文を要約したりコードを書いたりできるのか?」。答えは——「次の単語を本当に正確に当てるには、世界の構造をある程度"理解"せざるを得ない」からだ。「日本の首都は___」を当てるには地理を、「3 + 5 = ___」を当てるには算術を、「このバグの原因は___」を当てるにはプログラミングの知識を、内部に持っていないと当てられない。大量のテキストで「次の単語当て」を極限まで鍛えた副産物として、知識と推論能力が浮かび上がってくる——これがLLMの不思議で本質的なところだ。

では、その「次の単語の確率」を計算しているのは何者なのか。前章で予告したとおり、主役は 「重み（weights / パラメータ）」と呼ばれる、とてつもない数の数値の集まりだ。次章でその正体を見る。

2. 「重み」とは何か——1兆個のツマミが知能をつくる

LLMの中身を一言でたとえるなら、「数千億〜1兆個以上の"ツマミ"がついた、巨大な計算装置」だ。このツマミ1つ1つが「重み（パラメータ）」で、入力された単語の信号を次の層へ伝えるときに 「どの信号をどれだけ強める/弱めるか」を決めている。GPT-3 で約 1,750億個、最新のフロンティアモデルでは 1兆個を超えるとも言われる。この膨大なツマミの設定値こそが、モデルが学んだ「知識」の正体だ。

WEIGHTS

「重み」が言葉を生むまでの流れ

① トークン化

文章を 単語の断片（トークン）に分解し、数値ベクトルに変換

② 重みを通す

数十層の Transformerで、重みを掛けながら信号を変換

③ 注意（Attention）

文中の どの単語に注目すべきかを重みが判断

④ 確率を出力

次トークンの 確率分布を計算し、1個選ぶ

「学習」とは この1兆個のツマミを、正解に近づくよう少しずつ回す作業。
完成したツマミの設定値（重み）= モデルの「知識」そのもの。

2017年に登場した Transformer（トランスフォーマー）という構造が、現代LLMの土台だ。その心臓部が 「Attention（注意機構）」で、これは「文中のどの単語が、いまの単語にとって重要か」を重みで動的に判断する仕組み。「銀行の前で川を見た」の「銀行（bank）」が金融機関か土手かを、文脈の他の単語との関係から重みづけして決める——この「文脈に応じた重みづけ」こそが、LLMが長い文章でも筋の通った応答を返せる理由だ。ユーザーが言う「重みづけがどうのこうの」は、まさにこの Attention と、その背後にある数兆回の掛け算のことを指している。

大事なのは、これらの重みは人間が手で設定したものではないという点だ。最初はランダムな数値の塊で、何の意味もない。そこに「学習」を通じて意味が宿る。では、その学習はどう行われるのか。

3. 学習の2段階——事前学習と事後学習（RLHF）

LLMの学習は、大きく 2段階に分かれる。前章の「ランダムなツマミ」が「賢いツマミ」に変わるまでの工程だ。

第1段階：事前学習（Pre-training）。インターネット規模の膨大なテキスト（書籍、Web、コードなど）を読ませ、ひたすら「次の単語当て」をさせる。間違えるたびに、誤差が小さくなる方向へ 全パラメータをほんの少しずつ調整する（この調整アルゴリズムが有名な「バックプロパゲーション＋勾配降下法」）。これを何兆トークンも繰り返すと、文法・知識・推論の土台がツマミの中に刻まれる。計算量の大半・電力の大半・札束の大半を食うのがこの事前学習だ。GPT-4 級で約 2×10²⁵ FLOPs という天文学的な計算がここで燃える。

第2段階：事後学習（Post-training）。事前学習だけのモデルは「物知りだが行儀が悪い」状態。そこで RLHF（人間のフィードバックによる強化学習）などで「人間にとって役立つ・安全な答え方」を教え込む。さらに2025年以降は、長い推論（じっくり考える）・ツール使用・エージェント的な行動を鍛える事後学習の比重が急増し、Claude・GPT・Gemini 系では 総計算量の15〜25%程度を事後学習が占めるまでになった。「最近のモデルがやたら"考えてから答える"」のは、この事後学習の進化の結果だ。マルチエージェント的な振る舞いもここで仕込まれる。

4. 推論——あなたの質問が電気に変わる瞬間

学習が「ツマミを設定する工事」なら、推論（Inference）は「完成したツマミを使って実際に答えを出す運用」だ。あなたが ChatGPT に質問を打つたびに、1兆個近いツマミを通した数兆回の掛け算が走り、トークンが1個ずつ生成される。前章までで「学習がいかに重いか」を見てきたが——実は社会全体で見ると、電力を食っているのは学習よりむしろ推論のほうだ。

理由は単純で、学習は1モデルにつき基本1回だが、推論は世界中で毎日何億回も走るから。モデルの生涯を通じて見れば、電力・計算の需要は学習よりも 推論側に大きく積み上がっていく。「1回の質問なんて大した電気じゃない」——確かに1回は小さい。だが 「小さい×何億回×毎日」が積み上がると、国家規模の電力問題になる。次章で具体的な数字を見よう。

5. 電力——LLMはどれだけ電気を食うのか

「AIは電力を食う」とよく言われるが、実際どのくらいなのか。2026年時点で公表されている代表的な数字を整理する。

ELECTRICITY

LLMの電力消費を数字で見る

質問1回（短文）

0.43Wh

GPT-4o級
短い質問1回

重い推論1回

33Wh超

長考型モデル
軽量版の約70倍

GPT-3の訓練

1,287MWh

CO2 550t超
（古い世代で既に）

世界のDC電力

415→945

TWh
2024→2030予測

短い質問1回（0.43Wh）でも 7億回/日に増やすと米国の約35,000世帯の電力に相当。
データセンター1ラックは従来の最大10倍、AI専用DCは 20MW〜1GWを食う。

注目すべきは 「モデルによって電力効率が桁違いに違う」点だ。軽量モデルへの短い質問は 0.5Wh 未満だが、長考型の推論モデル（じっくり考えてから答えるタイプ）に重い質問を投げると 33Wh超——軽量版の約70倍を消費する。トークン消費=業務量の罠でも触れたが、「とりあえず最上位モデルで全部やる」は、電力的にもコスト的にも贅沢だ。軽い用事は軽いモデルに回すのは、地球にもサイフにも優しい。世界のデータセンター電力は国際エネルギー機関（IEA）の推計で2024年に約415TWh（世界全体の約1.5%）、2030年には約945TWhへ倍増する見通しで、その伸びの主因がAIだ。

6. 「開発は札束の殴り合い」は本当か

ここからが、ユーザーがいちばん気にしていた問いだ。「フロンティアLLMの開発は札束の殴り合い」——これは本当か? 検証した結論を先に言う：「最前線（フロンティア）の事前学習に限れば、ほぼ本当」。数字がそれを裏づける。

MONEY FIGHT

フロンティア訓練コストの推移

GPT-3（2020）

約 3×10²³ FLOPs。当時としては桁外れ

GPT-4（2023）

約 2×10²⁵ FLOPs。GPU約25,000枚

2026 最前線

10²⁶〜10²⁷ FLOPs / $2〜5億

2027 予測

1回の訓練で $10〜30億に達する見込み

フロンティア訓練の計算量は長らく 年4〜10倍で増加。
GPT-5 / Gemini Ultra 級の1回の訓練で $2〜5億——まさに札束の殴り合い。

具体的に言えば、GPT-5 / Gemini Ultra 級のモデルを1回訓練するコストは $2億〜$5億（約300〜750億円）と推定され、2027年後半のフロンティアでは 1回 $10億〜$30億に達するという予測もある。しかもこれは「成功した1回」の話で、実際にはその裏に 失敗した試行錯誤・データ整備・人件費・推論用インフラが乗る。さらに GPU 自体が1枚数百万円、それを数万枚、数ヶ月間ぶん回す電気代——「思いつき」や「優れたアルゴリズム」だけでは絶対に到達できない金額の壁が、フロンティアの入口に立っている。この意味で「札束の殴り合い」は誇張ではなく、事実だ。だからこそ最前線で戦えるのは OpenAI・Google・Anthropic・Meta・xAI といった 巨額資本を確保できた一握りに限られている。

7. ただし「札束だけ」では勝てない——効率化という逆流

前章で「札束の殴り合いは本当」と書いた。だが、それで話を終わらせると2026年の現実を見誤る。「札束さえあれば勝てる」わけでは決してない——むしろ逆流が強まっている。ユーザーへの誠実な答えとして、この反対側も書いておきたい。

象徴的なのが、中国の DeepSeek が比較的小さな予算で最前線に肉薄するモデルを出し、「コストの底（floor）をリセットした」と評された一連の動きだ。同じ性能を 桁違いに安く作る手法——効率的なアーキテクチャ、混合専門家（MoE）、蒸留（大モデルの知識を小モデルに移す）、データの質の作り込み——が次々と実証され、「巨大資本＝勝利」という図式に楔を打ち込んだ。実際、フロンティアの計算量増加は 年10倍ペースから2026年以降は年3〜4倍へ減速すると予測されており、業界の関心は「とにかくデカく」から 「同じ性能をいかに安く・省電力で」へ移りつつある。

つまり正確な構図はこうだ。「最前線の"最高性能"を更新する競争は札束の殴り合い。だが"実用十分な性能"を安く届ける競争は、知恵と効率の勝負」。私たちユーザーが日常で使うモデルの多くは後者の恩恵で、年々安く・速く・省電力になっている。無料枠でどこまでできるかで書いたように、2026年は無料枠でも実用レベルに達した——これは効率化の逆流がもたらした、ユーザーにとっての果実だ。

8. これから——札束の次に来る「電力と物理」の壁

では、札束を積み続ければどこまでもスケールできるのか。そうではない、というのが2026年に見え始めた新しい壁だ。計算量が 10²⁷ FLOPs を超えるあたりから、ボトルネックは「GPUを買う予算」ではなくなる。代わりに立ちはだかるのが——

電力：1か所に ギガワット級の電力を継続供給できるか。もはや発電所・送電網の問題
相互接続：数万〜数十万のGPUを 遅延なく同期させる帯域。1つの巨大訓練が物理的に扱える上限がある
データ：高品質な学習用テキストが そもそも枯渇しつつある（人類が書いた良質な文章の量には限りがある）

「札束の殴り合い」の次に来るのは、「電力と物理と知恵の殴り合い」だ。だから各社はいま、原子力発電への投資、専用チップの自社開発、合成データの活用、そして効率的アーキテクチャの研究へと軸足を移している。お金で殴れる時代は、皮肉にもお金だけでは殴れない時代へ移ろうとしている。

まとめ

LLMの正体は、「数千億〜1兆超の"重み"というツマミが、次に来る単語の確率を計算し続ける巨大な予測装置」だ。Transformer の Attention が「文脈に応じた重みづけ」を担い、事前学習（計算・電力・札束の大半を食う）＋事後学習（RLHF・推論訓練）でツマミが賢くなる。賢さは魔法ではなく、大量のテキストで「次の単語当て」を極限まで鍛えた副産物だ。

電力面では、短い質問1回 ≒ 0.43Wh、重い推論は33Wh超（軽量版の約70倍）、GPT-3 の訓練だけで 1,287MWh。社会全体では 推論側の消費が大きく積み上がり、世界のデータセンター電力はIEA推計で2030年に約945TWhへ倍増見通し。「最上位モデルで全部やる」は電力もコストも贅沢で、用事の重さでモデルを選び分けるのが賢い。

そして核心の問い——「LLM開発は札束の殴り合いか」。答えは"最前線の事前学習に限ればほぼ本当"（GPT-5級で1回 $2〜5億、2027年予測 $10〜30億）。だが "札束だけ"では勝てない逆流も強い（DeepSeek の floor reset、効率化、蒸留）。最高性能の更新は札束勝負、実用性能を安く届けるのは知恵勝負——この二層構造が2026年の現実だ。そして次に来るのは 電力・相互接続・データ枯渇という物理の壁。LLMを「魔法の箱」ではなく「電力で動く確率機械」として理解しておくと、過度な期待にも過度な恐怖にも振り回されずに済む。さらに学ぶなら LLMとは（入門）、コンテキストウィンドウ、無料枠比較をどうぞ。

FAQ

Q. パラメータ（重み）が多いほど賢いんですか?
A. かつては「大きいほど賢い」がほぼ成り立ったが、2026年は単純ではない。同じパラメータ数でも、学習データの質・事後学習・アーキテクチャの工夫で性能は大きく変わる。小さくても賢いモデル（蒸留や効率設計の産物）が増え、「パラメータ数＝賢さ」とは言い切れなくなった。数より「鍛え方」の時代に入っている。

Q. LLMは本当に"理解"しているんですか? それとも丸暗記?
A. 専門家でも見解が割れる難問だ。確かなのは 「単なる丸暗記では説明できない汎化能力を見せる」こと（学習に無い問題も解ける）。一方で「人間と同じ意味理解か」は別問題で、明確に答えは出ていない。実用上は 「理解しているかのように振る舞う、極めて高度な予測装置」と捉えるのが安全だ。だからこそ平気で間違える（ハルシネーション）。

Q. 自分でLLMを作ることはできますか?
A. 「フロンティア級」は個人には不可能（数百億円と数万GPUが要る）。だが 小型モデルの学習や、既存オープンモデルの微調整（ファインチューニング）なら個人でも可能だ。さらに、ほとんどの実用ニーズは API 経由で既存モデルを使えば足りる。「自分で全部作る」必要はほぼない。

Q. AIの電力消費は地球にとって深刻な問題ですか?
A. 無視できない規模になりつつあるのは事実だ（データセンター電力は世界の約1.5%、IEA推計で2030年に倍増見通し）。ただし効率化も同時に猛烈に進んでおり、「1トークンあたりの電力」は年々下がっている。問題は「1回の効率」より 「総量×回数の爆発的増加」のほう。再エネ・原子力・専用チップでどこまで相殺できるかが今後の焦点だ。

Q. 結局、ユーザーとしては何を知っておけば得ですか?
A. 3つ。① モデルは「確率予測機」なので断定口調でも間違える（重要情報は裏取りする）。② 重い質問は電力もコストも高いので、用事の重さでモデルを選ぶ（軽い用事は軽量モデル）。③ "最高性能"は札束勝負でも、"実用性能"は年々安く省電力になる（無料・格安モデルの進化を待つのも賢い）。仕組みを知る人ほど、AIを安く賢く使える。

LLMの仕組みを深掘り——「重み」で言葉を予測する原理・電力消費・開発が札束の殴り合いになる理由

LLMの正体を3方向から解剖する

1. LLMは「次の単語」を当て続けているだけ

2. 「重み」とは何か——1兆個のツマミが知能をつくる

「重み」が言葉を生むまでの流れ

3. 学習の2段階——事前学習と事後学習（RLHF）

4. 推論——あなたの質問が電気に変わる瞬間

5. 電力——LLMはどれだけ電気を食うのか

LLMの電力消費を数字で見る

6. 「開発は札束の殴り合い」は本当か

フロンティア訓練コストの推移

7. ただし「札束だけ」では勝てない——効率化という逆流

8. これから——札束の次に来る「電力と物理」の壁

まとめ

FAQ

関連記事

ChatGPT・Claude・Geminiの知識カットオフ日一覧｜主要8モデルを最新比較

生成AIとは？従来のAIとの違いをわかりやすく解説

生成AIの得意なこと・苦手なこと｜できること・できないことを具体例で解説

LLM（大規模言語モデル）とは？仕組み・主要モデル・活用法をわかりやすく解説

コメント

コメントを投稿