ローカルLLMの必要スペック｜VRAM・GPU早見[2026]

Q: メモリ（RAM）はどれくらい必要？

システムRAMは16GB以上、できれば32GBが安心です。なおMacは統合メモリがVRAM兼用なので、メモリ容量がそのまま動かせるモデルサイズに直結します。

ローカルLLMに必要なPCスペックは？VRAM・GPU・メモリ早見ガイド[2026]

1. 結論：見るべきはほぼ「VRAM（メモリ）」
2. まず量子化を知る——VRAMが激変する
3. モデルサイズ別必要VRAM早見表
4. 文脈長とKVキャッシュの落とし穴
5. GPU・Mac別の現実（速度の目安）
6. VRAM以外に要るもの
7. 予算別おすすめ構成（3ティア）
8. 自分が動かせるモデルの見極め方
まとめ
FAQ

ローカルLLMを始めたいとき、最初に立ちはだかるのが「自分のPCで動くの？」という不安だ。結論から言うと、必要スペックの9割はVRAM（GPUのメモリ）で決まる。逆に言えば、ここさえ押さえれば「何が動いて、何が動かないか」がすぐ判断できる。

本記事は、必要VRAMの早見表とかんたんな計算式、文脈長で増えるメモリの落とし穴、GPU/Macごとの現実的な速度、そして予算別のおすすめ構成までを一気に整理する。専門用語は最小限にし、初めてでも「自分はどれを買えばいいか」が分かるようにした。

LOCAL LLM · HARDWARE

見るべきは、ほぼVRAMだけ

— モデルが「メモリに乗るか」で決まる

入門

VRAM 8〜12GB

7B〜14B級。日常チャット・要約・軽いコード。最も手軽な出発点。

標準

VRAM 24GB

32B級まで。品質と速度のバランスが良い実用ライン。

本格

40〜64GB+

70B級。クラウド中位に迫る品質。費用も上がる。

1. 結論：見るべきはほぼ「VRAM（メモリ）」

パソコン選びでは CPU・GPU・メモリ…と要素が多いが、ローカルLLMで最重要は VRAM（ビデオメモリ＝GPUに載っているメモリ）だ。理由はシンプルで、モデル全体がVRAMに乗り切れば速く快適に動き、乗らなければ激遅になるか、そもそも動かないから。

💡 ひとことで：ローカルLLMのスペック選びは「動かしたいモデルのサイズ」→「必要なVRAM」→「それを満たすGPU/Mac」の順で決まる。CPUやメモリ容量は二の次。

AppleのM系チップ（Mac）は特殊で、「統合メモリ（ユニファイドメモリ）」のおかげで搭載RAMをそのままVRAMのように使える。そのため大容量メモリのMacは、専用GPUなしでも大型モデルを動かせる——ここは後半で触れる。

2. まず量子化を知る——VRAMが激変する

必要VRAMを語る前に、避けて通れないのが量子化（Quantization）だ。これはモデルを圧縮して軽くする技術で、どれだけ圧縮するかで必要メモリが何倍も変わる。

FP16（無圧縮）

1パラメータ＝約2バイト。最高品質だがメモリを最も食う。個人ではまず使わない。

Q8（8ビット）

1パラメータ＝約1バイト。FP16のほぼ半分。品質の劣化はごくわずかで「高品質寄り」。

Q4（4ビット）

1パラメータ＝約0.5〜0.7バイト。FP16の約1/4。品質と軽さのバランスが良く個人利用の定番。

🔑 ざっくり計算式：必要VRAM ≒ パラメータ数（B）× 1パラメータあたりのバイト数。例：7BモデルをQ4で動かすなら 7 × 約0.6 ＝ 約4〜5GB。ここに後述のKVキャッシュ（文脈用）で+10〜20%を見ておけば安全だ。

3. モデルサイズ別必要VRAM早見表

もっとも実用的なQ4量子化を前提に、サイズ別の目安VRAMをまとめる（文脈用の余裕込み）。「自分のGPUのVRAM」と照らせば、動かせる上限がすぐ分かる。

7B〜8B級

VRAM 約6〜8GB

入門に最適。チャット・要約・翻訳・軽コード。多くのノートPCでも狙える。

13B〜14B級

VRAM 約8〜12GB

少し賢い回答。RTX 3060(12GB)など中位GPUの“おいしい”ゾーン。

32B級

VRAM 約20〜24GB

実用の上位ライン。RTX 4090(24GB)が一枚で狙える定番。

70B級

VRAM 約40〜48GB+

本格派。大容量メモリのMacか、複数GPUが現実的。

さらに上の100B超〜（例：超大型モデル）になると128GB以上が必要で、個人の領域を超える。逆に1〜3B級の小型なら4GB前後でも動き、非力なPCでも入門できる。

4. 文脈長とKVキャッシュの落とし穴

見落としやすいのが文脈長（コンテキスト）によるメモリ増加だ。LLMは会話や入力の履歴をKVキャッシュとしてVRAMに保持する。長い文章を扱うほど、モデル本体とは別にメモリを食う。

7Bで+約0.3GB。短い質問なら誤差レベル。

32k

7Bで+約2.5GB。長文要約や長い会話で効いてくる。

128k

7Bで+約10GB。本体より食うことも。要注意ゾーン。

📌 実用のコツ：「VRAMギリギリで動いたのに、長文を入れたら落ちた」はこれが原因。普段使う文脈長で必要量を見積もること。長い文書を扱わないなら、文脈長を小さめに設定するだけでメモリに余裕が生まれる。

5. GPU・Mac別の現実（速度の目安）

同じモデルでも、ハードで速度（1秒あたりの生成トークン数＝tok/s）が大きく変わる。代表的な選択肢を、ざっくりした体感で並べる（数値は構成・モデルで変動する目安）。

RTX 3060（12GB）

中古で手に入りやすい入門の定番。7B〜14Bが快適。コスパ重視ならまずここ。

RTX 4090（24GB）

一枚で32B級まで。7Bなら毎秒100トークン超も。個人ハイエンドの王道。70Bは一部をCPUに逃がす必要があり大幅に遅くなる。

RTX 5090（32GB）

VRAMが増え32BをQ8や、70Bを強めの量子化で一枚運用も。速度も最上位クラス。

Apple Mac（M4/M5 Max）

統合メモリ64GBなら70B級も可（速度は控えめ＝70Bで毎秒20〜30トークン程度）。静音・省電力で扱いやすい。

CPUのみ（GPUなし）

小型モデルなら一応動くが速度は遅い。「まず試す」用途向け。常用にはGPU/Macが要る。

6. VRAM以外に要るもの

主役はVRAMだが、脇役も無視できない。最低限おさえたい3点。

🧠

システムRAM

VRAMに乗り切らない分の受け皿。16GB以上、できれば32GB。Macは統合メモリがそのまま効く。

💾

ストレージ（SSD）

モデル1個で数GB〜数十GB。複数試すならSSDの空き容量に余裕を。NVMe推奨。

⚡

電源・冷却

ハイエンドGPUは消費電力・発熱が大きい。電源容量と冷却に余裕を持たせる。

7. 予算別おすすめ構成（3ティア）

「結局、何を買えばいい？」に答える3パターン。用途と予算で選ぶ。

入門

まず試す：VRAM 8〜12GB

RTX 3060(12GB)クラス、または統合メモリ16〜24GBのMac。7B〜14B級が動き、日常用途は十分。中古GPUなら一番安く始められる。

標準

しっかり使う：VRAM 24GB

RTX 4090(24GB)、または統合メモリ32〜48GBのMac。32B級まで快適で、品質と速度のバランスが最良。最も“ちょうどいい”選択。

本格

最大級を狙う：40〜64GB+

RTX 5090や複数GPU、または統合メモリ64GB+のハイエンドMac。70B級でクラウド中位に迫る。費用と電力は要覚悟。

8. 自分が動かせるモデルの見極め方

どのモデルを選ぶか迷ったら、ローカルLLMのおすすめモデル徹底比較で用途・サイズ・出身国別の選び方を確認しよう。

買う前・落とす前に、3ステップで確認すれば失敗しない。

自分のVRAM（またはMacの統合メモリ）を確認する。これが上限。
動かしたいモデルのサイズ（B）× 約0.6（Q4）でおおよその必要量を計算。文脈用に+10〜20%。
その合計が自分のVRAM内に収まるかを確認。収まらなければ「もう一段小さいモデル」か「より強い量子化（Q4→さらに低ビット）」を選ぶ。

💡 迷ったら小さめから：Ollama や LM Studio なら、モデルを選んでダウンロードするだけ。まず7B級を試し、物足りなければ一段上げる——この順番が安全で確実だ。

まとめ

ローカルLLMの必要スペックは、3点で押さえられる。

主役はVRAM：モデルがメモリに乗るかがすべて。Macは統合メモリで大容量も狙える。
量子化と文脈で必要量が動く：Q4なら「サイズ(B)×約0.6」＋文脈分(+10〜20%)が目安。7B≒6〜8GB、32B≒24GB、70B≒40GB+。
予算で3ティア：入門(8〜12GB)／標準(24GB)／本格(40〜64GB+)。迷ったら小さめから始めて段階的に上げる。

スペックさえ分かれば、ローカルLLMはぐっと身近になる。次は実際にクラウドとの違いも踏まえつつ、自分のマシンで動かしてみよう。導入手順はローカルLLMの始め方でカバーしている。

FAQ

Q. 普通のノートPC（GPUなし）でもローカルLLMは動く？

A. 小型モデル（1〜3B、軽量な7B）なら動きますが、速度は遅めです。「お試し」には十分ですが、日常的に快適に使うなら、VRAM 8GB以上のGPUか、統合メモリ多めのMacが現実的です。

Q. VRAMが少し足りない。どうすれば動く？

A. 手は3つ。①より強い量子化（低ビット版）を選ぶ、②一段小さいモデルにする、③文脈長を短く設定する。多くの場合、これで収まります。CPUへ一部を逃がす方法もありますが、速度は落ちます。

Q. GeForceとMac、どちらが良い？

A. 速度重視・拡張性ならGeForce（NVIDIA GPU）。静音・省電力で大容量メモリを活かして大型モデルも動かしたいならMac（統合メモリ）。70B級を一台で扱いたい場合、64GB+のMacは有力な選択肢です。

Q. メモリ（RAM）はどれくらい必要？

A. システムRAMは16GB以上、できれば32GBが安心です。なおMacは統合メモリがVRAM兼用なので、メモリ容量がそのまま動かせるモデルサイズに直結します。

Q. 結局、最初の1台は何が良い？

A. コスパなら中古のRTX 3060(12GB)で7B〜14Bから。予算が許すならRTX 4090(24GB)が32B級まで一枚でこなせて長く使えます。Apple派なら統合メモリ多めのMacが手軽です。まず小さく始め、必要に応じて上げるのが失敗しないコツです。

ローカルLLMに必要なPCスペックは？VRAM・GPU・メモリ早見ガイド[2026]

見るべきは、ほぼVRAMだけ

1. 結論：見るべきはほぼ「VRAM（メモリ）」

2. まず量子化を知る——VRAMが激変する

3. モデルサイズ別必要VRAM早見表

4. 文脈長とKVキャッシュの落とし穴

5. GPU・Mac別の現実（速度の目安）

6. VRAM以外に要るもの

7. 予算別おすすめ構成（3ティア）

8. 自分が動かせるモデルの見極め方

まとめ

FAQ

関連記事

ChatGPT・Claude・Geminiの知識カットオフ日一覧｜主要8モデルを最新比較

生成AIとは？従来のAIとの違いをわかりやすく解説

生成AIの得意なこと・苦手なこと｜できること・できないことを具体例で解説

LLM（大規模言語モデル）とは？仕組み・主要モデル・活用法をわかりやすく解説

コメント

コメントを投稿

ローカルLLMに必要なPCスペックは？VRAM・GPU・メモリ早見ガイド[2026]

見るべきは、ほぼVRAMだけ

1. 結論：見るべきはほぼ「VRAM（メモリ）」

2. まず量子化を知る——VRAMが激変する

3. モデルサイズ別 必要VRAM早見表

4. 文脈長とKVキャッシュの落とし穴

5. GPU・Mac別の現実（速度の目安）

6. VRAM以外に要るもの

7. 予算別おすすめ構成（3ティア）

8. 自分が動かせるモデルの見極め方

まとめ

FAQ

関連記事

ChatGPT・Claude・Geminiの知識カットオフ日一覧｜主要8モデルを最新比較

生成AIとは？従来のAIとの違いをわかりやすく解説

生成AIの得意なこと・苦手なこと｜できること・できないことを具体例で解説

LLM（大規模言語モデル）とは？仕組み・主要モデル・活用法をわかりやすく解説

コメント

コメントを投稿

3. モデルサイズ別必要VRAM早見表