ローカルLLMを始めたいとき、最初に立ちはだかるのが「自分のPCで動くの?」という不安だ。結論から言うと、必要スペックの9割はVRAM(GPUのメモリ)で決まる。逆に言えば、ここさえ押さえれば「何が動いて、何が動かないか」がすぐ判断できる。

本記事は、必要VRAMの早見表かんたんな計算式、文脈長で増えるメモリの落とし穴、GPU/Macごとの現実的な速度、そして予算別のおすすめ構成までを一気に整理する。専門用語は最小限にし、初めてでも「自分はどれを買えばいいか」が分かるようにした。

LOCAL LLM · HARDWARE

見るべきは、ほぼVRAMだけ

— モデルが「メモリに乗るか」で決まる

入門

VRAM 8〜12GB

7B〜14B級。日常チャット・要約・軽いコード。最も手軽な出発点。

標準

VRAM 24GB

32B級まで。品質と速度のバランスが良い実用ライン。

本格

40〜64GB+

70B級。クラウド中位に迫る品質。費用も上がる。

1. 結論:見るべきはほぼ「VRAM(メモリ)」

パソコン選びでは CPU・GPU・メモリ…と要素が多いが、ローカルLLMで最重要は VRAM(ビデオメモリ=GPUに載っているメモリ)だ。理由はシンプルで、モデル全体がVRAMに乗り切れば速く快適に動き、乗らなければ激遅になるか、そもそも動かないから。

💡 ひとことで:ローカルLLMのスペック選びは「動かしたいモデルのサイズ」→「必要なVRAM」→「それを満たすGPU/Mac」の順で決まる。CPUやメモリ容量は二の次。

AppleのM系チップ(Mac)は特殊で、「統合メモリ(ユニファイドメモリ)」のおかげで搭載RAMをそのままVRAMのように使える。そのため大容量メモリのMacは、専用GPUなしでも大型モデルを動かせる——ここは後半で触れる。

2. まず量子化を知る——VRAMが激変する

必要VRAMを語る前に、避けて通れないのが量子化(Quantization)だ。これはモデルを圧縮して軽くする技術で、どれだけ圧縮するかで必要メモリが何倍も変わる。

FP16(無圧縮)

1パラメータ=約2バイト。最高品質だがメモリを最も食う。個人ではまず使わない。

Q8(8ビット)

1パラメータ=約1バイト。FP16のほぼ半分。品質の劣化はごくわずかで「高品質寄り」。

Q4(4ビット)

1パラメータ=約0.5〜0.7バイト。FP16の約1/4。品質と軽さのバランスが良く個人利用の定番

🔑 ざっくり計算式:必要VRAM ≒ パラメータ数(B)× 1パラメータあたりのバイト数。例:7BモデルをQ4で動かすなら 7 × 約0.6 = 約4〜5GB。ここに後述のKVキャッシュ(文脈用)で+10〜20%を見ておけば安全だ。

3. モデルサイズ別 必要VRAM早見表

もっとも実用的なQ4量子化を前提に、サイズ別の目安VRAMをまとめる(文脈用の余裕込み)。「自分のGPUのVRAM」と照らせば、動かせる上限がすぐ分かる。

7B〜8B級

VRAM 約6〜8GB

入門に最適。チャット・要約・翻訳・軽コード。多くのノートPCでも狙える。

13B〜14B級

VRAM 約8〜12GB

少し賢い回答。RTX 3060(12GB)など中位GPUの“おいしい”ゾーン。

32B級

VRAM 約20〜24GB

実用の上位ライン。RTX 4090(24GB)が一枚で狙える定番。

70B級

VRAM 約40〜48GB+

本格派。大容量メモリのMacか、複数GPUが現実的。

さらに上の100B超〜(例:超大型モデル)になると128GB以上が必要で、個人の領域を超える。逆に1〜3B級の小型なら4GB前後でも動き、非力なPCでも入門できる。

4. 文脈長とKVキャッシュの落とし穴

見落としやすいのが文脈長(コンテキスト)によるメモリ増加だ。LLMは会話や入力の履歴をKVキャッシュとしてVRAMに保持する。長い文章を扱うほど、モデル本体とは別にメモリを食う

4k

7Bで+約0.3GB。短い質問なら誤差レベル。

32k

7Bで+約2.5GB。長文要約や長い会話で効いてくる。

128k

7Bで+約10GB。本体より食うことも。要注意ゾーン。

📌 実用のコツ:「VRAMギリギリで動いたのに、長文を入れたら落ちた」はこれが原因。普段使う文脈長で必要量を見積もること。長い文書を扱わないなら、文脈長を小さめに設定するだけでメモリに余裕が生まれる。

5. GPU・Mac別の現実(速度の目安)

同じモデルでも、ハードで速度(1秒あたりの生成トークン数=tok/s)が大きく変わる。代表的な選択肢を、ざっくりした体感で並べる(数値は構成・モデルで変動する目安)。

RTX 3060(12GB)

中古で手に入りやすい入門の定番。7B〜14Bが快適。コスパ重視ならまずここ。

RTX 4090(24GB)

一枚で32B級まで。7Bなら毎秒100トークン超も。個人ハイエンドの王道。70Bは一部をCPUに逃がす必要があり大幅に遅くなる。

RTX 5090(32GB)

VRAMが増え32BをQ8や、70Bを強めの量子化で一枚運用も。速度も最上位クラス。

Apple Mac(M4/M5 Max)

統合メモリ64GBなら70B級も可(速度は控えめ=70Bで毎秒20〜30トークン程度)。静音・省電力で扱いやすい。

CPUのみ(GPUなし)

小型モデルなら一応動くが速度は遅い。「まず試す」用途向け。常用にはGPU/Macが要る。

6. VRAM以外に要るもの

主役はVRAMだが、脇役も無視できない。最低限おさえたい3点。

🧠

システムRAM

VRAMに乗り切らない分の受け皿。16GB以上、できれば32GB。Macは統合メモリがそのまま効く。

💾

ストレージ(SSD)

モデル1個で数GB〜数十GB。複数試すならSSDの空き容量に余裕を。NVMe推奨。

電源・冷却

ハイエンドGPUは消費電力・発熱が大きい。電源容量と冷却に余裕を持たせる。

7. 予算別おすすめ構成(3ティア)

「結局、何を買えばいい?」に答える3パターン。用途と予算で選ぶ。

入門

まず試す:VRAM 8〜12GB

RTX 3060(12GB)クラス、または統合メモリ16〜24GBのMac。7B〜14B級が動き、日常用途は十分。中古GPUなら一番安く始められる。

標準

しっかり使う:VRAM 24GB

RTX 4090(24GB)、または統合メモリ32〜48GBのMac。32B級まで快適で、品質と速度のバランスが最良。最も“ちょうどいい”選択。

本格

最大級を狙う:40〜64GB+

RTX 5090や複数GPU、または統合メモリ64GB+のハイエンドMac。70B級でクラウド中位に迫る。費用と電力は要覚悟。

8. 自分が動かせるモデルの見極め方

どのモデルを選ぶか迷ったら、ローカルLLMのおすすめモデル徹底比較で用途・サイズ・出身国別の選び方を確認しよう。

買う前・落とす前に、3ステップで確認すれば失敗しない。

  1. 自分のVRAM(またはMacの統合メモリ)を確認する。これが上限。
  2. 動かしたいモデルのサイズ(B)× 約0.6(Q4)でおおよその必要量を計算。文脈用に+10〜20%。
  3. その合計が自分のVRAM内に収まるかを確認。収まらなければ「もう一段小さいモデル」か「より強い量子化(Q4→さらに低ビット)」を選ぶ。

💡 迷ったら小さめからOllama や LM Studio なら、モデルを選んでダウンロードするだけ。まず7B級を試し、物足りなければ一段上げる——この順番が安全で確実だ。

まとめ

ローカルLLMの必要スペックは、3点で押さえられる。

  • 主役はVRAM:モデルがメモリに乗るかがすべて。Macは統合メモリで大容量も狙える。
  • 量子化と文脈で必要量が動く:Q4なら「サイズ(B)×約0.6」+文脈分(+10〜20%)が目安。7B≒6〜8GB、32B≒24GB、70B≒40GB+。
  • 予算で3ティア:入門(8〜12GB)/標準(24GB)/本格(40〜64GB+)。迷ったら小さめから始めて段階的に上げる。

スペックさえ分かれば、ローカルLLMはぐっと身近になる。次は実際にクラウドとの違いも踏まえつつ、自分のマシンで動かしてみよう。導入手順はローカルLLMの始め方でカバーしている。

FAQ

Q. 普通のノートPC(GPUなし)でもローカルLLMは動く?

A. 小型モデル(1〜3B、軽量な7B)なら動きますが、速度は遅めです。「お試し」には十分ですが、日常的に快適に使うなら、VRAM 8GB以上のGPUか、統合メモリ多めのMacが現実的です。

Q. VRAMが少し足りない。どうすれば動く?

A. 手は3つ。①より強い量子化(低ビット版)を選ぶ、②一段小さいモデルにする、③文脈長を短く設定する。多くの場合、これで収まります。CPUへ一部を逃がす方法もありますが、速度は落ちます。

Q. GeForceとMac、どちらが良い?

A. 速度重視・拡張性ならGeForce(NVIDIA GPU)。静音・省電力で大容量メモリを活かして大型モデルも動かしたいならMac(統合メモリ)。70B級を一台で扱いたい場合、64GB+のMacは有力な選択肢です。

Q. メモリ(RAM)はどれくらい必要?

A. システムRAMは16GB以上、できれば32GBが安心です。なおMacは統合メモリがVRAM兼用なので、メモリ容量がそのまま動かせるモデルサイズに直結します。

Q. 結局、最初の1台は何が良い?

A. コスパなら中古のRTX 3060(12GB)で7B〜14Bから。予算が許すならRTX 4090(24GB)が32B級まで一枚でこなせて長く使えます。Apple派なら統合メモリ多めのMacが手軽です。まず小さく始め、必要に応じて上げるのが失敗しないコツです。