「70B(700億パラメータ)の巨大モデルが、データセンターのGPUラックではなく手元のゲーミングPC1台で動く」——これを可能にするのが量子化(quantization)だ。モデルの重みの数値精度を下げて、サイズと必要メモリを劇的に小さくする技術である。

前回のモデル蒸留が「別の小さいモデルに知識を移す」技術だったのに対し、量子化は「同じモデルを軽くする」技術。本記事は仕組みを写真の圧縮のたとえで解説し、どれだけ軽くなるか(メモリの数字)、精度のトレードオフ、主な手法(GPTQ/AWQ/GGUF/QLoRA)、そしてローカルでの動かし方まで初心者向けに整理する。

量子化 · 精度を下げて軽くする

ビット数を下げると、VRAMは劇的に減る

— 例:70Bモデルに必要なメモリ

FP16
~140GB
INT8
~70GB
INT4
~35GB
4ビットでメモリ約1/4 家庭用GPUで動く 精度は少しだけ低下

※本記事のメモリ目安・数値は各種公表資料の引用(2026年6月時点)。実際の必要量はモデル・形式・コンテキスト長などで変わるため、傾向の参考に。

1. 量子化とは?写真の圧縮にたとえる

量子化とは、モデルの重み(パラメータ)の数値精度を下げること。AIの重みは通常FP16/FP32(16/32ビットの小数)で表されるが、これをINT8(8ビット)やINT4(4ビット)の整数に置き換える。すると1つの重みあたりの容量が減り、モデル全体が大幅に軽くなる。

たとえるなら「高精細写真の圧縮」:元のRAW写真(FP16)は美しいが巨大。JPEGに圧縮(INT8/INT4)すると、ファイルは何分の1にも小さくなるのに、見た目はほとんど変わらない。量子化も同じで、少しの精度を犠牲に、大きな軽さを得る。驚くのは「動くこと」より「失うものがこれほど少ないこと」だ。

重みの数や役割が変わるわけではない——器(モデル)はそのまま、表現の細かさだけを粗くするイメージだ。だからモデルの構造を知っていると理解が早い(LLMの重みと仕組みを参照)。

2. どれだけ軽くなる?(メモリの数字)

効果は数字で見ると一目瞭然だ。1つの重みあたりの容量は、FP32=4バイト、INT8=1バイト、INT4=0.5バイト。つまり4ビット化すればFP16比で約4分の1のメモリで済む。

精度 1重みあたり 70Bモデルの目安 8Bモデルの目安
FP16(量子化なし) 2バイト ~140GB ~16GB
INT8 1バイト ~70GB ~8GB
INT4 0.5バイト ~35GB ~4.5〜5GB

※目安。実際は形式・オーバーヘッド・コンテキスト長で変動する。

インパクトは大きい。70Bモデルが140GB→35GBになれば、A100を何枚も並べる代わりに現実的な構成で動く。8Bモデルを4ビット化すれば約5GB——ミドルクラスGPU(VRAM 8GB)に余裕で収まり、手元のPCでローカル実行できる。これが量子化が「LLMの民主化」と呼ばれる理由だ。

3. 精度はどれだけ落ちる?

気になるのは「軽くした分、バカになるのでは?」という点。答えは「思ったより落ちない。ただしビット数とタスク次第」だ。

🟢 INT8:ほぼ無損失

多くのLLMで性能低下はごくわずか。メモリを半分にしつつ品質を保ちたいときの無難な選択。

🟡 INT4:賢い手法なら実用的

一般的なQ&Aや常識タスクなら劣化は4%未満との報告。ただし数学・コード生成・難しい推論では低下が目立ちやすいので注意。

精度低下は専門的には「パープレキシティ(困惑度)の微増」として現れる。ポイントは「用途に合うビット数を選ぶ」こと——チャットや要約ならINT4で十分なことが多いが、コード生成や厳密な計算が要るなら、INT8や量子化なしを検討する。最終的には自分のタスクで評価して許容範囲を確かめよう。

4. 主な手法:GPTQ/AWQ/GGUF/QLoRA

量子化にはいくつかの代表的な手法・形式がある。名前を知っておくと、モデル選びやツール選びで迷わない。

手法・形式 特徴 向いている場面
GPTQ 精度を保ったまま4ビット圧縮を実現した先駆け。 GPUでの推論
AWQ 重要な約1%の重みを見極めて保護。GPTQより1〜2%高精度+高速なことが多い。 高速・高効率な本番推論
GGUF llama.cpp/Ollamaの形式。Q2_K〜Q8_0の段階を選べ、CPU+GPU併用も可能。 手元PCでローカル実行
QLoRA 4ビットの土台モデルにLoRAを組み合わせ、家庭用GPUで微調整を可能に。 低コストなファインチューニング

初心者がローカルで試すなら、OllamaでGGUF形式のモデルを使うのが最も手軽。GPUでの本番推論を効率化したいならAWQが有力。大きなモデルを安く微調整したいならQLoRA——と覚えておけば十分だ。

5. 蒸留・ファインチューニングとの違い

量子化は、蒸留ファインチューニングと並ぶ「モデル効率化・最適化」技術。混同しやすいので、狙いの違いを押さえよう。

⚖️ 量子化

同じモデルの重みを軽くする。中身は同じモデル、表現を粗くするだけ。

🧑‍🏫 蒸留

別の小さいモデルに知識を移す。器そのものを小さく作り直す。

🎯 ファインチューニング

特定用途に追加学習。サイズは概ね同じで、専門知識を足す。

3つは排他ではなく、組み合わせて使うのが普通だ。たとえば「蒸留で小さくした生徒モデルを、さらに量子化してスマホに載せる」、あるいはQLoRAのように「量子化した土台にファインチューニング」——といった具合に重ねられる。

6. 始め方とビット数の選び方

難しい実装は不要。多くの量子化済みモデルが配布されているので、ダウンロードして使うだけでいい。迷ったら次の目安で選ぼう。

1

まずローカルで試すなら GGUF(Ollama)

Ollamaで量子化済みモデルを1コマンドで実行。まずは触ってみるのが早い。

2

VRAMに合わせてビット数を選ぶ

VRAMが厳しいならINT4(Q4)、余裕があり品質重視ならINT8(Q8)。一般用途はQ4で十分なことが多い。

3

用途で精度を見極める

コード生成や厳密な計算が要るなら、INT4を避けてINT8以上に。チャット・要約ならINT4で快適。

まとめ

量子化は、巨大なAIを「自分の手元で動かせる軽さ」に変える立役者だ。要点を振り返ろう。

この記事の要点

  • ⚖️ 重みの精度を下げて軽量化(FP16→INT8→INT4)。写真の圧縮と同じ発想。
  • 📉 4ビットでメモリ約1/4。70Bが140GB→35GB、8Bは約5GBで家庭用GPUに。
  • 🎯 精度低下は小さい。INT8はほぼ無損失、INT4は一般用途で4%未満(数学・コードは要注意)。
  • 🛠️ 手法:GPTQ/AWQ/GGUF(Ollama)/QLoRA。ローカルはGGUFが手軽。
  • 🔀 蒸留・FTと別物:同じ器を軽くする/別の小さい器に移す/専門知識を足す。

「賢さはそのまま、重さだけ落とす」。量子化はAIを身近にする最も実用的な一手だ。まずはローカルLLMでQ4のモデルを動かしてみよう。関連技術はモデル蒸留、仕組みの土台はLLMの重みもどうぞ。

FAQ

Q. 量子化すると頭が悪くなる?

A. 思ったより落ちません。INT8はほぼ無損失、INT4でも一般的なQ&Aや常識タスクなら劣化は4%未満との報告があります。ただし数学・コード生成・難しい推論では差が目立ちやすいので、用途に応じてビット数を選びましょう。

Q. Q4・Q8って何?どれを選べばいい?

A. GGUF形式の量子化レベルで、数字が小さいほど軽く(粗く)なります。VRAMが厳しければQ4、品質重視で余裕があればQ8が目安。チャットや要約などの一般用途は、Q4でも快適に使えることが多いです。

Q. 量子化と蒸留はどちらを使えばいい?

A. 目的が違います。手元にあるモデルをそのまま軽くしたいなら量子化、より小さな専用モデルを新しく作りたいなら蒸留。両方を組み合わせて、蒸留した小モデルをさらに量子化することもよくあります。

Q. 自分で量子化する必要はある?

A. たいていは不要です。主要モデルはすでに量子化済みのものが配布されており、Ollama等でダウンロードしてすぐ使えます。自分で量子化するのは、独自モデルや特殊な要件があるときに限られます。