目次
「70B(700億パラメータ)の巨大モデルが、データセンターのGPUラックではなく手元のゲーミングPC1台で動く」——これを可能にするのが量子化(quantization)だ。モデルの重みの数値精度を下げて、サイズと必要メモリを劇的に小さくする技術である。
前回のモデル蒸留が「別の小さいモデルに知識を移す」技術だったのに対し、量子化は「同じモデルを軽くする」技術。本記事は仕組みを写真の圧縮のたとえで解説し、どれだけ軽くなるか(メモリの数字)、精度のトレードオフ、主な手法(GPTQ/AWQ/GGUF/QLoRA)、そしてローカルでの動かし方まで初心者向けに整理する。
ビット数を下げると、VRAMは劇的に減る
— 例:70Bモデルに必要なメモリ
※本記事のメモリ目安・数値は各種公表資料の引用(2026年6月時点)。実際の必要量はモデル・形式・コンテキスト長などで変わるため、傾向の参考に。
1. 量子化とは?写真の圧縮にたとえる
量子化とは、モデルの重み(パラメータ)の数値精度を下げること。AIの重みは通常FP16/FP32(16/32ビットの小数)で表されるが、これをINT8(8ビット)やINT4(4ビット)の整数に置き換える。すると1つの重みあたりの容量が減り、モデル全体が大幅に軽くなる。
たとえるなら「高精細写真の圧縮」:元のRAW写真(FP16)は美しいが巨大。JPEGに圧縮(INT8/INT4)すると、ファイルは何分の1にも小さくなるのに、見た目はほとんど変わらない。量子化も同じで、少しの精度を犠牲に、大きな軽さを得る。驚くのは「動くこと」より「失うものがこれほど少ないこと」だ。
重みの数や役割が変わるわけではない——器(モデル)はそのまま、表現の細かさだけを粗くするイメージだ。だからモデルの構造を知っていると理解が早い(LLMの重みと仕組みを参照)。
2. どれだけ軽くなる?(メモリの数字)
効果は数字で見ると一目瞭然だ。1つの重みあたりの容量は、FP32=4バイト、INT8=1バイト、INT4=0.5バイト。つまり4ビット化すればFP16比で約4分の1のメモリで済む。
| 精度 | 1重みあたり | 70Bモデルの目安 | 8Bモデルの目安 |
|---|---|---|---|
| FP16(量子化なし) | 2バイト | ~140GB | ~16GB |
| INT8 | 1バイト | ~70GB | ~8GB |
| INT4 | 0.5バイト | ~35GB | ~4.5〜5GB |
※目安。実際は形式・オーバーヘッド・コンテキスト長で変動する。
インパクトは大きい。70Bモデルが140GB→35GBになれば、A100を何枚も並べる代わりに現実的な構成で動く。8Bモデルを4ビット化すれば約5GB——ミドルクラスGPU(VRAM 8GB)に余裕で収まり、手元のPCでローカル実行できる。これが量子化が「LLMの民主化」と呼ばれる理由だ。
3. 精度はどれだけ落ちる?
気になるのは「軽くした分、バカになるのでは?」という点。答えは「思ったより落ちない。ただしビット数とタスク次第」だ。
🟢 INT8:ほぼ無損失
多くのLLMで性能低下はごくわずか。メモリを半分にしつつ品質を保ちたいときの無難な選択。
🟡 INT4:賢い手法なら実用的
一般的なQ&Aや常識タスクなら劣化は4%未満との報告。ただし数学・コード生成・難しい推論では低下が目立ちやすいので注意。
精度低下は専門的には「パープレキシティ(困惑度)の微増」として現れる。ポイントは「用途に合うビット数を選ぶ」こと——チャットや要約ならINT4で十分なことが多いが、コード生成や厳密な計算が要るなら、INT8や量子化なしを検討する。最終的には自分のタスクで評価して許容範囲を確かめよう。
4. 主な手法:GPTQ/AWQ/GGUF/QLoRA
量子化にはいくつかの代表的な手法・形式がある。名前を知っておくと、モデル選びやツール選びで迷わない。
初心者がローカルで試すなら、OllamaでGGUF形式のモデルを使うのが最も手軽。GPUでの本番推論を効率化したいならAWQが有力。大きなモデルを安く微調整したいならQLoRA——と覚えておけば十分だ。
5. 蒸留・ファインチューニングとの違い
量子化は、蒸留やファインチューニングと並ぶ「モデル効率化・最適化」技術。混同しやすいので、狙いの違いを押さえよう。
⚖️ 量子化
同じモデルの重みを軽くする。中身は同じモデル、表現を粗くするだけ。
🧑🏫 蒸留
別の小さいモデルに知識を移す。器そのものを小さく作り直す。
🎯 ファインチューニング
特定用途に追加学習。サイズは概ね同じで、専門知識を足す。
3つは排他ではなく、組み合わせて使うのが普通だ。たとえば「蒸留で小さくした生徒モデルを、さらに量子化してスマホに載せる」、あるいはQLoRAのように「量子化した土台にファインチューニング」——といった具合に重ねられる。
6. 始め方とビット数の選び方
難しい実装は不要。多くの量子化済みモデルが配布されているので、ダウンロードして使うだけでいい。迷ったら次の目安で選ぼう。
まずローカルで試すなら GGUF(Ollama)
Ollamaで量子化済みモデルを1コマンドで実行。まずは触ってみるのが早い。
VRAMに合わせてビット数を選ぶ
VRAMが厳しいならINT4(Q4)、余裕があり品質重視ならINT8(Q8)。一般用途はQ4で十分なことが多い。
用途で精度を見極める
コード生成や厳密な計算が要るなら、INT4を避けてINT8以上に。チャット・要約ならINT4で快適。
まとめ
量子化は、巨大なAIを「自分の手元で動かせる軽さ」に変える立役者だ。要点を振り返ろう。
この記事の要点
- ⚖️ 重みの精度を下げて軽量化(FP16→INT8→INT4)。写真の圧縮と同じ発想。
- 📉 4ビットでメモリ約1/4。70Bが140GB→35GB、8Bは約5GBで家庭用GPUに。
- 🎯 精度低下は小さい。INT8はほぼ無損失、INT4は一般用途で4%未満(数学・コードは要注意)。
- 🛠️ 手法:GPTQ/AWQ/GGUF(Ollama)/QLoRA。ローカルはGGUFが手軽。
- 🔀 蒸留・FTと別物:同じ器を軽くする/別の小さい器に移す/専門知識を足す。
「賢さはそのまま、重さだけ落とす」。量子化はAIを身近にする最も実用的な一手だ。まずはローカルLLMでQ4のモデルを動かしてみよう。関連技術はモデル蒸留、仕組みの土台はLLMの重みもどうぞ。
FAQ
Q. 量子化すると頭が悪くなる?
A. 思ったより落ちません。INT8はほぼ無損失、INT4でも一般的なQ&Aや常識タスクなら劣化は4%未満との報告があります。ただし数学・コード生成・難しい推論では差が目立ちやすいので、用途に応じてビット数を選びましょう。
Q. Q4・Q8って何?どれを選べばいい?
A. GGUF形式の量子化レベルで、数字が小さいほど軽く(粗く)なります。VRAMが厳しければQ4、品質重視で余裕があればQ8が目安。チャットや要約などの一般用途は、Q4でも快適に使えることが多いです。
Q. 量子化と蒸留はどちらを使えばいい?
A. 目的が違います。手元にあるモデルをそのまま軽くしたいなら量子化、より小さな専用モデルを新しく作りたいなら蒸留。両方を組み合わせて、蒸留した小モデルをさらに量子化することもよくあります。
Q. 自分で量子化する必要はある?
A. たいていは不要です。主要モデルはすでに量子化済みのものが配布されており、Ollama等でダウンロードしてすぐ使えます。自分で量子化するのは、独自モデルや特殊な要件があるときに限られます。