量子化とは？AIモデルを軽くする仕組みを初心者向けに

Q: 量子化すると頭が悪くなる？

思ったより落ちません。INT8はほぼ無損失、INT4でも一般的なQ&amp;Aや常識タスクなら劣化は4%未満との報告があります。ただし数学・コード生成・難しい推論では差が目立ちやすいので、用途に応じてビット数を選びましょう。

1. 量子化とは？写真の圧縮にたとえる
2. どれだけ軽くなる？（メモリの数字）
3. 精度はどれだけ落ちる？
4. 主な手法：GPTQ／AWQ／GGUF／QLoRA
5. 蒸留・ファインチューニングとの違い
6. 始め方とビット数の選び方
まとめ
FAQ

「70B（700億パラメータ）の巨大モデルが、データセンターのGPUラックではなく手元のゲーミングPC1台で動く」——これを可能にするのが量子化（quantization）だ。モデルの重みの数値精度を下げて、サイズと必要メモリを劇的に小さくする技術である。

前回のモデル蒸留が「別の小さいモデルに知識を移す」技術だったのに対し、量子化は「同じモデルを軽くする」技術。本記事は仕組みを写真の圧縮のたとえで解説し、どれだけ軽くなるか（メモリの数字）、精度のトレードオフ、主な手法（GPTQ／AWQ／GGUF／QLoRA）、そしてローカルでの動かし方まで初心者向けに整理する。

量子化 · 精度を下げて軽くする

ビット数を下げると、VRAMは劇的に減る

— 例：70Bモデルに必要なメモリ

FP16

~140GB

INT8

~70GB

INT4

~35GB

4ビットでメモリ約1/4 家庭用GPUで動く精度は少しだけ低下

※本記事のメモリ目安・数値は各種公表資料の引用（2026年6月時点）。実際の必要量はモデル・形式・コンテキスト長などで変わるため、傾向の参考に。

1. 量子化とは？写真の圧縮にたとえる

量子化とは、モデルの重み（パラメータ）の数値精度を下げること。AIの重みは通常FP16/FP32（16/32ビットの小数）で表されるが、これをINT8（8ビット）やINT4（4ビット）の整数に置き換える。すると1つの重みあたりの容量が減り、モデル全体が大幅に軽くなる。

たとえるなら「高精細写真の圧縮」：元のRAW写真（FP16）は美しいが巨大。JPEGに圧縮（INT8/INT4）すると、ファイルは何分の1にも小さくなるのに、見た目はほとんど変わらない。量子化も同じで、少しの精度を犠牲に、大きな軽さを得る。驚くのは「動くこと」より「失うものがこれほど少ないこと」だ。

重みの数や役割が変わるわけではない——器（モデル）はそのまま、表現の細かさだけを粗くするイメージだ。だからモデルの構造を知っていると理解が早い（LLMの重みと仕組みを参照）。

2. どれだけ軽くなる？（メモリの数字）

効果は数字で見ると一目瞭然だ。1つの重みあたりの容量は、FP32＝4バイト、INT8＝1バイト、INT4＝0.5バイト。つまり4ビット化すればFP16比で約4分の1のメモリで済む。

精度	1重みあたり	70Bモデルの目安	8Bモデルの目安
FP16（量子化なし）	2バイト	~140GB	~16GB
INT8	1バイト	~70GB	~8GB
INT4	0.5バイト	~35GB	~4.5〜5GB

※目安。実際は形式・オーバーヘッド・コンテキスト長で変動する。

インパクトは大きい。70Bモデルが140GB→35GBになれば、A100を何枚も並べる代わりに現実的な構成で動く。8Bモデルを4ビット化すれば約5GB——ミドルクラスGPU（VRAM 8GB）に余裕で収まり、手元のPCでローカル実行できる。これが量子化が「LLMの民主化」と呼ばれる理由だ。

3. 精度はどれだけ落ちる？

気になるのは「軽くした分、バカになるのでは？」という点。答えは「思ったより落ちない。ただしビット数とタスク次第」だ。

🟢 INT8：ほぼ無損失

多くのLLMで性能低下はごくわずか。メモリを半分にしつつ品質を保ちたいときの無難な選択。

🟡 INT4：賢い手法なら実用的

一般的なQ&Aや常識タスクなら劣化は4%未満との報告。ただし数学・コード生成・難しい推論では低下が目立ちやすいので注意。

精度低下は専門的には「パープレキシティ（困惑度）の微増」として現れる。ポイントは「用途に合うビット数を選ぶ」こと——チャットや要約ならINT4で十分なことが多いが、コード生成や厳密な計算が要るなら、INT8や量子化なしを検討する。最終的には自分のタスクで評価して許容範囲を確かめよう。

4. 主な手法：GPTQ／AWQ／GGUF／QLoRA

量子化にはいくつかの代表的な手法・形式がある。名前を知っておくと、モデル選びやツール選びで迷わない。

手法・形式	特徴	向いている場面
GPTQ	精度を保ったまま4ビット圧縮を実現した先駆け。	GPUでの推論
AWQ	重要な約1%の重みを見極めて保護。GPTQより1〜2%高精度＋高速なことが多い。	高速・高効率な本番推論
GGUF	llama.cpp／Ollamaの形式。Q2_K〜Q8_0の段階を選べ、CPU+GPU併用も可能。	手元PCでローカル実行
QLoRA	4ビットの土台モデルにLoRAを組み合わせ、家庭用GPUで微調整を可能に。	低コストなファインチューニング

初心者がローカルで試すなら、OllamaでGGUF形式のモデルを使うのが最も手軽。GPUでの本番推論を効率化したいならAWQが有力。大きなモデルを安く微調整したいならQLoRA——と覚えておけば十分だ。

5. 蒸留・ファインチューニングとの違い

量子化は、蒸留やファインチューニングと並ぶ「モデル効率化・最適化」技術。混同しやすいので、狙いの違いを押さえよう。

⚖️ 量子化

同じモデルの重みを軽くする。中身は同じモデル、表現を粗くするだけ。

🧑‍🏫 蒸留

別の小さいモデルに知識を移す。器そのものを小さく作り直す。

🎯 ファインチューニング

特定用途に追加学習。サイズは概ね同じで、専門知識を足す。

3つは排他ではなく、組み合わせて使うのが普通だ。たとえば「蒸留で小さくした生徒モデルを、さらに量子化してスマホに載せる」、あるいはQLoRAのように「量子化した土台にファインチューニング」——といった具合に重ねられる。

6. 始め方とビット数の選び方

難しい実装は不要。多くの量子化済みモデルが配布されているので、ダウンロードして使うだけでいい。迷ったら次の目安で選ぼう。

まずローカルで試すなら GGUF（Ollama）

Ollamaで量子化済みモデルを1コマンドで実行。まずは触ってみるのが早い。

VRAMに合わせてビット数を選ぶ

VRAMが厳しいならINT4（Q4）、余裕があり品質重視ならINT8（Q8）。一般用途はQ4で十分なことが多い。

用途で精度を見極める

コード生成や厳密な計算が要るなら、INT4を避けてINT8以上に。チャット・要約ならINT4で快適。

まとめ

量子化は、巨大なAIを「自分の手元で動かせる軽さ」に変える立役者だ。要点を振り返ろう。

この記事の要点

⚖️ 重みの精度を下げて軽量化（FP16→INT8→INT4）。写真の圧縮と同じ発想。
📉 4ビットでメモリ約1/4。70Bが140GB→35GB、8Bは約5GBで家庭用GPUに。
🎯 精度低下は小さい。INT8はほぼ無損失、INT4は一般用途で4%未満（数学・コードは要注意）。
🛠️ 手法：GPTQ／AWQ／GGUF（Ollama）／QLoRA。ローカルはGGUFが手軽。
🔀 蒸留・FTと別物：同じ器を軽くする／別の小さい器に移す／専門知識を足す。

「賢さはそのまま、重さだけ落とす」。量子化はAIを身近にする最も実用的な一手だ。まずはローカルLLMでQ4のモデルを動かしてみよう。関連技術はモデル蒸留、仕組みの土台はLLMの重みもどうぞ。

FAQ

Q. 量子化すると頭が悪くなる？

A. 思ったより落ちません。INT8はほぼ無損失、INT4でも一般的なQ&Aや常識タスクなら劣化は4%未満との報告があります。ただし数学・コード生成・難しい推論では差が目立ちやすいので、用途に応じてビット数を選びましょう。

Q. Q4・Q8って何？どれを選べばいい？

A. GGUF形式の量子化レベルで、数字が小さいほど軽く（粗く）なります。VRAMが厳しければQ4、品質重視で余裕があればQ8が目安。チャットや要約などの一般用途は、Q4でも快適に使えることが多いです。

Q. 量子化と蒸留はどちらを使えばいい？

A. 目的が違います。手元にあるモデルをそのまま軽くしたいなら量子化、より小さな専用モデルを新しく作りたいなら蒸留。両方を組み合わせて、蒸留した小モデルをさらに量子化することもよくあります。

Q. 自分で量子化する必要はある？

A. たいていは不要です。主要モデルはすでに量子化済みのものが配布されており、Ollama等でダウンロードしてすぐ使えます。自分で量子化するのは、独自モデルや特殊な要件があるときに限られます。

量子化（quantization）とは？AIモデルを軽くして手元で動かす仕組み

ビット数を下げると、VRAMは劇的に減る

1. 量子化とは？写真の圧縮にたとえる

2. どれだけ軽くなる？（メモリの数字）

3. 精度はどれだけ落ちる？

4. 主な手法：GPTQ／AWQ／GGUF／QLoRA

5. 蒸留・ファインチューニングとの違い

6. 始め方とビット数の選び方

まとめ

FAQ

関連記事

ChatGPT・Claude・Geminiの知識カットオフ日一覧｜主要8モデルを最新比較

生成AIとは？従来のAIとの違いをわかりやすく解説

生成AIの得意なこと・苦手なこと｜できること・できないことを具体例で解説

LLM（大規模言語モデル）とは？仕組み・主要モデル・活用法をわかりやすく解説

コメント

コメントを投稿