什么是量化？让 AI 模型瘦身的通俗讲解

1. 什么是量化？就像压缩照片
2. 能轻多少？（内存数字）
3. 精度会损失多少？
4. 主要方法：GPTQ / AWQ / GGUF / QLoRA
5. 与蒸馏、微调的区别
6. 如何开始与如何选位宽
总结
FAQ

「一个庞大的 70B（700亿参数）模型，不需要数据中心的 GPU 机架，在家里一台游戏 PC 上就能运行。」让这成为可能的就是量化（quantization）——一种降低模型权重的数值精度，从而大幅缩小其体积和内存需求的技术。

上一篇的模型蒸馏是「把知识转移到另一个更小的模型里」，而量化则是「让同一个模型变轻」。本文用照片压缩的比喻来讲解它，并介绍它能轻多少（内存数字）、精度的取舍、主要方法（GPTQ / AWQ / GGUF / QLoRA），以及如何在本地运行——全部面向初学者。

量化 · 降低精度来减重

降低位宽，VRAM 会大幅下降

— 示例：70B 模型所需的内存

FP16

~140GB

INT8

~70GB

INT4

~35GB

4-bit 内存约减少 ~4x 在消费级 GPU 上运行精度只略有下降

* 本文的内存估算与数字均引用自各类公开资料（截至 2026 年 6 月）。实际需求会因模型、格式和上下文长度而变化，请作为大致方向参考。

1. 什么是量化？就像压缩照片

量化是指降低模型权重（参数）的数值精度。AI 的权重通常以 FP16/FP32（16/32 位小数）存储，而量化把它们替换成 INT8（8 位）或 INT4（4 位）这样的整数。这样每个权重占用的空间变小，整个模型就轻了很多。

不妨把它想成「压缩一张高清照片」：原始的 RAW 照片（FP16）很漂亮，但体积巨大。把它压缩成 JPEG（INT8/INT4），文件会缩小到原来的几分之一，看上去却几乎一模一样。量化也是如此——牺牲一点点精度，换来大幅的减重。令人惊讶的不是它能用，而是你放弃的东西竟然这么少。

权重的数量和作用并不会改变——容器（模型）保持不变，只是把表示的精细度变粗了。所以了解模型的结构会有帮助（参见LLM 权重的工作原理）。

2. 能轻多少？（内存数字）

用数字来看效果一目了然。每个权重：FP32 = 4 字节，INT8 = 1 字节，INT4 = 0.5 字节。所以用 4-bit，内存约为 FP16 的四分之一。

精度	每个权重	70B 模型（约）	8B 模型（约）
FP16（不量化）	2 字节	~140GB	~16GB
INT8	1 字节	~70GB	~8GB
INT4	0.5 字节	~35GB	~4.5-5GB

* 为大致估算。实际数值会随格式、开销和上下文长度而变化。

影响是巨大的。如果一个 70B 模型从 140GB 降到 35GB，那就能用现实可行的配置来运行，而不必并排多块 A100。把一个 8B 模型量化到 4-bit，大约只有 5GB——能轻松塞进中端 GPU（8GB VRAM），于是你就可以在自己的电脑上本地运行。这正是量化被称为「LLM 民主化」的原因。

3. 精度会损失多少？

大家担心的是：「变轻之后会不会变笨？」答案是「比你想的要少——但要看位宽和任务」。

🟢 INT8：几乎无损

对大多数 LLM 而言，性能下降极小。当你想把内存减半又要保持质量时，这是个稳妥的选择。

🟡 INT4：配合聪明的方法即可实用

对一般问答和常识类任务，据报告退化不到 4%。但在数学、代码生成和高难度推理上，损失会更明显，需要留意。

精度损失在技术上表现为「困惑度（perplexity）的小幅上升」。关键在于「选择适合任务的位宽」——对于聊天或摘要，INT4 往往就足够了；但对于代码生成或精确计算，应考虑 INT8 或不量化。最终，还是要在你自己的任务上做评估，确认它在可接受范围内。

4. 主要方法：GPTQ / AWQ / GGUF / QLoRA

量化有几种有代表性的方法和格式。知道这些名字，挑选模型和工具时就不会犯迷糊。

方法 / 格式	特点	适合场景
GPTQ	在保持精度的同时实现 4-bit 压缩的先驱。	GPU 推理
AWQ	识别并保护最重要的约 ~1% 权重。往往比 GPTQ 精度高 1-2% 且更快。	高速、高效的生产推理
GGUF	llama.cpp / Ollama 的格式。可选 Q2_K-Q8_0 等级，支持 CPU+GPU 混合。	在自己的电脑上本地运行
QLoRA	将 4-bit 基础模型与 LoRA 结合，让在消费级 GPU 上微调成为可能。	低成本微调

对想在本地尝试的初学者来说，用 Ollama 跑一个 GGUF 模型是最简单的路径。要优化生产环境的 GPU 推理，AWQ 是个有力的选择。要低成本地微调大模型，就用 QLoRA——只记住这些就够了。

5. 与蒸馏、微调的区别

量化是与蒸馏和微调并列的「模型效率/优化」技术。它们容易混淆，所以要记住目标上的不同。

⚖️ 量化

让同一个模型的权重变轻。里面还是同一个模型，只是表示更粗了。

🧑‍🏫 蒸馏

把知识转移到另一个更小的模型里。把容器重新做小。

🎯 微调

为特定用途进一步训练。大小大致不变，增添领域知识。

这三者并不互斥——通常会组合使用。例如「把蒸馏后变小的学生模型再量化，以便塞进手机」，或者像 QLoRA 那样「在量化后的基础模型上做微调」。它们可以叠加。

6. 如何开始与如何选位宽

不需要复杂的实现。许多已经量化好的模型都已发布，所以你可以直接下载来用。拿不定主意时，就按下面的指南来选。

想先在本地试试，就用 GGUF（Ollama）

用 Ollama 一条命令就能跑起一个量化模型。亲手动一动，是最快的学习方式。

根据你的 VRAM 选位宽

VRAM 紧张？选 INT4（Q4）。有余量又想要质量？选 INT8（Q8）。一般用途用 Q4 通常就够了。

按使用场景判断精度

对代码生成或精确计算，避开 INT4，用 INT8 及以上。对聊天和摘要，INT4 用着很舒服。

总结

量化是把庞大的 AI 变得足够轻、能在你自己的机器上运行的关键推手。我们来回顾一下。

本文要点

⚖️ 降低权重精度来缩小体积（FP16→INT8→INT4）。和照片压缩是同一个思路。
📉 4-bit 内存约减少 ~4x。70B 从 140GB→35GB；8B 约 5GB，可上消费级 GPU。
🎯 精度损失很小。INT8 几乎无损；INT4 在一般用途下不到 4%（注意数学/代码）。
🛠️ 方法：GPTQ / AWQ / GGUF（Ollama）/ QLoRA。本地用 GGUF 最简单。
🔀 与蒸馏/微调不同：减轻同一个容器 / 转移到更小的容器 / 增添领域知识。

「保留聪明，只去掉重量。」量化是让 AI 变得触手可及最实用的一步。先从在本地 LLM 上跑一个 Q4 模型开始吧。相关技术可参见模型蒸馏；基础知识可看LLM 权重。

FAQ

Q. 量化会让模型变笨吗？

A. 比你想的要少。INT8 几乎无损，即便是 INT4，据报告在一般问答和常识类任务上退化也不到 4%。但在数学、代码生成和高难度推理上差距更明显，所以要按使用场景来选位宽。

Q. Q4 / Q8 是什么，我该选哪个？

A. 它们是 GGUF 的量化等级——数字越小越轻（越粗）。VRAM 紧张就选 Q4；有余量又想要质量就选 Q8。对聊天或摘要这类一般用途，Q4 往往用着很舒服。

Q. 我该用量化还是蒸馏？

A. 目标不同。要让你已经有的模型变轻，就量化它；要全新创建一个更小的专用模型，就用蒸馏。它们也常被组合使用——把蒸馏后的小模型再进一步量化是很常见的做法。

Q. 我需要自己来量化模型吗？

A. 通常不需要。主流模型已经以量化形式发布，可以通过 Ollama 等工具下载后立即使用。只有在自定义模型或有特殊需求时，才需要自己来量化。

什么是量化？把 AI 模型缩小，在你自己的机器上运行

降低位宽，VRAM 会大幅下降

1. 什么是量化？就像压缩照片

2. 能轻多少？（内存数字）

3. 精度会损失多少？

4. 主要方法：GPTQ / AWQ / GGUF / QLoRA

5. 与蒸馏、微调的区别

6. 如何开始与如何选位宽

总结

FAQ

相关文章

主流生成AI知识截止日期一览｜ChatGPT、Claude、Gemini全面对比

什么是生成式AI？与传统AI的区别通俗解析

生成AI擅长的和不擅长的｜能做什么、不能做什么？真实案例全面解析

什么是LLM？大语言模型的工作原理、主流模型与应用场景

评论

发表评论