目录
「一个庞大的 70B(700亿参数)模型,不需要数据中心的 GPU 机架,在家里一台游戏 PC 上就能运行。」让这成为可能的就是量化(quantization)——一种降低模型权重的数值精度,从而大幅缩小其体积和内存需求的技术。
上一篇的模型蒸馏是「把知识转移到另一个更小的模型里」,而量化则是「让同一个模型变轻」。本文用照片压缩的比喻来讲解它,并介绍它能轻多少(内存数字)、精度的取舍、主要方法(GPTQ / AWQ / GGUF / QLoRA),以及如何在本地运行——全部面向初学者。
降低位宽,VRAM 会大幅下降
— 示例:70B 模型所需的内存
* 本文的内存估算与数字均引用自各类公开资料(截至 2026 年 6 月)。实际需求会因模型、格式和上下文长度而变化,请作为大致方向参考。
1. 什么是量化?就像压缩照片
量化是指降低模型权重(参数)的数值精度。AI 的权重通常以 FP16/FP32(16/32 位小数)存储,而量化把它们替换成 INT8(8 位)或 INT4(4 位)这样的整数。这样每个权重占用的空间变小,整个模型就轻了很多。
不妨把它想成「压缩一张高清照片」:原始的 RAW 照片(FP16)很漂亮,但体积巨大。把它压缩成 JPEG(INT8/INT4),文件会缩小到原来的几分之一,看上去却几乎一模一样。量化也是如此——牺牲一点点精度,换来大幅的减重。令人惊讶的不是它能用,而是你放弃的东西竟然这么少。
权重的数量和作用并不会改变——容器(模型)保持不变,只是把表示的精细度变粗了。所以了解模型的结构会有帮助(参见LLM 权重的工作原理)。
2. 能轻多少?(内存数字)
用数字来看效果一目了然。每个权重:FP32 = 4 字节,INT8 = 1 字节,INT4 = 0.5 字节。所以用 4-bit,内存约为 FP16 的四分之一。
| 精度 | 每个权重 | 70B 模型(约) | 8B 模型(约) |
|---|---|---|---|
| FP16(不量化) | 2 字节 | ~140GB | ~16GB |
| INT8 | 1 字节 | ~70GB | ~8GB |
| INT4 | 0.5 字节 | ~35GB | ~4.5-5GB |
* 为大致估算。实际数值会随格式、开销和上下文长度而变化。
影响是巨大的。如果一个 70B 模型从 140GB 降到 35GB,那就能用现实可行的配置来运行,而不必并排多块 A100。把一个 8B 模型量化到 4-bit,大约只有 5GB——能轻松塞进中端 GPU(8GB VRAM),于是你就可以在自己的电脑上本地运行。这正是量化被称为「LLM 民主化」的原因。
3. 精度会损失多少?
大家担心的是:「变轻之后会不会变笨?」答案是「比你想的要少——但要看位宽和任务」。
🟢 INT8:几乎无损
对大多数 LLM 而言,性能下降极小。当你想把内存减半又要保持质量时,这是个稳妥的选择。
🟡 INT4:配合聪明的方法即可实用
对一般问答和常识类任务,据报告退化不到 4%。但在数学、代码生成和高难度推理上,损失会更明显,需要留意。
精度损失在技术上表现为「困惑度(perplexity)的小幅上升」。关键在于「选择适合任务的位宽」——对于聊天或摘要,INT4 往往就足够了;但对于代码生成或精确计算,应考虑 INT8 或不量化。最终,还是要在你自己的任务上做评估,确认它在可接受范围内。
4. 主要方法:GPTQ / AWQ / GGUF / QLoRA
量化有几种有代表性的方法和格式。知道这些名字,挑选模型和工具时就不会犯迷糊。
对想在本地尝试的初学者来说,用 Ollama 跑一个 GGUF 模型是最简单的路径。要优化生产环境的 GPU 推理,AWQ 是个有力的选择。要低成本地微调大模型,就用 QLoRA——只记住这些就够了。
5. 与蒸馏、微调的区别
量化是与蒸馏和微调并列的「模型效率/优化」技术。它们容易混淆,所以要记住目标上的不同。
⚖️ 量化
让同一个模型的权重变轻。里面还是同一个模型,只是表示更粗了。
🧑🏫 蒸馏
把知识转移到另一个更小的模型里。把容器重新做小。
🎯 微调
为特定用途进一步训练。大小大致不变,增添领域知识。
这三者并不互斥——通常会组合使用。例如「把蒸馏后变小的学生模型再量化,以便塞进手机」,或者像 QLoRA 那样「在量化后的基础模型上做微调」。它们可以叠加。
6. 如何开始与如何选位宽
不需要复杂的实现。许多已经量化好的模型都已发布,所以你可以直接下载来用。拿不定主意时,就按下面的指南来选。
想先在本地试试,就用 GGUF(Ollama)
用 Ollama 一条命令就能跑起一个量化模型。亲手动一动,是最快的学习方式。
根据你的 VRAM 选位宽
VRAM 紧张?选 INT4(Q4)。有余量又想要质量?选 INT8(Q8)。一般用途用 Q4 通常就够了。
按使用场景判断精度
对代码生成或精确计算,避开 INT4,用 INT8 及以上。对聊天和摘要,INT4 用着很舒服。
总结
量化是把庞大的 AI 变得足够轻、能在你自己的机器上运行的关键推手。我们来回顾一下。
本文要点
- ⚖️ 降低权重精度来缩小体积(FP16→INT8→INT4)。和照片压缩是同一个思路。
- 📉 4-bit 内存约减少 ~4x。70B 从 140GB→35GB;8B 约 5GB,可上消费级 GPU。
- 🎯 精度损失很小。INT8 几乎无损;INT4 在一般用途下不到 4%(注意数学/代码)。
- 🛠️ 方法:GPTQ / AWQ / GGUF(Ollama)/ QLoRA。本地用 GGUF 最简单。
- 🔀 与蒸馏/微调不同:减轻同一个容器 / 转移到更小的容器 / 增添领域知识。
「保留聪明,只去掉重量。」量化是让 AI 变得触手可及最实用的一步。先从在本地 LLM 上跑一个 Q4 模型开始吧。相关技术可参见模型蒸馏;基础知识可看LLM 权重。
FAQ
Q. 量化会让模型变笨吗?
A. 比你想的要少。INT8 几乎无损,即便是 INT4,据报告在一般问答和常识类任务上退化也不到 4%。但在数学、代码生成和高难度推理上差距更明显,所以要按使用场景来选位宽。
Q. Q4 / Q8 是什么,我该选哪个?
A. 它们是 GGUF 的量化等级——数字越小越轻(越粗)。VRAM 紧张就选 Q4;有余量又想要质量就选 Q8。对聊天或摘要这类一般用途,Q4 往往用着很舒服。
Q. 我该用量化还是蒸馏?
A. 目标不同。要让你已经有的模型变轻,就量化它;要全新创建一个更小的专用模型,就用蒸馏。它们也常被组合使用——把蒸馏后的小模型再进一步量化是很常见的做法。
Q. 我需要自己来量化模型吗?
A. 通常不需要。主流模型已经以量化形式发布,可以通过 Ollama 等工具下载后立即使用。只有在自定义模型或有特殊需求时,才需要自己来量化。