"庞大而高性能的 AI,聪明但又重又贵。"解决这一难题的技术,就是模型蒸馏(知识蒸馏)。通过把大"教师"模型的知识转移到小"学生"模型,就能以十分之一的体积和速度,保留教师 95% 以上的性能——这正是一种"鱼与熊掌兼得"的技术。
本文用教师与学生的比喻,面向初学者讲解蒸馏的原理,并梳理它的好处、两种方式,以及它与微调和量化的区别。此外,还会不带夸张地深入探讨在 2026 年引发广泛关注的"蒸馏的法律与条款问题"(OpenAI 诉 DeepSeek 的纠纷,以及各家的反蒸馏条款)。
把大教师的知识,转移到小学生
— 以十分之一的体积,保留 95% 以上的性能
※本文的数据与案例引用自各类公开资料与报道(截至 2026 年 6 月)。法律要点仅为一般性梳理,具体个案请咨询专家并查证官方信息。
1. 什么是模型蒸馏?用教师与学生来打比方
模型蒸馏,是指让小"学生(student)"模型学习并再现大而高性能的"教师(teacher)"模型的行为的技术。学生通过模仿教师的输出,即使体积小得多,也能获得接近教师的能力。一个真实的例子是,据说 GPT-4o mini 就是从 GPT-4o 蒸馏而来。
关键在于"软标签":普通训练只教"答案是猫"(硬标签),而蒸馏会把教师给出的"90% 猫、8% 狗、2% 狐狸"这样的整个概率分布都传给学生。这种"犹豫的程度"中,蕴含着仅凭答案无法传达的丰富信息。此外,还会用一个叫温度(Temperature)的参数把概率"软化",让相似类别之间的微妙关系也能显现出来。
用人来打比方,就像老手(教师)教新人(学生)时,不只说"这是猫",还把判断的微妙之处——"是猫,不过也是和狗有点难分的边界情况"——一并教给对方。所以学生比起死记硬背,能学得更深、更高效。如果了解LLM 的工作原理,就能明白为什么概率分布的信息量如此丰富。
2. 为什么要蒸馏?(好处)
蒸馏的目的很简单——"在尽量保留聪明的前提下,让它更轻、更快、更便宜"。具体好处如下。
⚡ 又快又便宜
计算量小,延迟低、成本低。在大量请求的生产环境中尤其见效。
📦 约 10 倍紧凑
有报告称,仅为教师十分之一的体积,也能保留95% 以上的性能。
📱 可在边缘端运行
即便在手机、设备等资源受限的环境中也容易运行。
🎯 擅长用途专精
容易做出体积虽小但精度很高的专用任务模型。
简而言之,蒸馏是一座桥梁,把"旗舰级的聪明"落地为"现场可承受的成本"。对于像智能体这样需要大量调用的用途,成本差距会不断累积,因此价值尤其大。
3. 两种方式:白盒/黑盒
蒸馏按对教师模型"内部"能访问到什么程度分为两类。这也与后半部分的法律要点直接相关。
白盒蒸馏
指能完全访问教师的权重和内部表示的情形。学生不仅能学到输出,还能学到内部的判断过程,因此转移得更深入。当教师是自家模型或 OSS 模型时可用。
黑盒蒸馏
指只能看到教师的输出(API 响应)的情形。收集输入输出的配对,让学生在其上学习。把别家的 API 当作教师,可能构成违反条款(见下文)。
4. 与量化、微调的区别
蒸馏容易与同样是"让模型变轻/改变模型"的相似技术——量化和微调——混淆。它们的目标不同,下面来梳理一下。
| 技术 | 做什么 | 目标 |
|---|---|---|
| 蒸馏 | 让另一个小模型学习大模型的知识 | 又小又快,同时尽量保留性能 |
| 量化 | 降低同一模型权重的精度以进行压缩 | 节省内存、提速(内部还是同一个模型) |
| 微调 | 对现有模型针对特定任务追加训练 | 适配用途/领域(体积大致不变) |
粗略地说,蒸馏="把智慧转移到另一个更小的容器里",量化="把同一个容器变轻",微调="在同一个容器里添加专业知识"。三者并不互斥,经常组合使用(例如:把蒸馏出的小模型再做量化)。
5. 法律与服务条款的现实(重要)
这正是 2026 年成为重大争议的部分。蒸馏这项技术本身完全正当。会成为问题的是"用谁的输出、用来做什么"。
核心:OpenAI、Anthropic、Mistral、xAI 等的使用条款中,都有"不得将自家服务的输出用于开发竞争模型"的反蒸馏(anti-competitive distillation)条款。也就是说,把受限 API 的输出当作教师去蒸馏出竞争模型这一行为,即便技术上可行,也可能构成违反条款。
这一点演变为现实纠纷的,正是OpenAI 诉 DeepSeek 的事件。据报道,OpenAI 主张"疑似与 DeepSeek 相关的账号绕过访问限制获取模型输出,并将其用于蒸馏"(2026 年初)。而另一方面,据称 DeepSeek 一方的使用条款允许将自家服务的输出用于训练其他模型(包括蒸馏)。要点在于,评估结果会因"适用谁的 API 条款"而改变。
这一议题也给最新模型蒙上阴影。据报道,Claude Fable 5 / Mythos 5 采用了一种设计:当安全分类器判定为"模型蒸馏"的作业时,会限制其响应。围绕蒸馏的紧张关系,在监管和各家政策两方面都仍在持续。在实务上,铁律就是务必确认所用教师模型的使用条款。
安全蒸馏的要诀
- 把自家模型、已获授权的 OSS 模型当作教师(多数允许蒸馏)
- 在把别家的商用 API 当作教师之前,确认其条款中的反蒸馏条款
- 尤其要慎重判断该用途是否构成"开发竞争模型"
总结
模型蒸馏是一项强大的技术,把大 AI 的聪明转移到小 AI,使其落地为现场可承受的成本。让我们回顾要点。
本文要点
- 🧑🏫 教师→学生:把大模型的知识转移到小模型。软标签+温度是关键。
- ⚡ 约 10 倍更小、更快,并保留 95% 以上的性能。适合边缘端、低成本运营。
- 🔓 方式有两种:能看到内部的白盒/只看输出的黑盒。
- 🔀 与量化、微调不同:转移容器/变轻/添加专业知识,三者各不相同。
- ⚖️ 留意条款:技术正当,但用受限 API 的输出去打造竞品,可能违反 ToS。
"聪明靠大模型,运营靠小模型。"蒸馏让这种兼顾成为可能。不过选谁当教师,会在技术和法律两方面改变结果。原理基础可参阅什么是 LLM,相关技术也可一并参考微调。
FAQ
Q. 蒸馏会让性能下降多少?
A. 视用途而定,但有报告称,设计得当的蒸馏可"以十分之一的体积保留 95% 以上的性能"。它并不完全相同,因此请务必通过评估确认是否在可接受范围内。
Q. 蒸馏与量化该如何区分使用?
A. 蒸馏是"把知识转移到另一个更小的模型",量化是"压缩同一模型的权重"。二者目标不同,因此并不互斥,把蒸馏出的小模型再做量化等组合也很常见。
Q. 可以用别家 AI 的输出来打造自己的模型吗?
A. 取决于该提供方的使用条款。OpenAI、Anthropic 等都设有禁止"将输出用于开发竞争模型"的反蒸馏条款。即便技术上可行也可能违反条款,因此请务必确认所用作教师的服务的条款。
Q. 初学者也能做蒸馏吗?
A. 概念虽简单,但实现需要机器学习的知识。建议先从理解原理入手。各大云厂商(如 Azure 等)也提供辅助蒸馏的服务,因此相比从零搭建,已有更易上手的选项越来越多。