什么是模型蒸馏？教师到学生，一文讲清

Q: 蒸馏会让性能下降多少？

视用途而定，但有报告称，设计得当的蒸馏可&quot;以十分之一的体积保留 95% 以上的性能&quot;。它并不完全相同，因此请务必通过评估确认是否在可接受范围内。

Q: 蒸馏与量化该如何区分使用？

蒸馏是&quot;把知识转移到另一个更小的模型&quot;，量化是&quot;压缩同一模型的权重&quot;。二者目标不同，因此并不互斥，把蒸馏出的小模型再做量化等组合也很常见。

Q: 可以用别家 AI 的输出来打造自己的模型吗？

取决于该提供方的使用条款。OpenAI、Anthropic 等都设有禁止&quot;将输出用于开发竞争模型&quot;的反蒸馏条款。即便技术上可行也可能违反条款，因此请务必确认所用作教师的服务的条款。

1. 什么是模型蒸馏？用教师与学生来打比方
2. 为什么要蒸馏？（好处）
3. 两种方式：白盒／黑盒
4. 与量化、微调的区别
5. 法律与服务条款的现实（重要）
总结
FAQ

"庞大而高性能的 AI，聪明但又重又贵。"解决这一难题的技术，就是模型蒸馏（知识蒸馏）。通过把大"教师"模型的知识转移到小"学生"模型，就能以十分之一的体积和速度，保留教师 95% 以上的性能——这正是一种"鱼与熊掌兼得"的技术。

本文用教师与学生的比喻，面向初学者讲解蒸馏的原理，并梳理它的好处、两种方式，以及它与微调和量化的区别。此外，还会不带夸张地深入探讨在 2026 年引发广泛关注的"蒸馏的法律与条款问题"（OpenAI 诉 DeepSeek 的纠纷，以及各家的反蒸馏条款）。

模型蒸馏 · 从教师到学生

把大教师的知识，转移到小学生

— 以十分之一的体积，保留 95% 以上的性能

🧑‍🏫

教师模型

大、高性能、高成本

→

转移知识

🎓

学生模型

小、快、便宜

约 10 倍更小、更快保留 95% 以上性能务必留意服务条款

※本文的数据与案例引用自各类公开资料与报道（截至 2026 年 6 月）。法律要点仅为一般性梳理，具体个案请咨询专家并查证官方信息。

1. 什么是模型蒸馏？用教师与学生来打比方

模型蒸馏，是指让小"学生（student）"模型学习并再现大而高性能的"教师（teacher）"模型的行为的技术。学生通过模仿教师的输出，即使体积小得多，也能获得接近教师的能力。一个真实的例子是，据说 GPT-4o mini 就是从 GPT-4o 蒸馏而来。

关键在于"软标签"：普通训练只教"答案是猫"（硬标签），而蒸馏会把教师给出的"90% 猫、8% 狗、2% 狐狸"这样的整个概率分布都传给学生。这种"犹豫的程度"中，蕴含着仅凭答案无法传达的丰富信息。此外，还会用一个叫温度（Temperature）的参数把概率"软化"，让相似类别之间的微妙关系也能显现出来。

用人来打比方，就像老手（教师）教新人（学生）时，不只说"这是猫"，还把判断的微妙之处——"是猫，不过也是和狗有点难分的边界情况"——一并教给对方。所以学生比起死记硬背，能学得更深、更高效。如果了解LLM 的工作原理，就能明白为什么概率分布的信息量如此丰富。

2. 为什么要蒸馏？（好处）

蒸馏的目的很简单——"在尽量保留聪明的前提下，让它更轻、更快、更便宜"。具体好处如下。

⚡ 又快又便宜

计算量小，延迟低、成本低。在大量请求的生产环境中尤其见效。

📦 约 10 倍紧凑

有报告称，仅为教师十分之一的体积，也能保留95% 以上的性能。

📱 可在边缘端运行

即便在手机、设备等资源受限的环境中也容易运行。

🎯 擅长用途专精

容易做出体积虽小但精度很高的专用任务模型。

简而言之，蒸馏是一座桥梁，把"旗舰级的聪明"落地为"现场可承受的成本"。对于像智能体这样需要大量调用的用途，成本差距会不断累积，因此价值尤其大。

3. 两种方式：白盒／黑盒

蒸馏按对教师模型"内部"能访问到什么程度分为两类。这也与后半部分的法律要点直接相关。

🔓

白盒蒸馏

指能完全访问教师的权重和内部表示的情形。学生不仅能学到输出，还能学到内部的判断过程，因此转移得更深入。当教师是自家模型或 OSS 模型时可用。

📦

黑盒蒸馏

指只能看到教师的输出（API 响应）的情形。收集输入输出的配对，让学生在其上学习。把别家的 API 当作教师，可能构成违反条款（见下文）。

4. 与量化、微调的区别

蒸馏容易与同样是"让模型变轻/改变模型"的相似技术——量化和微调——混淆。它们的目标不同，下面来梳理一下。

技术	做什么	目标
蒸馏	让另一个小模型学习大模型的知识	又小又快，同时尽量保留性能
量化	降低同一模型权重的精度以进行压缩	节省内存、提速（内部还是同一个模型）
微调	对现有模型针对特定任务追加训练	适配用途/领域（体积大致不变）

粗略地说，蒸馏＝"把智慧转移到另一个更小的容器里"，量化＝"把同一个容器变轻"，微调＝"在同一个容器里添加专业知识"。三者并不互斥，经常组合使用（例如：把蒸馏出的小模型再做量化）。

5. 法律与服务条款的现实（重要）

这正是 2026 年成为重大争议的部分。蒸馏这项技术本身完全正当。会成为问题的是"用谁的输出、用来做什么"。

核心：OpenAI、Anthropic、Mistral、xAI 等的使用条款中，都有"不得将自家服务的输出用于开发竞争模型"的反蒸馏（anti-competitive distillation）条款。也就是说，把受限 API 的输出当作教师去蒸馏出竞争模型这一行为，即便技术上可行，也可能构成违反条款。

这一点演变为现实纠纷的，正是OpenAI 诉 DeepSeek 的事件。据报道，OpenAI 主张"疑似与 DeepSeek 相关的账号绕过访问限制获取模型输出，并将其用于蒸馏"（2026 年初）。而另一方面，据称 DeepSeek 一方的使用条款允许将自家服务的输出用于训练其他模型（包括蒸馏）。要点在于，评估结果会因"适用谁的 API 条款"而改变。

这一议题也给最新模型蒙上阴影。据报道，Claude Fable 5 / Mythos 5 采用了一种设计：当安全分类器判定为"模型蒸馏"的作业时，会限制其响应。围绕蒸馏的紧张关系，在监管和各家政策两方面都仍在持续。在实务上，铁律就是务必确认所用教师模型的使用条款。

安全蒸馏的要诀

把自家模型、已获授权的 OSS 模型当作教师（多数允许蒸馏）
在把别家的商用 API 当作教师之前，确认其条款中的反蒸馏条款
尤其要慎重判断该用途是否构成"开发竞争模型"

总结

模型蒸馏是一项强大的技术，把大 AI 的聪明转移到小 AI，使其落地为现场可承受的成本。让我们回顾要点。

本文要点

🧑‍🏫 教师→学生：把大模型的知识转移到小模型。软标签＋温度是关键。
⚡ 约 10 倍更小、更快，并保留 95% 以上的性能。适合边缘端、低成本运营。
🔓 方式有两种：能看到内部的白盒／只看输出的黑盒。
🔀 与量化、微调不同：转移容器/变轻/添加专业知识，三者各不相同。
⚖️ 留意条款：技术正当，但用受限 API 的输出去打造竞品，可能违反 ToS。

"聪明靠大模型，运营靠小模型。"蒸馏让这种兼顾成为可能。不过选谁当教师，会在技术和法律两方面改变结果。原理基础可参阅什么是 LLM，相关技术也可一并参考微调。

FAQ

Q. 蒸馏会让性能下降多少？

A. 视用途而定，但有报告称，设计得当的蒸馏可"以十分之一的体积保留 95% 以上的性能"。它并不完全相同，因此请务必通过评估确认是否在可接受范围内。

Q. 蒸馏与量化该如何区分使用？

A. 蒸馏是"把知识转移到另一个更小的模型"，量化是"压缩同一模型的权重"。二者目标不同，因此并不互斥，把蒸馏出的小模型再做量化等组合也很常见。

Q. 可以用别家 AI 的输出来打造自己的模型吗？

A. 取决于该提供方的使用条款。OpenAI、Anthropic 等都设有禁止"将输出用于开发竞争模型"的反蒸馏条款。即便技术上可行也可能违反条款，因此请务必确认所用作教师的服务的条款。

Q. 初学者也能做蒸馏吗？

A. 概念虽简单，但实现需要机器学习的知识。建议先从理解原理入手。各大云厂商（如 Azure 等）也提供辅助蒸馏的服务，因此相比从零搭建，已有更易上手的选项越来越多。

什么是模型蒸馏？把大 AI 的知识转移到小 AI

把大教师的知识，转移到小学生

1. 什么是模型蒸馏？用教师与学生来打比方

2. 为什么要蒸馏？（好处）

3. 两种方式：白盒／黑盒

4. 与量化、微调的区别

5. 法律与服务条款的现实（重要）

总结

FAQ

相关文章

主流生成AI知识截止日期一览｜ChatGPT、Claude、Gemini全面对比

什么是生成式AI？与传统AI的区别通俗解析

生成AI擅长的和不擅长的｜能做什么、不能做什么？真实案例全面解析

什么是LLM？大语言模型的工作原理、主流模型与应用场景

评论

发表评论