LoRA 是什么？用小适配器调整 AI

Q: LoRA 和微调是两种不同的东西吗？

LoRA 是微调的一种（一种高效的方法）。相对于训练所有参数的“全量微调”，LoRA 只训练一个小适配器。对于许多用途，LoRA 就足够了。

1. LoRA 是什么？冻结底座，只训练适配器
2. 为什么这么高效？
3. 最大优势：适配器可随意更换
4. 图像生成中的 LoRA（最贴近生活的例子）
5. QLoRA：与量化结合
6. 与全量微调的对比
总结
FAQ

“把一个庞大的 AI 模型从头重新训练太贵了——但我又想为自己稍微调整一下。”实现这个愿望的技术就是 LoRA（Low-Rank Adaptation，低秩适应）。它通过冻结原始模型，只训练一个极小的“附加部件（适配器）”，把需要训练的参数削减约 90%。

LoRA 让微调变得大幅更便宜、更快，同时在 Stable Diffusion 等图像生成中，作为“添加某个角色或画风的小文件”也极受欢迎。本文用“补丁”的比喻来讲解其机制，并介绍优势、可更换的适配器、QLoRA，以及它与全量微调的区别——面向初学者。

LoRA · 用小适配器聪明地调整

冻结底座，只训练一小部分

— 可训练参数减少约 90%

🔒 Frozen

庞大的底座模型

保持不变 · 不训练

＋

🧩 LoRA

适配器

小巧 · 只训练这个

可训练参数减少约 90% 仅几 MB，可随意更换不增加推理延迟

* 本文中的数值与特性引自各类公开资料及研究报告（截至 2026 年 6 月）。削减率和效果会因模型与配置而异，请作为大致趋势参考。

1. LoRA 是什么？冻结底座，只训练适配器

LoRA 是“参数高效微调（PEFT）”的代表性方法。其核心机制很简单——把庞大的原始权重完全保持不变（冻结），在每一层中插入一个“小的附加矩阵”，只训练这个矩阵。

可以把它想象成“衣服上的补丁”：把一件昂贵的衣服（庞大的模型）重新裁剪很费劲，但缝上一小块补丁既便宜又快。LoRA 也是一样——底座原封不动，添加一个小适配器来“调整”它的行为。用公式来说就是 W = W0 + BA（W0 = 冻结的原始权重，BA = 新增的那一小部分）。它建立在这样一个发现之上：调整一个 AI“其实并不需要做大的改动”——低秩就足够了。

换句话说，不是“完全重新涂抹”，而是“小幅地覆盖”。仅此一点，就大幅降低了训练的成本和风险。把它和微调的基础知识对照着读，它的定位就一目了然。

2. 为什么这么高效？

LoRA 的效率十分惊人。把训练范围缩小到“小适配器”，就能带来以下好处。

📉 可训练参数大幅减少

需要训练的权重减少约 90%。在 GPT-3 规模下，据报道比以往少 10,000x。

💾 更省内存、更快、更便宜

所需的 GPU 内存大幅下降（据报道约少 3x），训练更快、更便宜。

⚡ 推理不会变慢

训练完成后，把适配器合并（merge）到底座中，就不会增加任何延迟。

🛡️ 不易过拟合

由于自由度更小，即使数据很少，过拟合的风险也更低。

简而言之，LoRA “用极低的成本，逼近全量微调的效果”。正因如此，个人和小团队也能把大模型变成“自己专属”的。

3. 最大优势：适配器可随意更换

LoRA 的另一个魅力在于“可以只保存、共享、更换适配器”。底座模型保持通用，按用途更换一个小小的 LoRA 文件（几 MB 起）——这彻底改变了运维方式。

针对一个庞大的底座模型，准备多个 LoRA——“用于客户支持”“用于公司的语气”“用于某个特定角色”——并按场景即时切换。无需保存多个完整的底座，存储和分发都很轻量。把底座放在一块 GPU 上，只更换适配器，就能服务于多种用途。

4. 图像生成中的 LoRA（最贴近生活的例子）

很多人第一次接触 LoRA，其实是在图像生成中。在 Stable Diffusion 里，学会了某个特定角色、画风或主体的小小 LoRA 文件被大量共享。

🎨 添加一种画风

可以事后把某种特定画风——动漫、水彩——加到底座模型上。

👤 学会一个角色

用几张到几十张图片，就能做出再现某个特定角色或人物的 LoRA。

📦 轻巧易分享

文件很小（几 MB），所以分发和更换都很方便。

“共用庞大的底座，靠 LoRA 添加风味”这一构图，在文本和图像上完全相同。对于使用图像生成工具的人来说，LoRA 是一个贴近生活的“定制入口”。

5. QLoRA：与量化结合

QLoRA 让 LoRA 变得更轻。它与量化结合，在压缩为 4-bit 的底座模型之上训练 LoRA 适配器。

QLoRA 比标准 LoRA 进一步把内存削减约 4x，让你即使在消费级 GPU（有时是 CPU）上也能微调庞大的模型。而且精度的下降极小——据报道能保持与全量微调相当的质量。“用量化让底座变轻，用 LoRA 小幅训练”——这是效率技术的组合拳。

QLoRA 与量化（让同一个模型变轻）和蒸馏（迁移到一个更小的模型）并列，是模型效率化的关键一环。理解了这三者，你就能看清“以现实的成本使用大型 AI”的全貌。

6. 与全量微调的对比

让我们梳理一下全量微调（“重新训练所有权重”）与 LoRA 的区别。

维度	全量微调	LoRA
训练的权重	全部参数	仅一个小适配器（减少约 90%）
成本 / 内存	非常高	低得多
产出	一整套庞大的模型	一个小适配器（可更换）
适用场景	大规模、根本性的重建	面向特定任务、低成本、多用途切换

对于大多数实际工作，通常 LoRA 就足够了。只有当你需要从根本上改变模型的性格时，才考虑全量微调。

总结

LoRA 是效率时代的代表性技术，它用一个“小适配器”便宜又快速地定制庞大的 AI。让我们回顾一下要点。

核心要点

🧩 冻结底座，只训练一个小适配器（W = W0 + BA）。就像一块补丁。
📉 可训练参数减少约 90%。更省内存、更快、更便宜、不易过拟合。
🔄 适配器可自由更换。按用途更换几 MB 的 LoRA。
🎨 在图像生成（Stable Diffusion）中极受欢迎。添加画风/角色的小文件。
⚙️ QLoRA = 量化 × LoRA。即使在消费级 GPU 上也能微调庞大的模型。

“底座保持原样，风味小幅调出。”LoRA 是把大型 AI 变成自己的最便捷入口。基础知识请看微调；至于压缩方面的对照概念，请看量化和蒸馏。

FAQ

Q. LoRA 和微调是两种不同的东西吗？

A. LoRA 是微调的一种（一种高效的方法）。相对于训练所有参数的“全量微调”，LoRA 只训练一个小适配器。对于许多用途，LoRA 就足够了。

Q. 图像生成的 LoRA 和 LLM 的 LoRA 是同一种东西吗？

A. 基本原理相同：冻结底座，只训练一个小适配器。只是对象不同——一个是文本模型，一个是图像（扩散）模型。Stable Diffusion 的 LoRA 是它最贴近生活的应用。

Q. LoRA 和 QLoRA 该用哪个？

A. 如果 VRAM 有富余，用普通的 LoRA；如果内存吃紧，或想尽可能便宜地跑，就用 QLoRA（4-bit 底座 + LoRA）。QLoRA 精度损失极小，能在消费级 GPU 上微调大模型。

Q. LoRA 会损害精度吗？

A. 据报道，在许多任务上它能匹敌全量微调的质量。但当你需要从根本上重建模型的能力时，全量微调可能更合适。最终请用评估来确认。

LoRA 是什么？用一点点额外训练定制 AI

冻结底座，只训练一小部分

1. LoRA 是什么？冻结底座，只训练适配器

2. 为什么这么高效？

3. 最大优势：适配器可随意更换

4. 图像生成中的 LoRA（最贴近生活的例子）

5. QLoRA：与量化结合

6. 与全量微调的对比

总结

FAQ

相关文章

主流生成AI知识截止日期一览｜ChatGPT、Claude、Gemini全面对比

什么是生成式AI？与传统AI的区别通俗解析

生成AI擅长的和不擅长的｜能做什么、不能做什么？真实案例全面解析

什么是LLM？大语言模型的工作原理、主流模型与应用场景

评论

发表评论