“把一个庞大的 AI 模型从头重新训练太贵了——但我又想为自己稍微调整一下。”实现这个愿望的技术就是 LoRA(Low-Rank Adaptation,低秩适应)。它通过冻结原始模型,只训练一个极小的“附加部件(适配器)”,把需要训练的参数削减约 90%

LoRA 让微调变得大幅更便宜、更快,同时在 Stable Diffusion 等图像生成中,作为“添加某个角色或画风的小文件”也极受欢迎。本文用“补丁”的比喻来讲解其机制,并介绍优势、可更换的适配器、QLoRA,以及它与全量微调的区别——面向初学者。

LoRA · 用小适配器聪明地调整

冻结底座,只训练一小部分

— 可训练参数减少约 90%

🔒 Frozen
庞大的底座模型
保持不变 · 不训练
🧩 LoRA
适配器
小巧 · 只训练这个
可训练参数减少约 90% 仅几 MB,可随意更换 不增加推理延迟

* 本文中的数值与特性引自各类公开资料及研究报告(截至 2026 年 6 月)。削减率和效果会因模型与配置而异,请作为大致趋势参考。

1. LoRA 是什么?冻结底座,只训练适配器

LoRA“参数高效微调(PEFT)”的代表性方法。其核心机制很简单——把庞大的原始权重完全保持不变(冻结),在每一层中插入一个“小的附加矩阵”,只训练这个矩阵。

可以把它想象成“衣服上的补丁”:把一件昂贵的衣服(庞大的模型)重新裁剪很费劲,但缝上一小块补丁既便宜又快。LoRA 也是一样——底座原封不动,添加一个小适配器来“调整”它的行为。用公式来说就是 W = W0 + BA(W0 = 冻结的原始权重,BA = 新增的那一小部分)。它建立在这样一个发现之上:调整一个 AI“其实并不需要做大的改动”——低秩就足够了。

换句话说,不是“完全重新涂抹”,而是“小幅地覆盖”。仅此一点,就大幅降低了训练的成本和风险。把它和微调的基础知识对照着读,它的定位就一目了然。

2. 为什么这么高效?

LoRA 的效率十分惊人。把训练范围缩小到“小适配器”,就能带来以下好处。

📉 可训练参数大幅减少

需要训练的权重减少约 90%。在 GPT-3 规模下,据报道比以往少 10,000x

💾 更省内存、更快、更便宜

所需的 GPU 内存大幅下降(据报道约少 3x),训练更快、更便宜。

⚡ 推理不会变慢

训练完成后,把适配器合并(merge)到底座中,就不会增加任何延迟。

🛡️ 不易过拟合

由于自由度更小,即使数据很少,过拟合的风险也更低

简而言之,LoRA “用极低的成本,逼近全量微调的效果”。正因如此,个人和小团队也能把大模型变成“自己专属”的。

3. 最大优势:适配器可随意更换

LoRA 的另一个魅力在于“可以只保存、共享、更换适配器”。底座模型保持通用,按用途更换一个小小的 LoRA 文件(几 MB 起)——这彻底改变了运维方式。

针对一个庞大的底座模型,准备多个 LoRA——“用于客户支持”“用于公司的语气”“用于某个特定角色”——并按场景即时切换。无需保存多个完整的底座,存储和分发都很轻量。把底座放在一块 GPU 上,只更换适配器,就能服务于多种用途。

4. 图像生成中的 LoRA(最贴近生活的例子)

很多人第一次接触 LoRA,其实是在图像生成中。在 Stable Diffusion 里,学会了某个特定角色、画风或主体的小小 LoRA 文件被大量共享。

🎨 添加一种画风

可以事后把某种特定画风——动漫、水彩——加到底座模型上。

👤 学会一个角色

用几张到几十张图片,就能做出再现某个特定角色或人物的 LoRA。

📦 轻巧易分享

文件很小(几 MB),所以分发和更换都很方便。

“共用庞大的底座,靠 LoRA 添加风味”这一构图,在文本和图像上完全相同。对于使用图像生成工具的人来说,LoRA 是一个贴近生活的“定制入口”。

5. QLoRA:与量化结合

QLoRA 让 LoRA 变得更轻。它与量化结合,在压缩为 4-bit 的底座模型之上训练 LoRA 适配器

QLoRA 比标准 LoRA 进一步把内存削减约 4x,让你即使在消费级 GPU(有时是 CPU)上也能微调庞大的模型。而且精度的下降极小——据报道能保持与全量微调相当的质量。“用量化让底座变轻,用 LoRA 小幅训练”——这是效率技术的组合拳。

QLoRA 与量化(让同一个模型变轻)和蒸馏(迁移到一个更小的模型)并列,是模型效率化的关键一环。理解了这三者,你就能看清“以现实的成本使用大型 AI”的全貌。

6. 与全量微调的对比

让我们梳理一下全量微调(“重新训练所有权重”)与 LoRA 的区别。

维度 全量微调 LoRA
训练的权重 全部参数 仅一个小适配器(减少约 90%)
成本 / 内存 非常高 低得多
产出 一整套庞大的模型 一个小适配器(可更换)
适用场景 大规模、根本性的重建 面向特定任务、低成本、多用途切换

对于大多数实际工作,通常 LoRA 就足够了。只有当你需要从根本上改变模型的性格时,才考虑全量微调。

总结

LoRA 是效率时代的代表性技术,它用一个“小适配器”便宜又快速地定制庞大的 AI。让我们回顾一下要点。

核心要点

  • 🧩 冻结底座,只训练一个小适配器(W = W0 + BA)。就像一块补丁。
  • 📉 可训练参数减少约 90%。更省内存、更快、更便宜、不易过拟合。
  • 🔄 适配器可自由更换。按用途更换几 MB 的 LoRA。
  • 🎨 在图像生成(Stable Diffusion)中极受欢迎。添加画风/角色的小文件。
  • ⚙️ QLoRA = 量化 × LoRA。即使在消费级 GPU 上也能微调庞大的模型。

“底座保持原样,风味小幅调出。”LoRA 是把大型 AI 变成自己的最便捷入口。基础知识请看微调;至于压缩方面的对照概念,请看量化蒸馏

FAQ

Q. LoRA 和微调是两种不同的东西吗?

A. LoRA 是微调的一种(一种高效的方法)。相对于训练所有参数的“全量微调”,LoRA 只训练一个小适配器。对于许多用途,LoRA 就足够了。

Q. 图像生成的 LoRA 和 LLM 的 LoRA 是同一种东西吗?

A. 基本原理相同:冻结底座,只训练一个小适配器。只是对象不同——一个是文本模型,一个是图像(扩散)模型。Stable Diffusion 的 LoRA 是它最贴近生活的应用。

Q. LoRA 和 QLoRA 该用哪个?

A. 如果 VRAM 有富余,用普通的 LoRA;如果内存吃紧,或想尽可能便宜地跑,就用 QLoRA(4-bit 底座 + LoRA)。QLoRA 精度损失极小,能在消费级 GPU 上微调大模型。

Q. LoRA 会损害精度吗?

A. 据报道,在许多任务上它能匹敌全量微调的质量。但当你需要从根本上重建模型的能力时,全量微调可能更合适。最终请用评估来确认。