LoRA 是什么?用一点点额外训练定制 AI
把庞大的 AI 从头重新训练太贵,但你又想为自己稍作调整;LoRA(Low-Rank Adaptation)通过冻结原始模型、只训练一个极小的附加部件(适配器),把可训练参数削减约 90%,实现了这个愿望。LoRA 让微调大幅更便宜、更快,并在 Stable Diffusion 等图像生成中作为添加角色或画风的小文件极受欢迎。本文用补丁的比喻来讲解。LoRA 是参数高效微调(PEFT)的代表:把庞大的原始权重冻结,在每一层插入一个小的附加矩阵,只训练它(W = W0 + BA,其中 W0 被冻结,BA 是新增的那一小部分)。它建立在这样一个发现之上:调整 AI 并不需要大的改动,低秩就足够。优势:可训练参数减少约 90%(在 GPT-3 规模下据报道少 10,000x)、更省 GPU 内存(约少 3x)、训练更快更便宜、合并适配器后不增加推理延迟、更不易过拟合。它最大的优势是适配器可更换:保留一个通用底座,按用途即时更换小巧的(几 MB)LoRA 文件(客户支持、公司语气、某个特定角色)。很多人第一次接触 LoRA 是在图像生成中,Stable Diffusion 上学会了角色、画风或主体的 LoRA 被广泛共享(添加画风、学会角色、轻巧易分享)。QLoRA 结合量化,在 4-bit 底座之上训练 LoRA,比标准 LoRA 省约 4x 内存,能在消费级 GPU(有时是 CPU)上微调庞大模型,且精度损失极小。相比全量微调(训练所有权重),LoRA 在训练的权重、成本、产出和适用场景上都不同;对大多数工作,LoRA 就足够。底座保持原样,风味小幅调出。文中数值引自公开资料,仅供参考。