「我想把 AI 定制成自己公司专用的」——每当出现这种需求时,微调(fine-tuning)就是摆上桌面的选项之一。它是一种把已经训练好的 LLM再进一步训练、为特定用途「培养」它的技术。但如果贸然上手,成本高、还容易出错。本文面向初学者,系统梳理什么是微调、它擅长什么、与 RAG 和提示词的区别、有哪些方法、需要准备什么,以及该按什么顺序开始。

FINE-TUNING · 把模型培养成你专用的

RAG 管「知识」,FT 管「行为」

— 先用提示词和 RAG,微调是最后的手段

STEP 1

提示词(Prompting)

先打磨指令。免费,也最快。

STEP 2

RAG(检索)

在这一步补上最新或内部知识。

STEP 3

微调(Fine-tuning)

前面都还不够时,最后的手段。

1. 什么是微调(fine-tuning)?

微调是指把一个已经训练完成的 AI 模型(基础模型),用贴合你用途的数据再进一步训练,将其改造成一个专用模型。例如「用我们公司的文风回答」「按特定格式输出」「熟练掌握某个领域的术语」——它会把这些「习惯」和「模子」直接刻进模型本身。

可以把它想象成「新员工培训」。即便你招到一个很优秀的人(基础模型),他也不了解你公司的做事方式。用你自己的案例去培训他,他就能不必每次都给详细指示,也能按「你们的方式」工作。微调会稍稍改写模型的权重(参数)本身。

💡 一句话:微调=「把『模子』刻进模型本身的额外训练」。提示词和 RAG 是每次临时递交指令和资料,而 FT 则永久改变模型的性质。

2. 它擅长什么、不擅长什么?

这一点理解错了就会失败。微调擅长「改变行为」,而不擅长「记住最新知识」。

✅ 擅长(行为)
  • 用固定的文风和语气回答
  • 按特定格式输出
  • 熟悉某个领域的表达方式
  • 免去每次冗长的指示
❌ 不擅长(知识)
  • 记住频繁变化的最新信息
  • 把内部文档当作「事实」准确保存
  • 给出所学内容的出处
  • 训练之后的更新(每次都需重新训练)

如果想正确处理最新信息或内部数据,比起微调,RAG(检索后加入上下文的方式)更合适。反过来,固定某个模子——「始终用这种语气、这种格式」——则是微调的主场。

3. 微调 vs RAG vs 提示词

定制 AI 有三种方法,它们在成本和角色上各不相同。先用一张表把握整体。

方法 角色 成本 适合场景
提示词 打磨指令 几乎 $0 先试这个,往往单靠它就够了
RAG 检索并补充知识 需要最新或内部「事实」时
微调 把行为刻进模型 固定文风/语气;大批量场景下优化成本

⚠️ 常见误区:「准确率上不去=需要微调」是错的。正如专家所说,「『我们需要 FT』里有 80% 都能靠更好的检索(RAG)或提示词解决。」最重要的是,别跳过顺序。

记忆方法很简单:「事实和知识 → RAG;个性和模子 → 微调;提示词优先。」在真实的生产系统中,2026 年的标准做法是三者结合——用 RAG 管事实,用 FT 管行为。这与上下文工程背后的思路一脉相承。

4. 主要方法(Full、LoRA、QLoRA)

微调有好几种做法。初学者首先应该了解的是下面这三种。

Full fine-tuning(全量微调)

更新模型的全部参数。最强大,但算力和成本也最高。对个人或小团队来说负担很重。

LoRA

冻结主体,只训练一个小小的「适配器(adapter)」。由于更新量极小,所以又轻又便宜(PEFT 的代表方法)。

QLoRA(推荐)

把 LoRA 与 4-bit 量化结合,即便是大模型也能在一块普通的 GPU 上训练。最适合初学者迈出第一步。

关键在于「先用 QLoRA 试。」正如专家所说,「如果 LoRA/QLoRA 都做不好,那全量微调几乎也好不了。」再与本地 LLM 结合,你甚至可以在自己的 PC 上小规模地做实验。

5. 你需要的数据、成本和工具

微调最难的部分,其实不是训练本身,而是「构建数据」。记住下面这些大致的参考标准。

  • 数据量:你需要500+ 条高质量样本。据说少于 50 条,信号太弱不足以学习。质比量更重要。
  • 准备工作量:收集、清洗、整理格式、质量检查,可能要花数周到数月。这才是真正的硬活。
  • 成本:正式的项目可能花费 $5,000 到 $50,000 以上。OpenAI 公布的微调价格大约为每百万训练 token $25–$100(取决于模型)。
  • 工具:OpenAI 的微调 API、Unsloth、Axolotl、Hugging Face、Together、Databricks 等等。图省事的话,从托管型方案开始。

※ 数据引自厂商披露和各类指南(截至 2026 年 6 月)。实际成本会随模型、数据量和方法大幅波动。

6. 什么时候该做?(顺序很重要)

避免失败的铁律就是「按顺序来」。只有当上一步不够用时,才进入下一步。

  • ① 打磨提示词提示词工程能解决很多问题。免费,而且能立即测试。
  • ② 加上 RAG:如果需要最新或内部的事实,用 RAG。比 FT 便宜,更新也更容易。
  • ③ 模子还是稳不住,再上 FT:只有当目标是「始终这种语气/格式」或「大批量场景下优化成本」时,才考虑它。

💡 判断指南:「知识不够」→ RAG。「不听话/模子总崩」→ 微调。把这个分法弄对,就能避免无谓的投入。

总结

关于微调的三点要点。

  • 它是什么:在预训练模型之上做额外训练,把行为和模子刻进模型本身。它会改写权重。
  • 何时用哪个:知识 → RAG,行为 → FT,提示词优先。「我们需要 FT」中的很大一部分,靠更好的检索就能解决。
  • 如何起步:从 QLoRA 开始。500+ 条高质量样本是参考标准,而构建数据才是真正的硬活。成本偏高。

归根结底:微调是「最后的手段」。先试提示词和 RAG,当模子还是稳不住时再考虑 FT。想了解定制 AI 的全貌,建议把RAG上下文工程一并读一读。

FAQ

Q. 微调和 RAG,我该选哪个?

A. 按目的来定。需要最新或内部的「知识和事实」?选 RAG。想固定「行为、模子和语气」?选微调。实际中,两者结合很常见。先从 RAG 和提示词开始试。

Q. 个人也能做微调吗?

A. 能。用 QLoRA,即便在一块普通的 GPU 上也能训练小模型,再结合本地 LLM,就能在自己的 PC 上试。建议先用小数据集和小模型找找感觉。

Q. 我需要多少数据?

A. 参考标准是 500+ 条高质量样本。少于 50 条就不足以提供学习信号。话虽如此,质比量更重要——一致、用心的数据更有效。

Q. 做了微调,它就能学到最新信息吗?

A. 这正是它的弱项。它会反映训练时存在的内容,但之后的更新需要重新训练,而且无法给出出处。对频繁变化的信息或内部文档的准确引用,是 RAG 的职责。