2022 年 8 月 22 日,伦敦初创公司 Stability AI 发布了一款名为 Stable Diffusion v1.4 的图像生成模型权重文件。一个仅 4GB 的 `.ckpt` 文件。当它登陆 GitHub 与 Hugging Face 的那一刻,"图像生成 AI"从云端背后的某种东西变成了可以下载到自己电脑里的软件。当时 Midjourney 和 DALL·E 2 都不会这样做。

近四年过去,Stable Diffusion 已经走到 SD 3.5 Large(81 亿参数),Civitai 托管着超过 10 万个定制模型与 LoRA。与此同时,SD3 发布时的授权风波导致开发者大举出走,催生了 FLUX——由原 SD 团队的新公司 Black Forest Labs 打造——而 FLUX 在质量上已经超越了母体。局面已经不再简单。

先把立场摆出来。如果"用 Midjourney 就够了"对你成立,就别硬把自己塞进 Stable Diffusion。但只要符合以下任何一条——"想让同一个角色在 100 张图中保持一致"、"想把自己的机密数据混进本地推理"、"想让每月成本归零"、"商业用途需要可披露的开源模型"——SD 就绕不开。本文按 2026 年 5 月时点,覆盖 SD 的工作原理、版本历史、硬件要求、授权、生态以及选型思路。

Stable Diffusion · 开源图像 AI

让它与众不同的四件事

— Midjourney、DALL·E 与 Firefly 永远不会给你的东西

① OPEN WEIGHTS
公开发布权重文件
可直接从 Hugging Face 下载 .safetensors。Midjourney 连 API 都不开放
② LOCAL FIRST
在自己的 GPU 上运行
RTX 3060(12GB)起即可实战。生成的数据全部留在本机
③ FINE-TUNE
用 LoRA 自由改造
Civitai 上有 10 万以上 LoRA 与定制模型——动漫、写实、特定角色,无所不包
④ ZERO COST
电费之外全部免费
前期投入 GPU 后,每张图都是 0 美元。商用在条件之内也可

换句话说,这是为想摆脱云端依赖、黑盒和月度订阅的人准备的图像 AI。
代价是:一块 GPU、设置时间,以及反复调试提示词。

1. 2022 年 8 月 22 日——图像 AI 变成可下载之物的那一天

当时,图像生成 AI 是两强相争的局面:OpenAI 的 DALL·E 2(邀请制内测)与 Midjourney V3(仅 Discord)。两者都只在云端,权重完全保密。它们的 AI 学了什么、怎么跑、能生成什么不能生成什么——一切都由厂商说了算。

然后 Stability AI 做出了无人预料的选择:直接公开权重文件本身。一个在 LAION-5B(58 亿图文对)上训练的扩散模型,推理代码采用 MIT 协议,权重采用 CreativeML Open RAIL-M(商用 OK,几乎完全自由)。一周之内,全球工程师就把它跑在了 Google Colab 上,本地 WebUI(后来的 AUTOMATIC1111)随之诞生,Civitai 上线——AI 艺术的个人化由此起飞。

真正惊人的与其说是技术飞跃,不如说是先例:"图像生成 AI 是个人可以拥有并修改的东西。"用 LLM 来类比的话,这种冲击接近于 Llama 2 与 Llama 3 以"商用 OK"发布时的震动。从此,图像 AI 行业沿着两条并行轨道前进:"封闭且高质量"(MJ/DALL·E)与"开源且可自由定制"(SD 家族)。

2. 什么是 Stable Diffusion——三行讲清

Stable Diffusion 是 Stability AI 发布的、基于扩散模型的开源权重图像生成 AI。三行拆解:

① HOW IT WORKS
一张随机噪声图开始,逐步去噪以匹配你的文本提示。一般 20–50 步
② ARCHITECTURE
三段式结构:负责解读提示词的 Text Encoder(CLIP/T5)、负责去噪的 U-Net/DiT,以及负责图像压缩/解压的 VAE
③ DISTRIBUTION
权重文件(.safetensors,2GB–16GB)可从 Hugging Face 自由下载。可在本地 GPU 运行,也可通过云推理服务运行

我觉得真正关键的是用通俗的话说清"扩散模型"。在 GAN 时代(StyleGAN 及其同类),生成器与判别器相互对抗以产生图像。扩散模型走的是另一条路:"从一张噪声图开始,逐步减去噪声。"看似更简单的想法——却产出了比 GAN 远为稳定、分辨率更高的结果。这个洞见是 SD 成功的核心,此后几乎所有图像 AI(Imagen、DALL·E 3、FLUX)也都是扩散模型。

3. 版本谱系——SD1.5 / SDXL / SD3.5 与 FLUX 分支

SD 历史最让人困惑的事是"我到底该用哪个版本?"每一代在性能、授权、推荐 GPU 和 LoRA 生态上都不同。一并梳理。

版本 发布 参数量 推荐 VRAM 特点
SD 1.5 2022 年 10 月 0.9B 4–8GB 最轻量、LoRA 最多、动漫最强。Civitai 上仍是主流
SD 2.x 2022 年 11 月 0.9B 6–8GB 基本可跳过。训练数据缩减、口碑差、从未流行
SDXL 1.0 2023 年 7 月 3.5B 8–12GB 1024×1024 标准。写实与商用设计的首选。LoRA 数量第二
SD 3 Medium 2024 年 6 月 2B 8–12GB 授权风波导致开发者出走。普遍被视为失败
SD 3.5 Medium 2024 年 10 月 2.5B 9.9GB SD3 的救赎。MMDiT-X 架构,为消费级 PC 设计
SD 3.5 Large 2024 年 10 月 8.1B 18GB(FP8 下 11GB) 旗舰级质量。面向 RTX 4090 级别
FLUX.1 dev 2024 年 8 月 12B 12–24GB 出自前 SD 开发者创立的 Black Forest Labs。普遍评价高于 SD 本身

结论:今天起步,基本是在 SDXL 与 FLUX.1 dev 之间二选一。SD 1.5 轻、LoRA 最多,但在质量上落后一代。SD 3.5 Large 又重,又被 FLUX 压制。务实的分工是:商用设计选 SDXL,顶尖质量选 FLUX,最轻量可用的本地配置选 SD 3.5 Medium。

FLUX 的登场有一段反讽的背景。SD3 授权风波(详见后文)之后,原 SD 团队的大部分人离开了 Stability AI,在德国创办了 Black Forest Labs,推出了 FLUX.1。"质量更高的 SD 后继者"——而这是出自当初打造 SD 的那批人。在社区看来,如今不少人已经把 FLUX 视为正统继承者,而不是母体。

4. 本地运行的现实——按 VRAM 档位看

"能在本地跑"是一回事,你的具体那台 PC 能干到什么程度是另一回事。下面是我实际看到的情况。

4–6GB(GTX 1660 / RTX 3050)
勉强能跑档
仅 SD 1.5。每张图 20–60 秒。SDXL 以上都很吃力
8GB(RTX 3060 Ti / 4060)
实战最低线
SDXL 配合内存优化可跑。1024px 每张图 15–30 秒
12GB(RTX 3060 12GB / 4070)
舒适档
SDXL / SD 3.5 Medium 余量充足。可随意叠加 LoRA。每张图 5–15 秒
16–24GB(RTX 4080 / 4090)
严肃生产配置
FLUX / SD 3.5 Large 余量充足。可自训 LoRA。每张图 2–8 秒

提示:还需要 16GB 以上系统内存与 100GB 以上空闲 SSD。Mac 可通过 Apple Silicon 的 MPS 运行,但比 NVIDIA 慢 3–5 倍

直说吧:今天要认真上手 SD,现实的入门是 RTX 3060 12GB(二手约 200 美元)或 RTX 4070(新品约 600 美元)。8GB 的 GPU 也能跑,但你会陷入优化开关与量化的泥潭——不是我会推荐给新手的路。如果不想买 GPU,正解是云推理服务(Runpod / Replicate / Civitai 自家托管),每张图大约 0.001–0.01 美元。

5. 授权陷阱——SD3 反弹事件带来的教训

"它是开源的,所以商用没问题"——在 SD 上并不是大家想要的那句简单话。授权要看版本。

SD 1.5 / SDXL
CreativeML Open RAIL-M
无营收上限。商用几乎完全免费。限制仅针对违法或有害用途
SD 3 / SD 3.5 / FLUX.1 dev
Community License(年营收 100 万美元上限)
年营收低于 100 万美元的个人或机构可商用。超过则需 Enterprise 合同

个人博主、自由职业者和早期创业团队完全没问题。只有大型企业将其嵌入产品时才需要商务合同。出售生成图像本身没有限制——无论生成多少、卖出多少,都不必向 Stability AI 缴费

2024 年 6 月 SD 3 发布时,授权条款异常苛刻——每生成一张图按用量收费、禁止 Civitai 分发衍生模型——结果Civitai 公开拒绝托管 SD3 衍生作品。社区宣告"SD 已死",许多开发者转投 Black Forest Labs 并推出了 FLUX。2024 年 10 月 SD 3.5 发布时 Stability AI 大幅放宽了条款(即现行的 100 万美元营收版本),但截至 2026 年 5 月,社区信任仍未完全恢复。

务实建议:"就用 SDXL"是最不容易踩坑的版本。CreativeML Open RAIL-M 意味着无营收上限,LoRA 池庞大,生态成熟。只有当 SDXL 不再够用时,才迁移到 SD 3.5 或 FLUX。

6. Civitai / LoRA / ComfyUI——比模型本身更大的生态

把 Stable Diffusion 仅当作"一个模型"来谈,就抓不到要点。SD 的力量在它周围的生态。

Civitai
模型分发枢纽
10 万以上 checkpoint、LoRA、embedding。动漫、写实、特定角色、特定姿势——无所不包
LoRA
追加训练文件
50–300MB 的小文件,为基础模型增添风格或角色。可叠加组合
ComfyUI
基于节点的 UI
专业人士的选择。可视化构建复杂工作流(ControlNet → 放大 → Inpaint 链路等)
A1111
新手友好的 WebUI
AUTOMATIC1111 的项目。表单式、直观。多数 SD 用户最初的入口
ControlNet
构图控制
用姿势图、线稿或深度图指定构图。Midjourney 在这种精度上没有对应物
IP-Adapter
图像参考
把参考图的风格、面部或服装迁移到新图上。角色一致性的必备

一个提醒。SD 1.5 的 LoRA 不能加载到 SDXL;SDXL 的 LoRA 不能加载到 FLUX。每个基础模型自成一套生态。如果你在 Civitai 上偏爱的 LoRA 都是 SD 1.5 的,切换到 SDXL 就意味着放弃它们。在 Civitai 搜索时,务必先确认"Base Model"筛选项。

7. Midjourney 与 Stable Diffusion——该选哪个

人们常问"SD 与 Midjourney/DALL·E 哪个更好"——但这个问法错了轴。看质量选 Midjourney,看自由与所有权选 SD。角色完全不同。

维度 Midjourney V8 Stable Diffusion(SDXL/FLUX)
易用性 ◎ 写提示词即可 △ 需要安装配置
默认质量 ◎ 业界最佳艺术观感 ○ 视模型而定(FLUX 已持平)
构图控制 △ 仅靠提示词 ◎ 通过 ControlNet 全面控制
角色一致性 ○ Character Reference ◎ 训练 LoRA 即可完美复现
月费 10–120 美元 0 美元(本地)或按量计费
商用 付费方案下可商用 SDXL 无上限;SD3.5/FLUX 有 100 万美元营收上限
数据隐私 × 必经云端 ◎ 可全程本地
学习曲线 数小时 数天到数周

干净的结论:"做一张漂亮的图"——Midjourney。每月 10 美元,没有配置地狱。"想要同一个角色的 100 张图"、"想混入专有数据"、"想要任意用量的商用定额价"、"想复现某种动漫风格"——Stable Diffusion。没有谁"更好"。许多专业人士两者都用(我认识的一位插画师在 MJ 里出构图、在 SD 里收尾)。

8. 三大陷阱——版权、NSFW、兼容性

使用 SD 会遇到的三件事,值得事先了解。

陷阱 ①:训练数据的版权风险

SD 的基础模型在 LAION-5B(从互联网爬取的 58 亿张图)上训练。不可避免地,受版权保护的作品大量混在其中。Getty Images 当前正在起诉 Stability AI(2023 年立案,美国与英国仍在审理),Civitai 上的"特定艺术家风格"LoRA 自 2025 年起明显趋于灰色。商用最低限度的卫生标准:不要按特定艺术家名提示,即便是 Civitai 上的 LoRA,也要避开以可识别版权持有者的名人或作品为蓝本的那些。如果"商用安全"不容妥协,Adobe Firefly 是替代选项。

陷阱 ②:NSFW 生成轻而易举

由于 SD 权重开放,关闭 SafetyChecker 就很容易生成色情或暴力图像。Civitai 上公开托管着大量 NSFW 模型。技术本身中立,但涉及未成年人的生成内容的制作或传播在许多国家是违法的(日本目前正在讨论相关立法)。绝对不要在工作时间、用工作 PC 干这种事——日志和网络流量极易识别。即使是家用 PC,某些类别的制作甚至持有也都属违法。自觉是必须的。

陷阱 ③:代际兼容性割裂

如上所述,SD1.5 / SDXL / SD3.5 / FLUX 各自成一套生态。LoRA、embedding 与 ControlNet 模型互不通用。"我升级到 SDXL 吧"可能意味着发现自己有 50 个 SD1.5 LoRA 再也用不了了。如果刚起步,挑一套(SDXL 或 FLUX)并待在那个生态里——长期看其实更高效。

总结

本质
让图像 AI 变成"个人可拥有、可修改的软件"的革命。提供 MJ/DALL·E 不会给的自由
入门
RTX 3060 12GB + SDXL + A1111 是务实起点。没 GPU 就用 Runpod,每张图 0.001 美元起
选哪个
多数人:Midjourney。只有需要"100 张同一角色"、"私密数据"或"只付电费"时才选 SD
注意
版权、NSFW、兼容性割裂是早期必知的三件事。商用从 SDXL 起步(无营收上限)

Stable Diffusion 在 2022 年改变了世界。但到 2026 年,"就用 SD"已经不再是默认答案——纯粹质量上 Midjourney V8 胜出,商用安全性上 Adobe Firefly 胜出。SD 没有消亡——反而随着 FLUX 焕发新动力——原因在于它仍是"在自己的 PC 上、用自己的数据、按自己的方式使用图像 AI,且不依赖任何云端公司"的唯一选项。Midjourney 可以把你踢出 Discord;OpenAI 可以修改服务条款;你 SSD 上的 SD 权重文件是你自己的。对觉得这样更安心的人来说,SD 会继续是一件特殊的工具。

FAQ

Stable Diffusion 免费吗?

模型本身(权重文件)下载和使用都免费。运行需要一块 GPU——最低 RTX 3060 12GB(约 200 美元)——或一个云推理服务(Runpod 约每小时 0.4 美元)。你不必向 Stability AI 缴纳任何月费。

可以商用吗?

看版本。SD 1.5 与 SDXL 完全开放(CreativeML Open RAIL-M,无营收上限)。SD 3、SD 3.5 与 FLUX.1 dev 在年营收低于 100 万美元时商用免费;超过则需与 Stability AI 或 Black Forest Labs 签合同。出售生成图像本身在所有版本都无限制。

Midjourney 与 SD 哪个更好?

看用途。如果只是想从提示词得到一张漂亮的图,Midjourney 简单得多,质量也极佳。如果需要量产同一角色、混入专有数据、把成本压到电费、或复现某种动漫风格,只能靠 Stable Diffusion。很多专业人士两者都用。

该从哪个版本起步?

今天最安全的起点是 SDXL 1.0。8–12GB VRAM 可跑,Civitai 上 LoRA 库庞大,商用无营收上限,生态成熟。顶尖质量选 FLUX.1 dev(推荐 16GB+ VRAM)。SD 1.5 轻但质量落后一代——多半会让新用户感觉不够。

FLUX 与 Stable Diffusion 是不同的东西吗?

技术相关但来自不同公司。FLUX 出自 Black Forest Labs,由曾经打造 SD 的前 Stability AI 工程师创立。它的定位与其说是后继,不如说是"更高质量的开源图像 AI"。生态相互独立(FLUX LoRA 在 SD 里用不了)。但在"开源权重、本地可跑的图像 AI"这一类别中,它们同属一阵营,且都是 Civitai 与 ComfyUI 的一等公民。

该买 GPU 还是租云?

如果每月生成少于 50 张,云(Runpod / Replicate / Civitai 的按需托管)更便宜。每张图约 0.001–0.01 美元。如果每月生成数百张、自训 LoRA,或拒绝把数据发往机外,买 GPU 能回本。重度用户的性价比甜点是二手 RTX 3090(24GB,约 500 美元)。