目次
2022年8月22日、ロンドン発のスタートアップ Stability AI が画像生成モデル Stable Diffusion v1.4 の重みファイルを公開した。約4GBの `.ckpt` ファイル1つ。これがGitHubとHugging Faceに上がった瞬間、「画像生成AI」は クラウドの向こうにある何か から 自分のPCにダウンロードできるソフトウェア に変わった。MidjourneyもDALL·E 2も、その時点では絶対に出さなかったものだ。
あれから4年弱。Stable Diffusion は現在 SD 3.5 Large(81億パラメータ) までバージョンが進み、Civitai には 10万を超えるカスタムモデルとLoRA が並ぶ。一方、SD3公開時のライセンス騒動で開発者が大量離脱、その流れで生まれた FLUX(旧SD開発チームの新会社 Black Forest Labs 製)が品質で本家を抜き、状況は単純ではなくなった。
私の立場を先に書く。「Midjourney でいいや」で済む人は、無理に Stable Diffusion に触らなくていい。だが「特定キャラクターを一貫させたい」「ローカルで秘密のデータを混ぜたい」「コストを月$0にしたい」「商用案件で何を使ったか開示できるオープンモデルが欲しい」のいずれかに当てはまるなら、SD は外せない。本記事ではSDの仕組み・系譜・ハード要件・ライセンス・エコシステム・使い分けまで、2026年5月時点の現状で整理する。
他の画像AIと決定的に違う4点
— Midjourney/DALL·E/Firefly では絶対に手に入らないもの
言い換えると 「クラウド依存・ブラックボックス・月額固定」 から自由になりたい人のための画像AI。
ただし対価として GPUとセットアップ手間とプロンプト試行錯誤 を払う。
1. 2022年8月22日、画像AIが「ダウンロードできる」ものになった日
当時、画像生成AIは OpenAIのDALL·E 2(招待制ベータ)と Midjourney V3(Discord限定)の2強だった。どちらもクラウド完結で、内部の重みは絶対に外に出さない。「うちのAIが何を学習したか・どう動くか・どこまで生成できるか」は全部メーカーの匙加減だった。
そこに Stability AI が「重みファイルそのものを公開する」 という選択をぶつけてきた。LAION-5B(58億枚の画像-テキストペア)で訓練した拡散モデル、推論コードはMITライセンス、重みは CreativeML Open RAIL-M(商用OK・ほぼ自由)。1週間で世界中のエンジニアがGoogle Colabに突っ込み、ローカルWebUI(後のAUTOMATIC1111)が生まれ、Civitaiが立ち上がり——AIアートの個人化が一気に始まった。
これは技術的にすごかったというより、「画像生成AIは個人が所有・改造できる」 という前例を作ったのが大きい。LLMで言えば、Llama 2 や Llama 3 が「商用可」で出た瞬間に近い衝撃だった。以降、画像生成AI業界では「クローズドで高品質(MJ/DALL·E)」と「オープンで改造自由(SD系)」が常に並走している。
2. Stable Diffusion とは——3行で言うと
Stable Diffusion とは、Stability AI が公開したオープンウェイトの拡散モデル(diffusion model)型 画像生成AI だ。3行で説明するとこうなる:
個人的に大事だと思うのは「拡散モデル」という呼び方の意味だ。GAN(敵対的生成ネットワーク・StyleGANなど)の時代は 生成器と判別器が殴り合いながら画像を生成 していた。拡散モデルは違う。「ノイズだらけの画像から少しずつノイズを引いていく」 という素朴な発想で、結果として GAN より遥かに安定して高解像度を出せた。これがSDの大成功の核心で、以降の画像AIはほぼ全部 diffusion 系(Imagen / DALL·E 3 / FLUX も)になった。
3. バージョン系譜——SD1.5 / SDXL / SD3.5 と FLUX の分岐
SDの歴史で混乱しやすいのが「どのバージョンを使えばいいのか」だ。世代によって性能・ライセンス・推奨GPU・LoRAエコシステムが全部違う。表で整理する。
| バージョン | 公開 | パラメータ | 推奨VRAM | 特徴 |
|---|---|---|---|---|
| SD 1.5 | 2022/10 | 0.9B | 4〜8GB | 最軽量・LoRA最多・アニメ強い。今もCivitai主流 |
| SD 2.x | 2022/11 | 0.9B | 6〜8GB | 事実上スキップ推奨。学習データ縮小で評判悪く普及せず |
| SDXL 1.0 | 2023/07 | 3.5B | 8〜12GB | 1024×1024 標準。写実・商用デザインの定番。LoRA第2勢力 |
| SD 3 Medium | 2024/06 | 2B | 8〜12GB | ライセンス炎上で開発者離脱。失敗作扱い |
| SD 3.5 Medium | 2024/10 | 2.5B | 9.9GB | SD3の汚名返上。MMDiT-Xアーキテクチャ、コンシューマPC向け |
| SD 3.5 Large | 2024/10 | 8.1B | 18GB(FP8で11GB) | 本家最高品質。RTX 4090級向け |
| FLUX.1 dev | 2024/08 | 12B | 12〜24GB | SD元開発陣のBlack Forest Labs製。SDより高品質と評価される |
結論を先に言うと、初学者がいま入るなら SDXL か FLUX.1 dev の二択 だ。SD1.5 は軽くて LoRA が多いが品質的に古い、SD 3.5 Large は重い割に FLUX に押されている。商用デザインなら SDXL、最高品質を狙うなら FLUX、ローカルで限界まで軽くしたいなら SD 3.5 Medium という整理が現実的だ。
FLUXの登場は皮肉な経緯がある。SD3公開時のライセンス改悪(後述)で旧SD開発陣の多くが Stability AI を離れ、ドイツで Black Forest Labs を設立、FLUX.1 を出した。「SDより高品質なSD後継」が SDを作った人たちの新会社から出てきた ——コミュニティから見ると本家より FLUX の方が正統と見る人も少なくない。
4. ローカル実行のリアル——VRAM別の現実
「ローカルで動く」とは聞いたが、実際どのPCで何ができるのか。私が見てきた肌感を整理する。
※ RAM 16GB以上・SSD 100GB以上空きが別途必要。MacはApple Silicon の MPS で動くが NVIDIA の3〜5倍遅い
身も蓋もない話をすると、今からSDをまともに触るなら RTX 3060 12GB(中古3万円台)か RTX 4070(新品10万円前後)が現実的な入り口 だ。8GB GPUでも動くが、最適化フラグやら quantize やら設定地獄が待っているので、初心者には勧めない。「GPU買うのは嫌だ」なら、後述する クラウド推論サービス(Runpod / Replicate / Civitai 自前ホスト) で1枚 $0.001〜$0.01 で借りるのが正解。
5. ライセンスの罠——SD3騒動から学んだこと
「オープンソースだから商用利用OK」と単純に言えないのがSDの厄介な点だ。バージョンによってライセンスが違う。
個人ブロガー・フリーランス・スタートアップ初期は全部OK。大企業のプロダクト組み込みでだけ商用契約が要る。生成画像そのものの売買は無制限(何枚生成・販売してもStability AIに払う必要なし)
SD 3 が2024年6月に出た当初、ライセンスがあまりに厳しく(生成画像枚数で課金、Civitai でのモデル配布禁止など)、Civitai が SD3 派生モデルを公式に拒否する宣言 を出した。コミュニティから「SDは終わった」と総スカン、開発者の多くが Black Forest Labs に流れ FLUX を出す——という事件があった。Stability AI は10月の SD 3.5 公開時にライセンスを大幅緩和(現在の年商$1M版)したが、コミュニティの信頼回復には至っていない、というのが2026年5月時点の状況だ。
実務上の判断: 「とりあえず SDXL を使え」 が一番ハマらない。CreativeML Open RAIL-M なので年商制限なし、LoRAも豊富、エコシステム完成済み。SD 3.5 や FLUX を使うのは、SDXLで物足りなくなってからで十分だ。
6. Civitai / LoRA / ComfyUI——本体より広いエコシステム
Stable Diffusion を「本体だけ」で語ると本質を外す。SDが強いのは周辺エコシステムだ。
注意点が1つ。SD 1.5 のLoRAは SDXL に載らない・SDXLのLoRAは FLUX に載らない。ベースモデルごとに別エコシステムだ。「Civitaiで気に入ったLoRAが SD 1.5 用ばかり」なら、いまから SDXL に乗り換えるとそのLoRAは捨てることになる。Civitaiで検索するとき 「Base Model」フィルタを必ず確認 すべし。
7. Midjourney vs Stable Diffusion——どっちを選ぶか
SDをMidjourneyやDALL·Eと並べて「どっちが上か」を聞く人が多いが、それは比較軸を間違えている。クオリティで勝負するならMidjourney、自由度と所有権で勝負するならSD ——役割が違う。
| 観点 | Midjourney V8 | Stable Diffusion (SDXL/FLUX) |
|---|---|---|
| 手軽さ | ◎ プロンプト書くだけ | △ セットアップ要 |
| デフォ品質 | ◎ アート性業界最強 | ○ モデル次第(FLUXは互角) |
| 構図制御 | △ プロンプトのみ | ◎ ControlNetで完全制御 |
| キャラ一貫性 | ○ Character Reference | ◎ LoRA訓練で完璧再現 |
| 月額コスト | $10〜$120 | $0(ローカル)〜従量 |
| 商用利用 | 有料プランで可 | SDXLは無制限・SD3.5/FLUXは年商$1M条件 |
| データ秘匿 | × クラウド送信 | ◎ ローカル完結可 |
| 学習コスト | 数時間 | 数日〜数週間 |
整理するとこうなる。「綺麗な画像を1枚作る」だけなら Midjourney。月$10で済むし、設定地獄もない。「同じキャラを100枚作りたい」「会社の機密データを混ぜたい」「商用案件で何枚作っても定額」「特定アニメ調を再現したい」なら Stable Diffusion。この使い分けに優劣はない。両方持つプロも多い(私の知るイラストレーターは MJで構図ラフ→SDで本番、という流れ)。
8. 3つの落とし穴——著作権・NSFW・互換性
SDを使う上で必ずぶつかる3つの注意点。先に知っておくと事故らない。
落とし穴①: 学習データの著作権リスク
SDの基礎モデルは LAION-5B(インターネットからスクレイピングした58億枚)で訓練されている。当然、著作権で保護された作品も大量に混入している。Getty Images が Stability AI を提訴中(2023年〜継続中、英米両国)、Civitai上の「特定アーティスト風」LoRA は2025年以降グレーが濃くなった。商用案件で SDを使うなら最低限「特定アーティスト名でプロンプト指定しない」「Civitai LoRA でも公人/著作権者を模したものは避ける」のラインは守る。「商用安全」を絶対視するなら Adobe Firefly が選択肢になる。
落とし穴②: NSFW(性的/暴力的)生成の容易さ
SDはオープンウェイトゆえ、SafetyChecker を無効化すれば 性的・暴力的画像も簡単に生成できる。Civitaiにも明示的にNSFWモデルが多数ある。これ自体は技術として中立だが、未成年を含む生成物の作成・共有は国・地域によって違法(日本でも改正法案議論中)。会社のPCで業務時間に絶対やってはいけない(ログ・回線で簡単に分かる)。家庭用PCでも、生成・保管自体が違法になるカテゴリがあるため、自衛意識は必須。
落とし穴③: モデル互換性の世代分断
前述の通り、SD1.5 / SDXL / SD3.5 / FLUX はそれぞれ別エコシステム。LoRA・Embedding・ControlNet モデルが互換しない。「SDXLに移行しよう」と思ったら手持ちのSD1.5 LoRA 50個は全部使えない、というのが起きる。新規参入なら SDXL か FLUX のどちらか一本に絞って、そのエコシステム内で揃える のが結局効率的だ。
まとめ
Stable Diffusion は2022年に世界を変えた。だが2026年現在、「最高品質の画像が欲しいだけ」なら Midjourney V8、「商用安全なら」Adobe Firefly、と 「とりあえずSD」が正解だった時代は終わった。それでも SDが死なないのは——いやむしろ FLUX の登場で勢いを増しているのは——「クラウド企業に依存せず、自分のPCで、自分のデータで、好きなように画像AIを使う」という選択肢を提供する唯一の選択肢 だからだ。MidjourneyにDiscordから締め出されても、OpenAIが利用規約を変えても、SDの重みファイルは自分のSSDの中にある。その安心感に価値を感じる人にとって、SDはこれからも特別なツールであり続ける。
FAQ
Stable Diffusion は無料ですか?
モデル本体(重みファイル)のダウンロードと使用は無料です。ただし動かすにはGPU(RTX 3060 12GB 以上推奨、約3万円〜)かクラウド推論サービス(Runpodなら1時間$0.4〜)が必要です。Stability AIに月額料金を払う必要はありません。
商用利用しても大丈夫ですか?
バージョンによります。SD 1.5 / SDXL は完全に自由(CreativeML Open RAIL-M、売上制限なし)。SD 3 / SD 3.5 / FLUX.1 dev は年商$1M(約1.5億円)未満なら無料商用OK、超えたらStability AI/Black Forest Labsとの契約が必要です。生成画像そのものの販売は全バージョンで無制限です。
Midjourneyとどっちがいいですか?
用途次第です。プロンプトを書いて綺麗な画像が1枚欲しいだけなら Midjourney が圧倒的に楽で品質も高い。同じキャラを大量に作る・社内データを混ぜる・電気代以外をゼロにする・特定アニメ調を再現する、のいずれかが必要なら Stable Diffusion しか選べません。両方併用するプロも多いです。
どのバージョンから始めるべき?
いまから入るなら SDXL 1.0 が最も安全です。VRAM 8〜12GBで動き、Civitaiに膨大なLoRA、商用利用も売上制限なし、エコシステムが成熟しています。最高品質を狙うなら FLUX.1 dev(VRAM 16GB以上推奨)。SD 1.5は軽い反面、品質が他より一世代古く、新規参入では物足りないでしょう。
FLUXは Stable Diffusion とは別物?
技術的には親戚ですが、開発元が違います。FLUXはStable Diffusionの元開発陣がStability AIを離れて設立した Black Forest Labs 製で、SDの後継というよりは「SDより高品質なオープン画像AI」として独立した存在です。エコシステムも別(FLUX用LoRAはSDで動かない)。ただし「オープンウェイトのローカル実行可能な画像生成AI」というジャンルでは同じ陣営で、両方とも Civitai や ComfyUI で扱われます。
GPUを買うべきか、クラウドを借りるべきか?
月50枚未満ならクラウド(Runpod / Replicate / Civitaiのオンデマンド)で十分安く済みます。1枚$0.001〜$0.01程度。月数百枚以上生成する・LoRAを自分で訓練する・データを外に出したくない、のいずれかなら GPU 購入が元を取れます。中古RTX 3090(24GB、約7万円)が「コスパで本気層」の定番です。