Stable Diffusion とは｜仕組み・ローカル実行・商用ライセンス

Q: 商用利用しても大丈夫ですか？

バージョンによります。SD 1.5 / SDXL は完全に自由（CreativeML Open RAIL-M、売上制限なし）。SD 3 / SD 3.5 / FLUX.1 dev は年商$1M（約1.5億円）未満なら無料商用OK、超えたらStability AI/Black Forest Labsとの契約が必要です。生成画像そのものの販売は全バージョンで無制限です。

Q: Midjourneyとどっちがいいですか？

用途次第です。プロンプトを書いて綺麗な画像が1枚欲しいだけなら Midjourney が圧倒的に楽で品質も高い。同じキャラを大量に作る・社内データを混ぜる・電気代以外をゼロにする・特定アニメ調を再現する、のいずれかが必要なら Stable Diffusion しか選べません。両方併用するプロも多いです。

Q: どのバージョンから始めるべき？

いまから入るなら SDXL 1.0 が最も安全です。VRAM 8〜12GBで動き、Civitaiに膨大なLoRA、商用利用も売上制限なし、エコシステムが成熟しています。最高品質を狙うなら FLUX.1 dev（VRAM 16GB以上推奨）。SD 1.5は軽い反面、品質が他より一世代古く、新規参入では物足りないでしょう。

Stable Diffusion とは——オープンソース画像生成AIの仕組み・ローカル実行・商用ライセンス完全解説

1. 2022年8月22日、画像AIが「ダウンロードできる」ものになった日
2. Stable Diffusion とは——3行で言うと
3. バージョン系譜——SD1.5 / SDXL / SD3.5 と FLUX の分岐
4. ローカル実行のリアル——VRAM別の現実
5. ライセンスの罠——SD3騒動から学んだこと
6. Civitai / LoRA / ComfyUI——本体より広いエコシステム
7. Midjourney vs Stable Diffusion——どっちを選ぶか
8. 3つの落とし穴——著作権・NSFW・互換性
まとめ
FAQ

2022年8月22日、ロンドン発のスタートアップ Stability AI が画像生成モデル Stable Diffusion v1.4 の重みファイルを公開した。約4GBの `.ckpt` ファイル1つ。これがGitHubとHugging Faceに上がった瞬間、「画像生成AI」は クラウドの向こうにある何か から 自分のPCにダウンロードできるソフトウェア に変わった。MidjourneyもDALL·E 2も、その時点では絶対に出さなかったものだ。

あれから4年弱。Stable Diffusion は現在 SD 3.5 Large（81億パラメータ） までバージョンが進み、Civitai には 10万を超えるカスタムモデルとLoRA が並ぶ。一方、SD3公開時のライセンス騒動で開発者が大量離脱、その流れで生まれた FLUX（旧SD開発チームの新会社 Black Forest Labs 製）が品質で本家を抜き、状況は単純ではなくなった。

私の立場を先に書く。「Midjourney でいいや」で済む人は、無理に Stable Diffusion に触らなくていい。だが「特定キャラクターを一貫させたい」「ローカルで秘密のデータを混ぜたい」「コストを月$0にしたい」「商用案件で何を使ったか開示できるオープンモデルが欲しい」のいずれかに当てはまるなら、SD は外せない。本記事ではSDの仕組み・系譜・ハード要件・ライセンス・エコシステム・使い分けまで、2026年5月時点の現状で整理する。

Stable Diffusion · オープンソース画像AI

他の画像AIと決定的に違う4点

— Midjourney/DALL·E/Firefly では絶対に手に入らないもの

① OPEN WEIGHTS

重みファイルが配布される

Hugging Faceから .safetensors を直接DL可。Midjourneyは API すら開いてない

② LOCAL FIRST

自分のGPUで動く

RTX 3060(12GB)以上で実用。生成データはローカルに留まる

③ FINE-TUNE

LoRAで好きに改造

Civitaiに10万以上のLoRA/カスタムモデル。アニメ・写実・特定キャラ何でも

④ ZERO COST

電気代以外タダ

初期投資（GPU）以降は何枚作っても $0。商用利用も条件付きでOK

言い換えると 「クラウド依存・ブラックボックス・月額固定」 から自由になりたい人のための画像AI。
ただし対価として GPUとセットアップ手間とプロンプト試行錯誤 を払う。

1. 2022年8月22日、画像AIが「ダウンロードできる」ものになった日

当時、画像生成AIは OpenAIのDALL·E 2（招待制ベータ）と Midjourney V3（Discord限定）の2強だった。どちらもクラウド完結で、内部の重みは絶対に外に出さない。「うちのAIが何を学習したか・どう動くか・どこまで生成できるか」は全部メーカーの匙加減だった。

そこに Stability AI が「重みファイルそのものを公開する」 という選択をぶつけてきた。LAION-5B（58億枚の画像-テキストペア）で訓練した拡散モデル、推論コードはMITライセンス、重みは CreativeML Open RAIL-M（商用OK・ほぼ自由）。1週間で世界中のエンジニアがGoogle Colabに突っ込み、ローカルWebUI（後のAUTOMATIC1111）が生まれ、Civitaiが立ち上がり——AIアートの個人化が一気に始まった。

これは技術的にすごかったというより、「画像生成AIは個人が所有・改造できる」 という前例を作ったのが大きい。LLMで言えば、Llama 2 や Llama 3 が「商用可」で出た瞬間に近い衝撃だった。以降、画像生成AI業界では「クローズドで高品質（MJ/DALL·E）」と「オープンで改造自由（SD系）」が常に並走している。

2. Stable Diffusion とは——3行で言うと

Stable Diffusion とは、Stability AI が公開したオープンウェイトの拡散モデル（diffusion model）型画像生成AI だ。3行で説明するとこうなる:

① 仕組み

ランダムなノイズ画像から、テキスト指示に合うように少しずつノイズを除去（denoise）して画像を作る。20〜50ステップで完成

② 構造

テキストを解釈する Text Encoder（CLIP/T5）と、ノイズ除去を担う U-Net/DiT、画像を圧縮/復元する VAE の3点セット

③ 配布

重みファイル（.safetensors、2GB〜16GB）が Hugging Face で誰でも DL 可能。ローカルGPUで動かす or クラウド推論サービス利用

個人的に大事だと思うのは「拡散モデル」という呼び方の意味だ。GAN（敵対的生成ネットワーク・StyleGANなど）の時代は 生成器と判別器が殴り合いながら画像を生成 していた。拡散モデルは違う。「ノイズだらけの画像から少しずつノイズを引いていく」 という素朴な発想で、結果として GAN より遥かに安定して高解像度を出せた。これがSDの大成功の核心で、以降の画像AIはほぼ全部 diffusion 系（Imagen / DALL·E 3 / FLUX も）になった。

3. バージョン系譜——SD1.5 / SDXL / SD3.5 と FLUX の分岐

SDの歴史で混乱しやすいのが「どのバージョンを使えばいいのか」だ。世代によって性能・ライセンス・推奨GPU・LoRAエコシステムが全部違う。表で整理する。

バージョン	公開	パラメータ	推奨VRAM	特徴
SD 1.5	2022/10	0.9B	4〜8GB	最軽量・LoRA最多・アニメ強い。今もCivitai主流
SD 2.x	2022/11	0.9B	6〜8GB	事実上スキップ推奨。学習データ縮小で評判悪く普及せず
SDXL 1.0	2023/07	3.5B	8〜12GB	1024×1024 標準。写実・商用デザインの定番。LoRA第2勢力
SD 3 Medium	2024/06	2B	8〜12GB	ライセンス炎上で開発者離脱。失敗作扱い
SD 3.5 Medium	2024/10	2.5B	9.9GB	SD3の汚名返上。MMDiT-Xアーキテクチャ、コンシューマPC向け
SD 3.5 Large	2024/10	8.1B	18GB（FP8で11GB）	本家最高品質。RTX 4090級向け
FLUX.1 dev	2024/08	12B	12〜24GB	SD元開発陣のBlack Forest Labs製。SDより高品質と評価される

結論を先に言うと、初学者がいま入るなら SDXL か FLUX.1 dev の二択 だ。SD1.5 は軽くて LoRA が多いが品質的に古い、SD 3.5 Large は重い割に FLUX に押されている。商用デザインなら SDXL、最高品質を狙うなら FLUX、ローカルで限界まで軽くしたいなら SD 3.5 Medium という整理が現実的だ。

FLUXの登場は皮肉な経緯がある。SD3公開時のライセンス改悪（後述）で旧SD開発陣の多くが Stability AI を離れ、ドイツで Black Forest Labs を設立、FLUX.1 を出した。「SDより高品質なSD後継」が SDを作った人たちの新会社から出てきた ——コミュニティから見ると本家より FLUX の方が正統と見る人も少なくない。

4. ローカル実行のリアル——VRAM別の現実

「ローカルで動く」とは聞いたが、実際どのPCで何ができるのか。私が見てきた肌感を整理する。

4〜6GB（GTX 1660 / RTX 3050）

ギリギリ動く層

SD 1.5 のみ。1枚20〜60秒。SDXL以降は厳しい

8GB（RTX 3060 Ti / 4060）

実用最低ライン

SDXL がメモリ最適化で動く。1024px 1枚15〜30秒

12GB（RTX 3060 12GB / 4070）

快適ライン

SDXL/SD 3.5 Medium 余裕。LoRA重ね掛けOK。1枚5〜15秒

16〜24GB（RTX 4080 / 4090）

本気の制作環境

FLUX/SD 3.5 Large 余裕。LoRA訓練もできる。1枚2〜8秒

※ RAM 16GB以上・SSD 100GB以上空きが別途必要。MacはApple Silicon の MPS で動くが NVIDIA の3〜5倍遅い

身も蓋もない話をすると、今からSDをまともに触るなら RTX 3060 12GB（中古3万円台）か RTX 4070（新品10万円前後）が現実的な入り口 だ。8GB GPUでも動くが、最適化フラグやら quantize やら設定地獄が待っているので、初心者には勧めない。「GPU買うのは嫌だ」なら、後述する クラウド推論サービス（Runpod / Replicate / Civitai 自前ホスト） で1枚 $0.001〜$0.01 で借りるのが正解。

5. ライセンスの罠——SD3騒動から学んだこと

「オープンソースだから商用利用OK」と単純に言えないのがSDの厄介な点だ。バージョンによってライセンスが違う。

SD 1.5 / SDXL

CreativeML Open RAIL-M

売上制限なし・商用利用ほぼ完全に自由。違法・有害利用を禁じる以外の縛りなし

SD 3 / SD 3.5 / FLUX.1 dev

Community License（年商$1M条件付き）

年商$1M（約1.5億円）未満の個人・組織は商用OK。超えたらEnterprise契約必須

個人ブロガー・フリーランス・スタートアップ初期は全部OK。大企業のプロダクト組み込みでだけ商用契約が要る。生成画像そのものの売買は無制限（何枚生成・販売してもStability AIに払う必要なし）

SD 3 が2024年6月に出た当初、ライセンスがあまりに厳しく（生成画像枚数で課金、Civitai でのモデル配布禁止など）、Civitai が SD3 派生モデルを公式に拒否する宣言 を出した。コミュニティから「SDは終わった」と総スカン、開発者の多くが Black Forest Labs に流れ FLUX を出す——という事件があった。Stability AI は10月の SD 3.5 公開時にライセンスを大幅緩和（現在の年商$1M版）したが、コミュニティの信頼回復には至っていない、というのが2026年5月時点の状況だ。

実務上の判断: 「とりあえず SDXL を使え」 が一番ハマらない。CreativeML Open RAIL-M なので年商制限なし、LoRAも豊富、エコシステム完成済み。SD 3.5 や FLUX を使うのは、SDXLで物足りなくなってからで十分だ。

6. Civitai / LoRA / ComfyUI——本体より広いエコシステム

Stable Diffusion を「本体だけ」で語ると本質を外す。SDが強いのは周辺エコシステムだ。

Civitai

モデル配布ハブ

10万以上のチェックポイント・LoRA・Embedding。アニメ・写実・特定キャラ・特定ポーズ何でも揃う

LoRA

追加学習ファイル

50〜300MB の小型ファイルでベースモデルにスタイル/キャラを追加。重ね掛けで合成可能

ComfyUI

ノードベースUI

プロ御用達。複雑なワークフロー（ControlNet→アップスケール→Inpaint連鎖など）を視覚的に組める

A1111

初心者向けWebUI

AUTOMATIC1111 製。フォーム入力型で直感的。日本のSD民の8割はこれで始めた

ControlNet

構図制御

ポーズ画像/線画/深度マップで構図を指定。Midjourneyにはこの精度の制御がない

IP-Adapter

画像参照

参照画像のスタイル/顔/服装を新画像にコピー。キャラ一貫性に必須

注意点が1つ。SD 1.5 のLoRAは SDXL に載らない・SDXLのLoRAは FLUX に載らない。ベースモデルごとに別エコシステムだ。「Civitaiで気に入ったLoRAが SD 1.5 用ばかり」なら、いまから SDXL に乗り換えるとそのLoRAは捨てることになる。Civitaiで検索するとき 「Base Model」フィルタを必ず確認 すべし。LoRAという仕組み自体をもっと知りたいならLoRAとは何かを読むと理解が深まる。

7. Midjourney vs Stable Diffusion——どっちを選ぶか

SDをMidjourneyやDALL·Eと並べて「どっちが上か」を聞く人が多いが、それは比較軸を間違えている。クオリティで勝負するならMidjourney、自由度と所有権で勝負するならSD ——役割が違う。

観点	Midjourney V8	Stable Diffusion (SDXL/FLUX)
手軽さ	◎ プロンプト書くだけ	△ セットアップ要
デフォ品質	◎ アート性業界最強	○ モデル次第（FLUXは互角）
構図制御	△ プロンプトのみ	◎ ControlNetで完全制御
キャラ一貫性	○ Character Reference	◎ LoRA訓練で完璧再現
月額コスト	$10〜$120	$0（ローカル）〜従量
商用利用	有料プランで可	SDXLは無制限・SD3.5/FLUXは年商$1M条件
データ秘匿	× クラウド送信	◎ ローカル完結可
学習コスト	数時間	数日〜数週間

整理するとこうなる。「綺麗な画像を1枚作る」だけなら Midjourney。月$10で済むし、設定地獄もない。「同じキャラを100枚作りたい」「会社の機密データを混ぜたい」「商用案件で何枚作っても定額」「特定アニメ調を再現したい」なら Stable Diffusion。この使い分けに優劣はない。両方持つプロも多い（私の知るイラストレーターは MJで構図ラフ→SDで本番、という流れ）。

8. 3つの落とし穴——著作権・NSFW・互換性

SDを使う上で必ずぶつかる3つの注意点。先に知っておくと事故らない。

落とし穴①: 学習データの著作権リスク

SDの基礎モデルは LAION-5B（インターネットからスクレイピングした58億枚）で訓練されている。当然、著作権で保護された作品も大量に混入している。Getty Images が Stability AI を提訴中（2023年〜継続中、英米両国）、Civitai上の「特定アーティスト風」LoRA は2025年以降グレーが濃くなった。商用案件で SDを使うなら最低限「特定アーティスト名でプロンプト指定しない」「Civitai LoRA でも公人/著作権者を模したものは避ける」のラインは守る。「商用安全」を絶対視するなら Adobe Firefly が選択肢になる。

落とし穴②: NSFW（性的/暴力的）生成の容易さ

SDはオープンウェイトゆえ、SafetyChecker を無効化すれば 性的・暴力的画像も簡単に生成できる。Civitaiにも明示的にNSFWモデルが多数ある。これ自体は技術として中立だが、未成年を含む生成物の作成・共有は国・地域によって違法（日本でも改正法案議論中）。会社のPCで業務時間に絶対やってはいけない（ログ・回線で簡単に分かる）。家庭用PCでも、生成・保管自体が違法になるカテゴリがあるため、自衛意識は必須。

落とし穴③: モデル互換性の世代分断

前述の通り、SD1.5 / SDXL / SD3.5 / FLUX はそれぞれ別エコシステム。LoRA・Embedding・ControlNet モデルが互換しない。「SDXLに移行しよう」と思ったら手持ちのSD1.5 LoRA 50個は全部使えない、というのが起きる。新規参入なら SDXL か FLUX のどちらか一本に絞って、そのエコシステム内で揃える のが結局効率的だ。

まとめ

本質

画像生成AIを 「個人が所有・改造できるソフトウェア」 に変えた革命。MJ/DALL·Eには無い自由がある

入り口

RTX 3060 12GB + SDXL + A1111 が現実的なスタート。GPUがない人はRunpodで$0.001/枚から

使い分け

普通の人はMidjourney。「同じキャラ100枚」「秘密データ」「電気代だけ」なら SD

注意

著作権・NSFW・モデル互換性の3点は最初に知るべき。商用案件は SDXL（売上制限なし）から

Stable Diffusion は2022年に世界を変えた。だが2026年現在、「最高品質の画像が欲しいだけ」なら Midjourney V8、「商用安全なら」Adobe Firefly、と 「とりあえずSD」が正解だった時代は終わった。それでも SDが死なないのは——いやむしろ FLUX の登場で勢いを増しているのは——「クラウド企業に依存せず、自分のPCで、自分のデータで、好きなように画像AIを使う」という選択肢を提供する唯一の選択肢 だからだ。MidjourneyにDiscordから締め出されても、OpenAIが利用規約を変えても、SDの重みファイルは自分のSSDの中にある。その安心感に価値を感じる人にとって、SDはこれからも特別なツールであり続ける。

FAQ

Stable Diffusion は無料ですか？

モデル本体（重みファイル）のダウンロードと使用は無料です。ただし動かすにはGPU（RTX 3060 12GB 以上推奨、約3万円〜）かクラウド推論サービス（Runpodなら1時間$0.4〜）が必要です。Stability AIに月額料金を払う必要はありません。

商用利用しても大丈夫ですか？

バージョンによります。SD 1.5 / SDXL は完全に自由（CreativeML Open RAIL-M、売上制限なし）。SD 3 / SD 3.5 / FLUX.1 dev は年商$1M（約1.5億円）未満なら無料商用OK、超えたらStability AI/Black Forest Labsとの契約が必要です。生成画像そのものの販売は全バージョンで無制限です。

Midjourneyとどっちがいいですか？

用途次第です。プロンプトを書いて綺麗な画像が1枚欲しいだけなら Midjourney が圧倒的に楽で品質も高い。同じキャラを大量に作る・社内データを混ぜる・電気代以外をゼロにする・特定アニメ調を再現する、のいずれかが必要なら Stable Diffusion しか選べません。両方併用するプロも多いです。

どのバージョンから始めるべき？

いまから入るなら SDXL 1.0 が最も安全です。VRAM 8〜12GBで動き、Civitaiに膨大なLoRA、商用利用も売上制限なし、エコシステムが成熟しています。最高品質を狙うなら FLUX.1 dev（VRAM 16GB以上推奨）。SD 1.5は軽い反面、品質が他より一世代古く、新規参入では物足りないでしょう。

FLUXは Stable Diffusion とは別物？

技術的には親戚ですが、開発元が違います。FLUXはStable Diffusionの元開発陣がStability AIを離れて設立した Black Forest Labs 製で、SDの後継というよりは「SDより高品質なオープン画像AI」として独立した存在です。エコシステムも別（FLUX用LoRAはSDで動かない）。ただし「オープンウェイトのローカル実行可能な画像生成AI」というジャンルでは同じ陣営で、両方とも Civitai や ComfyUI で扱われます。

GPUを買うべきか、クラウドを借りるべきか？

月50枚未満ならクラウド（Runpod / Replicate / Civitaiのオンデマンド）で十分安く済みます。1枚$0.001〜$0.01程度。月数百枚以上生成する・LoRAを自分で訓練する・データを外に出したくない、のいずれかなら GPU 購入が元を取れます。中古RTX 3090（24GB、約7万円）が「コスパで本気層」の定番です。

Stable Diffusion とは——オープンソース画像生成AIの仕組み・ローカル実行・商用ライセンス完全解説

他の画像AIと決定的に違う4点

1. 2022年8月22日、画像AIが「ダウンロードできる」ものになった日

2. Stable Diffusion とは——3行で言うと

3. バージョン系譜——SD1.5 / SDXL / SD3.5 と FLUX の分岐

4. ローカル実行のリアル——VRAM別の現実

5. ライセンスの罠——SD3騒動から学んだこと

6. Civitai / LoRA / ComfyUI——本体より広いエコシステム

7. Midjourney vs Stable Diffusion——どっちを選ぶか

8. 3つの落とし穴——著作権・NSFW・互換性

落とし穴①: 学習データの著作権リスク

落とし穴②: NSFW（性的/暴力的）生成の容易さ

落とし穴③: モデル互換性の世代分断

まとめ

FAQ

関連記事

画像生成AIツールおすすめ8選比較｜Midjourney・DALL-E・Stable Diffusionを用途別に

ゲーム開発で使える生成AIツール20選！アート・音楽・コーディングまで完全網羅

AIデザインツール比較——Canva・Adobe Firefly・Figma AI・Recraftを用途別に徹底解説

Midjourney の使い方——V8.1の基本・5層プロンプト・パラメータ・参照画像・料金プランまで完全ガイド

コメント

コメントを投稿