Am 22. August 2022 veröffentlichte das Londoner Startup Stability AI die Gewichtsdatei für ein Bildgenerierungsmodell namens Stable Diffusion v1.4. Eine einzige 4-GB-`.ckpt`-Datei. In dem Moment, als sie auf GitHub und Hugging Face landete, wurde „Bildgenerierungs-KI" von etwas hinter der Cloud zu Software, die man auf den eigenen PC herunterladen konnte. Weder Midjourney noch DALL·E 2 hätten das damals getan.

Fast vier Jahre später hat Stable Diffusion SD 3.5 Large (8,1 Milliarden Parameter) erreicht, und Civitai beherbergt über 100.000 individuelle Modelle und LoRAs. Zugleich löste der Lizenz-Aufschrei rund um die Veröffentlichung von SD3 eine Entwicklerflucht aus, aus der FLUX hervorging — gebaut von Black Forest Labs, dem neuen Unternehmen des ursprünglichen SD-Teams — und FLUX hat das Mutterprojekt qualitativ überholt. Das Bild ist nicht mehr einfach.

Meine Haltung vorab. Wenn „Midjourney reicht" für dich funktioniert, zwinge dich nicht zu Stable Diffusion. Aber wenn eines der Folgenden auf dich zutrifft — „Ich will denselben Charakter konsistent über 100 Bilder halten", „Ich will lokal meine eigenen vertraulichen Daten einmischen", „Mein monatlicher Aufwand soll 0 € sein", „Ich brauche ein offenes Modell, das ich für kommerzielle Arbeiten offenlegen kann" — dann führt an SD kein Weg vorbei. Dieser Artikel behandelt die Funktionsweise von SD, die Versionsgeschichte, Hardwareanforderungen, Lizenzierung, Ökosystem und die Auswahl — Stand Mai 2026.

Stable Diffusion · Open-Source-Bild-KI

Vier Dinge, die es anders machen

— Was Midjourney, DALL·E und Firefly dir nie geben werden

① OFFENE GEWICHTE
Gewichtsdateien werden verteilt
Lade .safetensors direkt von Hugging Face. Midjourney bietet nicht einmal eine API
② LOCAL FIRST
Läuft auf deiner eigenen GPU
Praxistauglich ab RTX 3060 (12 GB) aufwärts. Generierte Daten bleiben auf deinem Rechner
③ FEINTUNING
Frei anpassbar mit LoRA
Über 100.000 LoRAs und individuelle Modelle auf Civitai — Anime, Fotorealismus, bestimmte Charaktere, alles
④ NULL KOSTEN
Kostenlos jenseits des Stroms
Nach der einmaligen GPU-Anschaffung kostet jedes Bild 0 €. Kommerzielle Nutzung unter Bedingungen ebenfalls erlaubt

Mit anderen Worten: Das ist die Bild-KI für Menschen, die sich Freiheit von Cloud-Abhängigkeit, Black Boxes und Monatsabos wünschen.
Der Preis dafür: eine GPU, Einrichtungszeit und Prompt-Versuch und Irrtum.

1. 22. August 2022 — der Tag, an dem Bild-KI etwas wurde, das man herunterladen konnte

Zu jener Zeit war die Bildgenerierungs-KI-Szene ein Zweikampf: OpenAIs DALL·E 2 (geschlossene Beta nur auf Einladung) und Midjourney V3 (nur über Discord). Beide reine Cloud-Lösungen, beide hielten ihre Gewichte komplett verborgen. Was ihre KI lernte, wie sie lief, was sie generieren konnte und was nicht — alles lag im Ermessen des Anbieters.

Dann traf Stability AI eine Entscheidung, die niemand erwartet hatte: die Gewichtsdatei selbst freigeben. Ein Diffusionsmodell, trainiert auf LAION-5B (5,8 Milliarden Bild-Text-Paaren), Inferenzcode unter MIT, Gewichte unter CreativeML Open RAIL-M (kommerzielle Nutzung erlaubt, fast vollständig frei). Innerhalb einer Woche hatten Ingenieure weltweit das Modell in Google Colab laufen, eine lokale WebUI (später AUTOMATIC1111) entstand, Civitai startete — und die Personalisierung von KI-Kunst nahm Fahrt auf.

Bemerkenswert war weniger der technische Sprung als der Präzedenzfall: „Bildgenerierungs-KI ist etwas, das Einzelpersonen besitzen und verändern können." In LLM-Analogie war der Schock vergleichbar mit dem Release von Llama 2 und Llama 3 mit „kommerzielle Nutzung erlaubt". Seither läuft die Bild-KI-Branche auf zwei parallelen Gleisen: „geschlossen und hochwertig" (MJ/DALL·E) und „offen und frei anpassbar" (die SD-Familie).

2. Was ist Stable Diffusion — in drei Zeilen

Stable Diffusion ist eine von Stability AI veröffentlichte Bildgenerierungs-KI mit offenen Gewichten, basierend auf einem Diffusionsmodell. Aufschlüsselung in drei Zeilen:

① FUNKTIONSWEISE
Startet von einem zufälligen Rauschbild und entrauscht es schrittweise, bis es zu deinem Text-Prompt passt. Dauert 20–50 Schritte
② ARCHITEKTUR
Ein dreiteiliger Stack: Text-Encoder (CLIP/T5) interpretiert den Prompt, U-Net/DiT übernimmt das Entrauschen, und ein VAE komprimiert/dekomprimiert das Bild
③ VERTEILUNG
Gewichtsdateien (.safetensors, 2 GB–16 GB) sind frei von Hugging Face herunterladbar. Lass sie auf einer lokalen GPU laufen oder über Cloud-Inferenzdienste

Was meiner Meinung nach wirklich zählt, ist, was „Diffusionsmodell" in einfacher Sprache bedeutet. In der GAN-Ära (StyleGAN und Verwandte) kämpften ein Generator und ein Diskriminator gegeneinander, um Bilder zu erzeugen. Diffusionsmodelle gingen einen anderen Weg: „Beginne mit einem verrauschten Bild und ziehe das Rauschen schrittweise ab." Eine einfachere Idee — die sich aber als deutlich stabiler und höher aufgelöst erwies als GANs. Diese Einsicht ist der Kern von SDs Erfolg, und fast jede Bild-KI seither (Imagen, DALL·E 3, FLUX) ist ebenfalls ein Diffusionsmodell.

3. Versionsgeschichte — SD1.5 / SDXL / SD3.5 und die Abspaltung von FLUX

Das Verwirrendste an SDs Geschichte ist „welche Version soll ich eigentlich nutzen?". Jede Generation unterscheidet sich in Leistung, Lizenz, empfohlener GPU und LoRA-Ökosystem. Hier ein Überblick.

Version Veröffentlicht Parameter Empfohlener VRAM Merkmale
SD 1.5 Okt. 2022 0,9 B 4–8 GB Am leichtesten, die meisten LoRAs, stärkste bei Anime. Auf Civitai weiterhin Mainstream
SD 2.x Nov. 2022 0,9 B 6–8 GB Faktisch überspringen. Reduzierte Trainingsdaten, schlechtes Echo, hat nie Fuß gefasst
SDXL 1.0 Juli 2023 3,5 B 8–12 GB 1024×1024 als Standard. Die Anlaufstelle für Fotorealismus und kommerzielles Design. Zweitgrößter LoRA-Pool
SD 3 Medium Juni 2024 2 B 8–12 GB Lizenz-Aufschrei führte zur Entwicklerflucht. Wird allgemein als Fehlschlag betrachtet
SD 3.5 Medium Okt. 2024 2,5 B 9,9 GB Wiedergutmachung für SD3. MMDiT-X-Architektur, entworfen für Consumer-PCs
SD 3.5 Large Okt. 2024 8,1 B 18 GB (11 GB in FP8) Die Flaggschiff-Qualität. Zielt auf RTX 4090-Klasse
FLUX.1 dev Aug. 2024 12 B 12–24 GB Von Black Forest Labs, gegründet von ehemaligen SD-Entwicklern. Wird vielfach über SD selbst gestellt

Fazit: Wer heute startet, wählt zwischen SDXL und FLUX.1 dev. SD 1.5 ist leicht und hat die meisten LoRAs, ist aber qualitativ eine Generation zurück. SD 3.5 Large ist schwer und wird zugleich von FLUX bedrängt. Die praktische Sortierung: SDXL für kommerzielles Design, FLUX für Spitzenqualität, SD 3.5 Medium für das leichteste tragfähige lokale Setup.

Die Ankunft von FLUX hat eine ironische Vorgeschichte. Nach dem SD3-Lizenz-Debakel (mehr dazu unten) verließ ein Großteil des ursprünglichen SD-Teams Stability AI, gründete in Deutschland Black Forest Labs und brachte FLUX.1 heraus. „Ein qualitativ höherwertiger SD-Nachfolger" — kommend von genau den Menschen, die SD ursprünglich gebaut haben. Aus Community-Sicht sehen viele inzwischen FLUX eher als legitimen Erben denn das Mutterprojekt.

4. Die Realität des lokalen Betriebs — nach VRAM-Stufen

„Läuft lokal" ist eine Sache; was dein konkreter PC tatsächlich leisten kann, eine andere. Hier, was ich in der Praxis gesehen habe.

4–6 GB (GTX 1660 / RTX 3050)
Knapp-funktioniert-Stufe
Nur SD 1.5. 20–60 Sek. pro Bild. SDXL und höher sind grenzwertig
8 GB (RTX 3060 Ti / 4060)
Praxis-Minimum
SDXL läuft mit Speicheroptimierung. 15–30 Sek. pro 1024-px-Bild
12 GB (RTX 3060 12GB / 4070)
Komfort-Stufe
SDXL/SD 3.5 Medium mit Luft nach oben. LoRAs frei stapeln. 5–15 Sek. pro Bild
16–24 GB (RTX 4080 / 4090)
Ernsthaftes Produktions-Setup
FLUX/SD 3.5 Large mit Luft nach oben. Du kannst eigene LoRAs trainieren. 2–8 Sek. pro Bild

Hinweis: Zusätzlich benötigst du 16 GB+ Arbeitsspeicher und 100 GB+ freien SSD-Speicher. Mac läuft über Apple Silicons MPS, ist aber 3–5× langsamer als NVIDIA

Ohne Beschönigung: Wenn du heute ernsthaft mit SD arbeiten willst, sind die realistischen Einstiegspunkte eine RTX 3060 12GB (gebraucht etwa 200 USD) oder eine RTX 4070 (neu etwa 600 USD). 8-GB-GPUs funktionieren, aber du läufst in einen Sumpf aus Optimierungs-Flags und Quantisierung — nichts, was ich Anfängern empfehlen würde. Wer keine GPU kaufen will, fährt am besten mit Cloud-Inferenzdiensten (Runpod / Replicate / Civitais eigenem Hosting) bei rund 0,001–0,01 USD pro Bild.

5. Die Lizenz-Falle — Lehren aus dem SD3-Aufschrei

„Es ist Open Source, also ist kommerzielle Nutzung okay" ist bei SD nicht so einfach, wie viele es gerne hätten. Die Lizenz hängt von der Version ab.

SD 1.5 / SDXL
CreativeML Open RAIL-M
Keine Umsatzgrenze. Kommerzielle Nutzung ist nahezu vollständig frei. Einschränkungen betreffen nur illegale oder schädliche Verwendung
SD 3 / SD 3.5 / FLUX.1 dev
Community License (mit 1-Mio.-USD-Umsatzgrenze)
Privatpersonen und Organisationen mit weniger als 1 Mio. USD Jahresumsatz dürfen es kommerziell nutzen. Darüber ist ein Enterprise-Vertrag erforderlich

Einzelne Blogger, Freelancer und Startups in frühen Phasen sind alle abgedeckt. Eine kommerzielle Vereinbarung wird nur dann gebraucht, wenn ein großes Unternehmen es in ein Produkt einbettet. Der Verkauf der generierten Bilder selbst ist unbegrenzt — egal, wie viele du erzeugst oder verkaufst, du schuldest Stability AI nichts

Als SD 3 im Juni 2024 erschien, war seine Lizenz so hart — nutzungsbasierte Gebühren pro generiertem Bild, ein Verbot der Civitai-Verteilung von Ableitungen —, dass Civitai öffentlich verweigerte, SD3-Ableitungen zu hosten. Die Community erklärte „SD ist tot", viele Entwickler wechselten zu Black Forest Labs und brachten FLUX heraus. Stability AI lockerte die Bedingungen beim Start von SD 3.5 im Oktober massiv (die aktuelle Version mit 1-Mio.-USD-Umsatzgrenze), aber Stand Mai 2026 hat sich das Vertrauen der Community noch nicht vollständig erholt.

Praktischer Rat: „Nutze einfach SDXL" ist die Version, die am wenigsten beißt. CreativeML Open RAIL-M bedeutet keine Umsatzgrenze, der LoRA-Pool ist riesig, und das Ökosystem ist ausgereift. Wechsle erst zu SD 3.5 oder FLUX, wenn SDXL nicht mehr reicht.

6. Civitai / LoRA / ComfyUI — ein Ökosystem, größer als das Modell selbst

Stable Diffusion als „nur das Modell" zu betrachten, verfehlt den Punkt. Die Stärke von SD ist das umgebende Ökosystem.

Civitai
Modell-Verteilungs-Hub
Über 100.000 Checkpoints, LoRAs, Embeddings. Anime, Fotorealismus, bestimmte Charaktere, bestimmte Posen — alles
LoRA
Trainings-Zusatzdatei
Kleine Dateien (50–300 MB), die einem Basismodell einen Stil oder Charakter hinzufügen. Stapelbar, um Effekte zu kombinieren
ComfyUI
Node-basierte UI
Die Wahl der Profis. Baue komplexe Workflows visuell (ControlNet → Upscale → Inpaint-Ketten usw.)
A1111
Einsteigerfreundliche WebUI
AUTOMATIC1111s Projekt. Formularbasiert und intuitiv. So sind die meisten SD-Nutzer zuerst eingestiegen
ControlNet
Kompositionssteuerung
Lege die Komposition über ein Pose-Bild, eine Strichzeichnung oder eine Tiefenkarte fest. Midjourney hat in dieser Präzision nichts Vergleichbares
IP-Adapter
Bildreferenz
Übertrage Stil, Gesicht oder Outfit eines Referenzbildes auf ein neues Bild. Essenziell für Charakter-Konsistenz

Eine Einschränkung. SD-1.5-LoRAs laden nicht in SDXL; SDXL-LoRAs laden nicht in FLUX. Jedes Basismodell ist sein eigenes Ökosystem. Wenn die LoRAs, die du auf Civitai liebst, alle SD 1.5 sind, bedeutet ein Wechsel zu SDXL, sie aufzugeben. Bei der Suche auf Civitai immer den Filter „Base Model" prüfen.

7. Midjourney vs. Stable Diffusion — welches soll man wählen

Häufig kommt die Frage „was ist besser, SD oder Midjourney/DALL·E?" — aber das ist die falsche Achse. Wähle Midjourney für Qualität, wähle SD für Freiheit und Eigentum. Völlig unterschiedliche Rollen.

Aspekt Midjourney V8 Stable Diffusion (SDXL/FLUX)
Benutzerfreundlichkeit ◎ Einfach den Prompt schreiben △ Einrichtung erforderlich
Standardqualität ◎ Beste künstlerische Optik der Branche ○ Modellabhängig (FLUX auf Augenhöhe)
Kompositionssteuerung △ Nur per Prompt ◎ Volle Kontrolle über ControlNet
Charakter-Konsistenz ○ Character Reference ◎ LoRA trainieren, perfekt reproduzieren
Monatliche Kosten 10–120 USD 0 USD (lokal) oder nutzungsbasiert
Kommerzielle Nutzung In bezahlten Plänen OK SDXL unbegrenzt; SD3.5/FLUX mit 1-Mio.-USD-Grenze
Datenschutz × Cloud-gebunden ◎ Kann von Anfang bis Ende lokal bleiben
Lernkurve Stunden Tage bis Wochen

Klare Lesart: Für „mach ein einzelnes hübsches Bild" Midjourney. 10 USD/Monat und keine Einrichtungshölle. Für „ich will 100 Bilder desselben Charakters", „ich will eigene Daten einmischen", „ich will eine kommerzielle Pauschale bei jedem Volumen" oder „ich will einen bestimmten Anime-Stil reproduzieren", Stable Diffusion. Keines ist „besser". Viele Profis nutzen beides (ein Illustrator, den ich kenne, skizziert Kompositionen grob in MJ und finalisiert in SD).

8. Drei Fallstricke — Urheberrecht, NSFW, Kompatibilität

Drei Dinge, auf die du beim SD-Einsatz stoßen wirst und die du vorher kennen solltest.

Fallstrick ①: Urheberrechtsrisiko der Trainingsdaten

Die Basismodelle von SD sind auf LAION-5B trainiert (5,8 Milliarden aus dem Internet gescrapte Bilder). Unvermeidlich sind dort urheberrechtlich geschützte Werke in großer Zahl enthalten. Getty Images verklagt derzeit Stability AI (eingereicht 2023, laufend in den USA und Großbritannien), und LoRAs für „bestimmte Künstlerstile" auf Civitai sind seit 2025 sichtbar in einer Grauzone gelandet. Für kommerzielle Arbeit: Mindesthygiene — nicht mit bestimmten Künstlernamen prompten, und selbst bei Civitai-LoRAs öffentliche Personen oder identifizierbar nach Rechteinhabern modellierte Werke meiden. Wenn „kommerzielle Sicherheit" nicht verhandelbar ist, ist Adobe Firefly die Alternative.

Fallstrick ②: NSFW-Generierung ist trivial einfach

Weil SD offene Gewichte hat, lässt sich der SafetyChecker deaktivieren, und sexuelle oder gewalttätige Bilder sind leicht zu generieren. Civitai hostet offen viele NSFW-Modelle. Die Technologie selbst ist neutral, aber die Erstellung oder Verbreitung generierter Inhalte mit Minderjährigen ist in vielen Ländern illegal (in Japan wird derzeit eine entsprechende Gesetzgebung diskutiert). Tu das niemals auf einem Arbeits-PC während der Arbeitszeit — Logs und Netzwerkverkehr machen das trivial nachvollziehbar. Selbst auf einem privaten PC ist die Erstellung oder schon der bloße Besitz bestimmter Kategorien illegal. Selbstbewusstsein ist Pflicht.

Fallstrick ③: Generationsbedingte Kompatibilitätsbrüche

Wie oben beschrieben, sind SD1.5 / SDXL / SD3.5 / FLUX jeweils ein eigenes Ökosystem. LoRAs, Embeddings und ControlNet-Modelle laden nicht über Generationen hinweg. „Lass mich auf SDXL upgraden" kann bedeuten, 50 SD-1.5-LoRAs zu entdecken, die du nicht mehr nutzen kannst. Wer startet, sollte eines wählen (SDXL oder FLUX) und innerhalb dieses Ökosystems bleiben — das ist auf lange Sicht tatsächlich effizienter.

Zusammenfassung

Wesen
Die Revolution, die Bild-KI in „Software, die Einzelne besitzen und verändern können" verwandelte. Bietet Freiheiten, die MJ/DALL·E nicht geben
Einstiegspunkt
RTX 3060 12GB + SDXL + A1111 ist der realistische Start. Keine GPU? Runpod ab 0,001 USD/Bild
Was nutzen
Für die meisten: Midjourney. Wähle SD nur, wenn du „100 vom selben Charakter", „private Daten" oder „nur Stromkosten" brauchst
Vorsicht
Urheberrecht, NSFW und Kompatibilitätsbrüche sind die drei Dinge, die man früh wissen sollte. Starte kommerzielle Arbeit auf SDXL (keine Umsatzgrenze)

Stable Diffusion hat 2022 die Welt verändert. Aber 2026 ist „nimm einfach SD" nicht mehr die Standardantwort — Midjourney V8 gewinnt bei reiner Qualität, Adobe Firefly bei kommerzieller Sicherheit. Der Grund, warum SD nicht gestorben ist — und mit FLUX sogar an Schwung gewinnt — ist, dass es die einzige Option bleibt für „Bild-KI auf dem eigenen PC nutzen, mit den eigenen Daten, genau so, wie man es will, ohne von einem Cloud-Unternehmen abhängig zu sein". Midjourney kann dich aus Discord aussperren; OpenAI kann seine Geschäftsbedingungen ändern; die SD-Gewichtsdatei auf deiner SSD gehört dir. Für Menschen, die sich so sicherer fühlen, wird SD weiterhin ein besonderes Werkzeug bleiben.

FAQ

Ist Stable Diffusion kostenlos?

Das Modell selbst (Gewichtsdateien) ist kostenlos herunter- und nutzbar. Du brauchst eine GPU, um es laufen zu lassen — mindestens eine RTX 3060 12GB (ca. 200 USD) — oder einen Cloud-Inferenzdienst (Runpod kostet etwa 0,4 USD/Stunde). Stability AI schuldest du keine Monatsgebühr.

Darf ich es kommerziell nutzen?

Versionsabhängig. SD 1.5 und SDXL sind vollständig offen (CreativeML Open RAIL-M, keine Umsatzgrenze). SD 3, SD 3.5 und FLUX.1 dev sind für die kommerzielle Nutzung kostenlos bei einem Jahresumsatz unter 1 Mio. USD; darüber brauchst du einen Vertrag mit Stability AI oder Black Forest Labs. Der Verkauf der generierten Bilder selbst ist in allen Versionen unbegrenzt.

Was ist besser, Midjourney oder SD?

Kommt auf den Einsatz an. Wenn du einfach ein hübsches Bild aus einem Prompt willst, ist Midjourney deutlich einfacher und die Qualität ist exzellent. Wenn du denselben Charakter massenhaft produzieren, eigene Daten einmischen, Kosten auf Strom drücken oder einen bestimmten Anime-Stil reproduzieren musst, funktioniert nur Stable Diffusion. Viele Profis nutzen beides.

Mit welcher Version sollte ich anfangen?

SDXL 1.0 ist heute der sicherste Start. Läuft mit 8–12 GB VRAM, hat eine riesige LoRA-Bibliothek auf Civitai, keine kommerzielle Umsatzgrenze, und das Ökosystem ist ausgereift. Für Spitzenqualität wechsle zu FLUX.1 dev (empfohlen 16 GB+ VRAM). SD 1.5 ist leicht, aber qualitativ eine Generation zurück — neue Nutzer werden vermutlich mehr wollen.

Ist FLUX etwas anderes als Stable Diffusion?

Technisch verwandt, aber von einem anderen Unternehmen. FLUX kommt von Black Forest Labs, gegründet von ehemaligen Stability-AI-Ingenieuren, die SD gebaut haben. Es wird weniger als Nachfolger und mehr als „qualitativ höherwertige offene Bild-KI" positioniert. Die Ökosysteme sind getrennt (FLUX-LoRAs funktionieren nicht in SD). Aber in der Kategorie „offene Gewichte, lokal lauffähige Bild-KI" sind sie dasselbe Lager, und beide sind erstklassige Bürger auf Civitai und ComfyUI.

Soll ich eine GPU kaufen oder Cloud mieten?

Cloud (Runpod / Replicate / Civitais On-Demand) ist günstiger, wenn du weniger als 50 Bilder im Monat generierst. Rund 0,001–0,01 USD pro Bild. Wer hunderte pro Monat generiert, eigene LoRAs trainiert oder Daten nicht aus dem Haus geben will, für den lohnt sich der GPU-Kauf. Der kosteneffektive Sweet Spot für ernsthafte Nutzer ist eine gebrauchte RTX 3090 (24 GB, ca. 500 USD).