Inhalt
- 1. 22. August 2022 — der Tag, an dem Bild-KI etwas wurde, das man herunterladen konnte
- 2. Was ist Stable Diffusion — in drei Zeilen
- 3. Versionsgeschichte — SD1.5 / SDXL / SD3.5 und die Abspaltung von FLUX
- 4. Die Realität des lokalen Betriebs — nach VRAM-Stufen
- 5. Die Lizenz-Falle — Lehren aus dem SD3-Aufschrei
- 6. Civitai / LoRA / ComfyUI — ein Ökosystem, größer als das Modell selbst
- 7. Midjourney vs. Stable Diffusion — welches soll man wählen
- 8. Drei Fallstricke — Urheberrecht, NSFW, Kompatibilität
- Zusammenfassung
- FAQ
Am 22. August 2022 veröffentlichte das Londoner Startup Stability AI die Gewichtsdatei für ein Bildgenerierungsmodell namens Stable Diffusion v1.4. Eine einzige 4-GB-`.ckpt`-Datei. In dem Moment, als sie auf GitHub und Hugging Face landete, wurde „Bildgenerierungs-KI" von etwas hinter der Cloud zu Software, die man auf den eigenen PC herunterladen konnte. Weder Midjourney noch DALL·E 2 hätten das damals getan.
Fast vier Jahre später hat Stable Diffusion SD 3.5 Large (8,1 Milliarden Parameter) erreicht, und Civitai beherbergt über 100.000 individuelle Modelle und LoRAs. Zugleich löste der Lizenz-Aufschrei rund um die Veröffentlichung von SD3 eine Entwicklerflucht aus, aus der FLUX hervorging — gebaut von Black Forest Labs, dem neuen Unternehmen des ursprünglichen SD-Teams — und FLUX hat das Mutterprojekt qualitativ überholt. Das Bild ist nicht mehr einfach.
Meine Haltung vorab. Wenn „Midjourney reicht" für dich funktioniert, zwinge dich nicht zu Stable Diffusion. Aber wenn eines der Folgenden auf dich zutrifft — „Ich will denselben Charakter konsistent über 100 Bilder halten", „Ich will lokal meine eigenen vertraulichen Daten einmischen", „Mein monatlicher Aufwand soll 0 € sein", „Ich brauche ein offenes Modell, das ich für kommerzielle Arbeiten offenlegen kann" — dann führt an SD kein Weg vorbei. Dieser Artikel behandelt die Funktionsweise von SD, die Versionsgeschichte, Hardwareanforderungen, Lizenzierung, Ökosystem und die Auswahl — Stand Mai 2026.
Vier Dinge, die es anders machen
— Was Midjourney, DALL·E und Firefly dir nie geben werden
Mit anderen Worten: Das ist die Bild-KI für Menschen, die sich Freiheit von Cloud-Abhängigkeit, Black Boxes und Monatsabos wünschen.
Der Preis dafür: eine GPU, Einrichtungszeit und Prompt-Versuch und Irrtum.
1. 22. August 2022 — der Tag, an dem Bild-KI etwas wurde, das man herunterladen konnte
Zu jener Zeit war die Bildgenerierungs-KI-Szene ein Zweikampf: OpenAIs DALL·E 2 (geschlossene Beta nur auf Einladung) und Midjourney V3 (nur über Discord). Beide reine Cloud-Lösungen, beide hielten ihre Gewichte komplett verborgen. Was ihre KI lernte, wie sie lief, was sie generieren konnte und was nicht — alles lag im Ermessen des Anbieters.
Dann traf Stability AI eine Entscheidung, die niemand erwartet hatte: die Gewichtsdatei selbst freigeben. Ein Diffusionsmodell, trainiert auf LAION-5B (5,8 Milliarden Bild-Text-Paaren), Inferenzcode unter MIT, Gewichte unter CreativeML Open RAIL-M (kommerzielle Nutzung erlaubt, fast vollständig frei). Innerhalb einer Woche hatten Ingenieure weltweit das Modell in Google Colab laufen, eine lokale WebUI (später AUTOMATIC1111) entstand, Civitai startete — und die Personalisierung von KI-Kunst nahm Fahrt auf.
Bemerkenswert war weniger der technische Sprung als der Präzedenzfall: „Bildgenerierungs-KI ist etwas, das Einzelpersonen besitzen und verändern können." In LLM-Analogie war der Schock vergleichbar mit dem Release von Llama 2 und Llama 3 mit „kommerzielle Nutzung erlaubt". Seither läuft die Bild-KI-Branche auf zwei parallelen Gleisen: „geschlossen und hochwertig" (MJ/DALL·E) und „offen und frei anpassbar" (die SD-Familie).
2. Was ist Stable Diffusion — in drei Zeilen
Stable Diffusion ist eine von Stability AI veröffentlichte Bildgenerierungs-KI mit offenen Gewichten, basierend auf einem Diffusionsmodell. Aufschlüsselung in drei Zeilen:
Was meiner Meinung nach wirklich zählt, ist, was „Diffusionsmodell" in einfacher Sprache bedeutet. In der GAN-Ära (StyleGAN und Verwandte) kämpften ein Generator und ein Diskriminator gegeneinander, um Bilder zu erzeugen. Diffusionsmodelle gingen einen anderen Weg: „Beginne mit einem verrauschten Bild und ziehe das Rauschen schrittweise ab." Eine einfachere Idee — die sich aber als deutlich stabiler und höher aufgelöst erwies als GANs. Diese Einsicht ist der Kern von SDs Erfolg, und fast jede Bild-KI seither (Imagen, DALL·E 3, FLUX) ist ebenfalls ein Diffusionsmodell.
3. Versionsgeschichte — SD1.5 / SDXL / SD3.5 und die Abspaltung von FLUX
Das Verwirrendste an SDs Geschichte ist „welche Version soll ich eigentlich nutzen?". Jede Generation unterscheidet sich in Leistung, Lizenz, empfohlener GPU und LoRA-Ökosystem. Hier ein Überblick.
| Version | Veröffentlicht | Parameter | Empfohlener VRAM | Merkmale |
|---|---|---|---|---|
| SD 1.5 | Okt. 2022 | 0,9 B | 4–8 GB | Am leichtesten, die meisten LoRAs, stärkste bei Anime. Auf Civitai weiterhin Mainstream |
| SD 2.x | Nov. 2022 | 0,9 B | 6–8 GB | Faktisch überspringen. Reduzierte Trainingsdaten, schlechtes Echo, hat nie Fuß gefasst |
| SDXL 1.0 | Juli 2023 | 3,5 B | 8–12 GB | 1024×1024 als Standard. Die Anlaufstelle für Fotorealismus und kommerzielles Design. Zweitgrößter LoRA-Pool |
| SD 3 Medium | Juni 2024 | 2 B | 8–12 GB | Lizenz-Aufschrei führte zur Entwicklerflucht. Wird allgemein als Fehlschlag betrachtet |
| SD 3.5 Medium | Okt. 2024 | 2,5 B | 9,9 GB | Wiedergutmachung für SD3. MMDiT-X-Architektur, entworfen für Consumer-PCs |
| SD 3.5 Large | Okt. 2024 | 8,1 B | 18 GB (11 GB in FP8) | Die Flaggschiff-Qualität. Zielt auf RTX 4090-Klasse |
| FLUX.1 dev | Aug. 2024 | 12 B | 12–24 GB | Von Black Forest Labs, gegründet von ehemaligen SD-Entwicklern. Wird vielfach über SD selbst gestellt |
Fazit: Wer heute startet, wählt zwischen SDXL und FLUX.1 dev. SD 1.5 ist leicht und hat die meisten LoRAs, ist aber qualitativ eine Generation zurück. SD 3.5 Large ist schwer und wird zugleich von FLUX bedrängt. Die praktische Sortierung: SDXL für kommerzielles Design, FLUX für Spitzenqualität, SD 3.5 Medium für das leichteste tragfähige lokale Setup.
Die Ankunft von FLUX hat eine ironische Vorgeschichte. Nach dem SD3-Lizenz-Debakel (mehr dazu unten) verließ ein Großteil des ursprünglichen SD-Teams Stability AI, gründete in Deutschland Black Forest Labs und brachte FLUX.1 heraus. „Ein qualitativ höherwertiger SD-Nachfolger" — kommend von genau den Menschen, die SD ursprünglich gebaut haben. Aus Community-Sicht sehen viele inzwischen FLUX eher als legitimen Erben denn das Mutterprojekt.
4. Die Realität des lokalen Betriebs — nach VRAM-Stufen
„Läuft lokal" ist eine Sache; was dein konkreter PC tatsächlich leisten kann, eine andere. Hier, was ich in der Praxis gesehen habe.
Hinweis: Zusätzlich benötigst du 16 GB+ Arbeitsspeicher und 100 GB+ freien SSD-Speicher. Mac läuft über Apple Silicons MPS, ist aber 3–5× langsamer als NVIDIA
Ohne Beschönigung: Wenn du heute ernsthaft mit SD arbeiten willst, sind die realistischen Einstiegspunkte eine RTX 3060 12GB (gebraucht etwa 200 USD) oder eine RTX 4070 (neu etwa 600 USD). 8-GB-GPUs funktionieren, aber du läufst in einen Sumpf aus Optimierungs-Flags und Quantisierung — nichts, was ich Anfängern empfehlen würde. Wer keine GPU kaufen will, fährt am besten mit Cloud-Inferenzdiensten (Runpod / Replicate / Civitais eigenem Hosting) bei rund 0,001–0,01 USD pro Bild.
5. Die Lizenz-Falle — Lehren aus dem SD3-Aufschrei
„Es ist Open Source, also ist kommerzielle Nutzung okay" ist bei SD nicht so einfach, wie viele es gerne hätten. Die Lizenz hängt von der Version ab.
Einzelne Blogger, Freelancer und Startups in frühen Phasen sind alle abgedeckt. Eine kommerzielle Vereinbarung wird nur dann gebraucht, wenn ein großes Unternehmen es in ein Produkt einbettet. Der Verkauf der generierten Bilder selbst ist unbegrenzt — egal, wie viele du erzeugst oder verkaufst, du schuldest Stability AI nichts
Als SD 3 im Juni 2024 erschien, war seine Lizenz so hart — nutzungsbasierte Gebühren pro generiertem Bild, ein Verbot der Civitai-Verteilung von Ableitungen —, dass Civitai öffentlich verweigerte, SD3-Ableitungen zu hosten. Die Community erklärte „SD ist tot", viele Entwickler wechselten zu Black Forest Labs und brachten FLUX heraus. Stability AI lockerte die Bedingungen beim Start von SD 3.5 im Oktober massiv (die aktuelle Version mit 1-Mio.-USD-Umsatzgrenze), aber Stand Mai 2026 hat sich das Vertrauen der Community noch nicht vollständig erholt.
Praktischer Rat: „Nutze einfach SDXL" ist die Version, die am wenigsten beißt. CreativeML Open RAIL-M bedeutet keine Umsatzgrenze, der LoRA-Pool ist riesig, und das Ökosystem ist ausgereift. Wechsle erst zu SD 3.5 oder FLUX, wenn SDXL nicht mehr reicht.
6. Civitai / LoRA / ComfyUI — ein Ökosystem, größer als das Modell selbst
Stable Diffusion als „nur das Modell" zu betrachten, verfehlt den Punkt. Die Stärke von SD ist das umgebende Ökosystem.
Eine Einschränkung. SD-1.5-LoRAs laden nicht in SDXL; SDXL-LoRAs laden nicht in FLUX. Jedes Basismodell ist sein eigenes Ökosystem. Wenn die LoRAs, die du auf Civitai liebst, alle SD 1.5 sind, bedeutet ein Wechsel zu SDXL, sie aufzugeben. Bei der Suche auf Civitai immer den Filter „Base Model" prüfen.
7. Midjourney vs. Stable Diffusion — welches soll man wählen
Häufig kommt die Frage „was ist besser, SD oder Midjourney/DALL·E?" — aber das ist die falsche Achse. Wähle Midjourney für Qualität, wähle SD für Freiheit und Eigentum. Völlig unterschiedliche Rollen.
| Aspekt | Midjourney V8 | Stable Diffusion (SDXL/FLUX) |
|---|---|---|
| Benutzerfreundlichkeit | ◎ Einfach den Prompt schreiben | △ Einrichtung erforderlich |
| Standardqualität | ◎ Beste künstlerische Optik der Branche | ○ Modellabhängig (FLUX auf Augenhöhe) |
| Kompositionssteuerung | △ Nur per Prompt | ◎ Volle Kontrolle über ControlNet |
| Charakter-Konsistenz | ○ Character Reference | ◎ LoRA trainieren, perfekt reproduzieren |
| Monatliche Kosten | 10–120 USD | 0 USD (lokal) oder nutzungsbasiert |
| Kommerzielle Nutzung | In bezahlten Plänen OK | SDXL unbegrenzt; SD3.5/FLUX mit 1-Mio.-USD-Grenze |
| Datenschutz | × Cloud-gebunden | ◎ Kann von Anfang bis Ende lokal bleiben |
| Lernkurve | Stunden | Tage bis Wochen |
Klare Lesart: Für „mach ein einzelnes hübsches Bild" Midjourney. 10 USD/Monat und keine Einrichtungshölle. Für „ich will 100 Bilder desselben Charakters", „ich will eigene Daten einmischen", „ich will eine kommerzielle Pauschale bei jedem Volumen" oder „ich will einen bestimmten Anime-Stil reproduzieren", Stable Diffusion. Keines ist „besser". Viele Profis nutzen beides (ein Illustrator, den ich kenne, skizziert Kompositionen grob in MJ und finalisiert in SD).
8. Drei Fallstricke — Urheberrecht, NSFW, Kompatibilität
Drei Dinge, auf die du beim SD-Einsatz stoßen wirst und die du vorher kennen solltest.
Fallstrick ①: Urheberrechtsrisiko der Trainingsdaten
Die Basismodelle von SD sind auf LAION-5B trainiert (5,8 Milliarden aus dem Internet gescrapte Bilder). Unvermeidlich sind dort urheberrechtlich geschützte Werke in großer Zahl enthalten. Getty Images verklagt derzeit Stability AI (eingereicht 2023, laufend in den USA und Großbritannien), und LoRAs für „bestimmte Künstlerstile" auf Civitai sind seit 2025 sichtbar in einer Grauzone gelandet. Für kommerzielle Arbeit: Mindesthygiene — nicht mit bestimmten Künstlernamen prompten, und selbst bei Civitai-LoRAs öffentliche Personen oder identifizierbar nach Rechteinhabern modellierte Werke meiden. Wenn „kommerzielle Sicherheit" nicht verhandelbar ist, ist Adobe Firefly die Alternative.
Fallstrick ②: NSFW-Generierung ist trivial einfach
Weil SD offene Gewichte hat, lässt sich der SafetyChecker deaktivieren, und sexuelle oder gewalttätige Bilder sind leicht zu generieren. Civitai hostet offen viele NSFW-Modelle. Die Technologie selbst ist neutral, aber die Erstellung oder Verbreitung generierter Inhalte mit Minderjährigen ist in vielen Ländern illegal (in Japan wird derzeit eine entsprechende Gesetzgebung diskutiert). Tu das niemals auf einem Arbeits-PC während der Arbeitszeit — Logs und Netzwerkverkehr machen das trivial nachvollziehbar. Selbst auf einem privaten PC ist die Erstellung oder schon der bloße Besitz bestimmter Kategorien illegal. Selbstbewusstsein ist Pflicht.
Fallstrick ③: Generationsbedingte Kompatibilitätsbrüche
Wie oben beschrieben, sind SD1.5 / SDXL / SD3.5 / FLUX jeweils ein eigenes Ökosystem. LoRAs, Embeddings und ControlNet-Modelle laden nicht über Generationen hinweg. „Lass mich auf SDXL upgraden" kann bedeuten, 50 SD-1.5-LoRAs zu entdecken, die du nicht mehr nutzen kannst. Wer startet, sollte eines wählen (SDXL oder FLUX) und innerhalb dieses Ökosystems bleiben — das ist auf lange Sicht tatsächlich effizienter.
Zusammenfassung
Stable Diffusion hat 2022 die Welt verändert. Aber 2026 ist „nimm einfach SD" nicht mehr die Standardantwort — Midjourney V8 gewinnt bei reiner Qualität, Adobe Firefly bei kommerzieller Sicherheit. Der Grund, warum SD nicht gestorben ist — und mit FLUX sogar an Schwung gewinnt — ist, dass es die einzige Option bleibt für „Bild-KI auf dem eigenen PC nutzen, mit den eigenen Daten, genau so, wie man es will, ohne von einem Cloud-Unternehmen abhängig zu sein". Midjourney kann dich aus Discord aussperren; OpenAI kann seine Geschäftsbedingungen ändern; die SD-Gewichtsdatei auf deiner SSD gehört dir. Für Menschen, die sich so sicherer fühlen, wird SD weiterhin ein besonderes Werkzeug bleiben.
FAQ
Ist Stable Diffusion kostenlos?
Das Modell selbst (Gewichtsdateien) ist kostenlos herunter- und nutzbar. Du brauchst eine GPU, um es laufen zu lassen — mindestens eine RTX 3060 12GB (ca. 200 USD) — oder einen Cloud-Inferenzdienst (Runpod kostet etwa 0,4 USD/Stunde). Stability AI schuldest du keine Monatsgebühr.
Darf ich es kommerziell nutzen?
Versionsabhängig. SD 1.5 und SDXL sind vollständig offen (CreativeML Open RAIL-M, keine Umsatzgrenze). SD 3, SD 3.5 und FLUX.1 dev sind für die kommerzielle Nutzung kostenlos bei einem Jahresumsatz unter 1 Mio. USD; darüber brauchst du einen Vertrag mit Stability AI oder Black Forest Labs. Der Verkauf der generierten Bilder selbst ist in allen Versionen unbegrenzt.
Was ist besser, Midjourney oder SD?
Kommt auf den Einsatz an. Wenn du einfach ein hübsches Bild aus einem Prompt willst, ist Midjourney deutlich einfacher und die Qualität ist exzellent. Wenn du denselben Charakter massenhaft produzieren, eigene Daten einmischen, Kosten auf Strom drücken oder einen bestimmten Anime-Stil reproduzieren musst, funktioniert nur Stable Diffusion. Viele Profis nutzen beides.
Mit welcher Version sollte ich anfangen?
SDXL 1.0 ist heute der sicherste Start. Läuft mit 8–12 GB VRAM, hat eine riesige LoRA-Bibliothek auf Civitai, keine kommerzielle Umsatzgrenze, und das Ökosystem ist ausgereift. Für Spitzenqualität wechsle zu FLUX.1 dev (empfohlen 16 GB+ VRAM). SD 1.5 ist leicht, aber qualitativ eine Generation zurück — neue Nutzer werden vermutlich mehr wollen.
Ist FLUX etwas anderes als Stable Diffusion?
Technisch verwandt, aber von einem anderen Unternehmen. FLUX kommt von Black Forest Labs, gegründet von ehemaligen Stability-AI-Ingenieuren, die SD gebaut haben. Es wird weniger als Nachfolger und mehr als „qualitativ höherwertige offene Bild-KI" positioniert. Die Ökosysteme sind getrennt (FLUX-LoRAs funktionieren nicht in SD). Aber in der Kategorie „offene Gewichte, lokal lauffähige Bild-KI" sind sie dasselbe Lager, und beide sind erstklassige Bürger auf Civitai und ComfyUI.
Soll ich eine GPU kaufen oder Cloud mieten?
Cloud (Runpod / Replicate / Civitais On-Demand) ist günstiger, wenn du weniger als 50 Bilder im Monat generierst. Rund 0,001–0,01 USD pro Bild. Wer hunderte pro Monat generiert, eigene LoRAs trainiert oder Daten nicht aus dem Haus geben will, für den lohnt sich der GPU-Kauf. Der kosteneffektive Sweet Spot für ernsthafte Nutzer ist eine gebrauchte RTX 3090 (24 GB, ca. 500 USD).