Le 22 août 2022, la startup londonienne Stability AI a publié le fichier de poids d'un modèle de génération d'images appelé Stable Diffusion v1.4. Un seul fichier `.ckpt` de 4 Go. À l'instant où il a atterri sur GitHub et Hugging Face, « l'IA de génération d'images » est passée de quelque chose derrière le cloud à un logiciel téléchargeable sur son propre PC. Ni Midjourney ni DALL·E 2 n'auraient fait cela à l'époque.

Près de quatre ans plus tard, Stable Diffusion en est à SD 3.5 Large (8,1 milliards de paramètres), et Civitai héberge plus de 100 000 modèles personnalisés et LoRAs. Pendant ce temps, le retour de bâton sur la licence à la sortie de SD3 a provoqué un exode de développeurs, ce qui a donné naissance à FLUX — créé par la nouvelle société de l'équipe SD d'origine, Black Forest Labs — et FLUX a dépassé son parent en qualité. Le tableau n'est plus simple.

Ma position d'emblée. Si « Midjourney me suffit » vous convient, ne vous forcez pas à passer à Stable Diffusion. Mais si l'une de ces situations s'applique — « je veux garder le même personnage cohérent sur 100 images », « je veux mélanger localement mes propres données confidentielles », « je veux que mon coût mensuel soit de 0 \$ », « il me faut un modèle ouvert que je puisse divulguer pour un travail commercial » — alors SD est incontournable. Cet article couvre le fonctionnement de SD, son historique de versions, la configuration matérielle, la licence, l'écosystème et comment choisir, le tout à jour en mai 2026.

Stable Diffusion · IA d'image open-source

Quatre choses qui le rendent unique

— Ce que Midjourney, DALL·E et Firefly ne vous donneront jamais

① POIDS OUVERTS
Les fichiers de poids sont distribués
Téléchargez les .safetensors directement depuis Hugging Face. Midjourney n'expose même pas d'API
② LOCAL D'ABORD
Tourne sur votre propre GPU
Pratique dès une RTX 3060 (12 Go). Les données générées restent sur votre machine
③ FINE-TUNE
Modifiez librement avec LoRA
Plus de 100 000 LoRAs et modèles personnalisés sur Civitai — anime, photoréaliste, personnages précis, tout
④ COÛT ZÉRO
Gratuit hors électricité
Une fois le GPU acheté, chaque image coûte 0 \$. L'usage commercial est aussi OK sous conditions

Autrement dit, c'est l'IA d'image pour ceux qui veulent s'affranchir de la dépendance au cloud, des boîtes noires et des abonnements mensuels.
Le prix à payer en échange : un GPU, du temps de configuration et des essais-erreurs de prompt.

1. 22 août 2022 — le jour où l'IA d'image est devenue téléchargeable

À l'époque, la scène de l'IA de génération d'images était un duel : DALL·E 2 d'OpenAI (bêta sur invitation) et Midjourney V3 (Discord uniquement). Tous deux étaient exclusivement cloud, et tous deux gardaient leurs poids complètement cachés. Ce que leur IA apprenait, comment elle tournait, ce qu'elle pouvait et ne pouvait pas générer — tout dépendait du bon vouloir de l'éditeur.

Puis Stability AI a fait un choix que personne n'attendait : publier le fichier de poids lui-même. Un modèle de diffusion entraîné sur LAION-5B (5,8 milliards de paires image-texte), code d'inférence sous MIT, poids sous CreativeML Open RAIL-M (usage commercial OK, presque entièrement libre). En une semaine, des ingénieurs du monde entier le faisaient tourner sur Google Colab, une WebUI locale (plus tard AUTOMATIC1111) est née, Civitai a été lancé — et la personnalisation de l'art IA a décollé.

L'étonnant n'était pas tant le saut technique que le précédent : « l'IA de génération d'images est quelque chose que les individus peuvent posséder et modifier ». Pour une analogie côté LLM, le choc était proche de la sortie de Llama 2 et Llama 3 avec « usage commercial OK ». Depuis, l'industrie de l'IA d'image avance sur deux voies parallèles : « fermé et haute qualité » (MJ/DALL·E) et « ouvert et librement personnalisable » (la famille SD).

2. Qu'est-ce que Stable Diffusion — en trois lignes

Stable Diffusion est une IA de génération d'images à poids ouverts, basée sur un modèle de diffusion, publiée par Stability AI. Décomposition en trois lignes :

① FONCTIONNEMENT
Part d'une image de bruit aléatoire, puis la débruite progressivement pour correspondre à votre prompt texte. Prend 20 à 50 étapes
② ARCHITECTURE
Une pile en trois parties : un Text Encoder (CLIP/T5) qui interprète le prompt, un U-Net/DiT qui débruite, et un VAE qui compresse/décompresse l'image
③ DISTRIBUTION
Les fichiers de poids (.safetensors, 2 Go–16 Go) sont librement téléchargeables depuis Hugging Face. Faites-les tourner sur un GPU local ou via des services d'inférence cloud

Ce qui compte vraiment, à mon avis, c'est ce que « modèle de diffusion » signifie en clair. À l'ère du GAN (StyleGAN et compagnie), un générateur et un discriminateur s'affrontaient pour produire des images. Les modèles de diffusion ont pris une autre voie : « partir d'une image bruitée et soustraire progressivement le bruit ». Une idée plus simple — mais qui s'est révélée bien plus stable et capable de produire des sorties haute résolution que les GANs. Cette intuition est le cœur du succès de SD, et presque toutes les IA d'image depuis (Imagen, DALL·E 3, FLUX) sont également des modèles de diffusion.

3. Lignée des versions — SD1.5 / SDXL / SD3.5 et la scission FLUX

Le plus déroutant dans l'histoire de SD, c'est « quelle version devrais-je vraiment utiliser ? ». Chaque génération diffère en performance, licence, GPU recommandé et écosystème LoRA. Mettons-le à plat.

Version Sortie Paramètres VRAM recommandée Caractéristiques
SD 1.5 Oct. 2022 0,9 G 4–8 Go Le plus léger, le plus de LoRAs, le plus fort en anime. Toujours dominant sur Civitai
SD 2.x Nov. 2022 0,9 G 6–8 Go À ignorer en pratique. Données d'entraînement réduites, mauvais accueil, n'a jamais pris
SDXL 1.0 Juil. 2023 3,5 G 8–12 Go Standard 1024×1024. Référence en photoréalisme et design commercial. Deuxième plus grand pool de LoRAs
SD 3 Medium Juin 2024 2 G 8–12 Go Le retour de bâton sur la licence a provoqué l'exode des développeurs. Largement perçu comme un échec
SD 3.5 Medium Oct. 2024 2,5 G 9,9 Go Rédemption après SD3. Architecture MMDiT-X, conçue pour les PC grand public
SD 3.5 Large Oct. 2024 8,1 G 18 Go (11 Go en FP8) Le modèle phare en qualité. Visé pour la classe RTX 4090
FLUX.1 dev Août 2024 12 G 12–24 Go Par Black Forest Labs, fondé par d'anciens développeurs SD. Largement jugé supérieur à SD lui-même

Conclusion : si vous démarrez aujourd'hui, le choix se joue entre SDXL et FLUX.1 dev. SD 1.5 est léger et a le plus de LoRAs, mais il est en retard d'une génération sur la qualité. SD 3.5 Large est lourd et pourtant bousculé par FLUX. Le tri pratique : SDXL pour le design commercial, FLUX pour la qualité maximale, SD 3.5 Medium pour la configuration locale la plus légère et viable.

L'arrivée de FLUX a une histoire ironique. Après le fiasco de la licence SD3 (voir plus bas), une grande partie de l'équipe SD d'origine a quitté Stability AI, monté Black Forest Labs en Allemagne, et lancé FLUX.1. « Un successeur de SD de meilleure qualité » — venant des gens qui ont construit SD à la base. Du point de vue de la communauté, beaucoup voient maintenant FLUX comme l'héritier légitime, plutôt que le parent.

4. La réalité de l'exécution locale — par palier de VRAM

« Tourne en local » est une chose ; ce que votre PC précis peut réellement faire en est une autre. Voici ce que j'ai vu en pratique.

4–6 Go (GTX 1660 / RTX 3050)
Palier « ça passe à peine »
SD 1.5 uniquement. 20 à 60 sec par image. SDXL et au-delà, ça devient rude
8 Go (RTX 3060 Ti / 4060)
Seuil pratique minimal
SDXL passe avec optimisation mémoire. 15 à 30 sec par image 1024 px
12 Go (RTX 3060 12 Go / 4070)
Palier confortable
SDXL/SD 3.5 Medium avec marge. Empilez les LoRAs librement. 5 à 15 sec par image
16–24 Go (RTX 4080 / 4090)
Configuration de production sérieuse
FLUX/SD 3.5 Large avec marge. Vous pouvez entraîner vos propres LoRAs. 2 à 8 sec par image

Note : 16 Go+ de RAM système et 100 Go+ d'espace SSD libre sont aussi nécessaires. Mac fonctionne via MPS d'Apple Silicon, mais 3 à 5× plus lent que NVIDIA

Sans enrobage : si vous voulez toucher sérieusement à SD aujourd'hui, les points d'entrée réalistes sont une RTX 3060 12 Go (environ 200 \$ d'occasion) ou une RTX 4070 (environ 600 \$ neuf). Les GPU 8 Go fonctionnent, mais vous entrez dans un marais de drapeaux d'optimisation et de quantification — pas ce que je recommanderais à un débutant. Si vous ne voulez pas acheter de GPU, la bonne stratégie est les services d'inférence cloud (Runpod / Replicate / l'hébergement de Civitai) à environ 0,001 à 0,01 \$ par image.

5. Le piège de la licence — leçons du fiasco SD3

« C'est open source, donc l'usage commercial est OK » n'est pas une affirmation aussi simple qu'on le voudrait avec SD. La licence dépend de la version.

SD 1.5 / SDXL
CreativeML Open RAIL-M
Pas de plafond de chiffre d'affaires. L'usage commercial est presque entièrement libre. Les seules restrictions concernent l'usage illégal ou nuisible
SD 3 / SD 3.5 / FLUX.1 dev
Community License (plafond 1 M\$ de CA)
Les particuliers et organisations sous 1 M\$ de revenu annuel peuvent l'utiliser commercialement. Au-dessus, un contrat Enterprise est requis

Blogueurs individuels, freelances et startups en phase initiale sont tous tranquilles. Un accord commercial n'est nécessaire que lorsqu'une grande entreprise l'intègre à un produit. La vente des images générées elles-mêmes est illimitée — quelle que soit la quantité générée ou vendue, vous ne devez rien à Stability AI

Quand SD 3 est sorti en juin 2024, sa licence était si dure — frais par image générée, interdiction de distribution sur Civitai des dérivés — que Civitai a publiquement refusé d'héberger les dérivés SD3. La communauté a déclaré « SD est mort », de nombreux développeurs sont partis vers Black Forest Labs et ont livré FLUX. Stability AI a massivement assoupli les conditions au lancement de SD 3.5 en octobre (la version actuelle à 1 M\$ de CA), mais en mai 2026, la confiance de la communauté n'est pas totalement restaurée.

Conseil pratique : « utilisez simplement SDXL » est la version qui mord le moins. CreativeML Open RAIL-M signifie pas de plafond de CA, le pool de LoRAs est énorme, et l'écosystème est mature. Passez à SD 3.5 ou FLUX seulement quand SDXL cesse de suffire.

6. Civitai / LoRA / ComfyUI — un écosystème plus grand que le modèle

Parler de Stable Diffusion comme « juste le modèle » passe à côté de l'essentiel. La force de SD, c'est l'écosystème qui l'entoure.

Civitai
Hub de distribution de modèles
100 000+ checkpoints, LoRAs, embeddings. Anime, photoréaliste, personnages précis, poses précises — tout
LoRA
Fichier d'entraînement additionnel
Petits fichiers de 50 à 300 Mo qui ajoutent un style ou un personnage à un modèle de base. Empilez-les pour combiner les effets
ComfyUI
UI à base de nœuds
Le choix des pros. Construisez visuellement des workflows complexes (chaînes ControlNet → upscale → Inpaint, etc.)
A1111
WebUI accessible aux débutants
Le projet d'AUTOMATIC1111. Basé sur des formulaires et intuitif. Le point d'entrée de la plupart des utilisateurs SD
ControlNet
Contrôle de composition
Spécifiez la composition avec une image de pose, un dessin au trait ou une carte de profondeur. Midjourney n'a pas d'équivalent à cette précision
IP-Adapter
Référence par image
Reportez le style, le visage ou la tenue d'une image de référence sur une nouvelle image. Essentiel pour la cohérence des personnages

Une mise en garde. Les LoRAs SD 1.5 ne se chargent pas sur SDXL ; les LoRAs SDXL ne se chargent pas sur FLUX. Chaque modèle de base est son propre écosystème. Si les LoRAs que vous adorez sur Civitai sont tous SD 1.5, passer à SDXL signifie les abandonner. En cherchant sur Civitai, vérifiez toujours le filtre « Base Model ».

7. Midjourney vs Stable Diffusion — lequel choisir

On demande souvent « lequel est meilleur, SD ou Midjourney/DALL·E ? » — mais c'est le mauvais axe. Choisissez Midjourney pour la qualité, choisissez SD pour la liberté et la propriété. Des rôles totalement différents.

Critère Midjourney V8 Stable Diffusion (SDXL/FLUX)
Facilité d'usage ◎ Il suffit d'écrire le prompt △ Configuration requise
Qualité par défaut ◎ Meilleur rendu artistique du secteur ○ Dépend du modèle (FLUX est au niveau)
Contrôle de composition △ Prompt uniquement ◎ Contrôle total via ControlNet
Cohérence de personnage ○ Character Reference ◎ Entraînez un LoRA, reproduisez parfaitement
Coût mensuel 10 à 120 \$ 0 \$ (local) ou paiement à l'usage
Usage commercial OK sur les plans payants SDXL illimité ; SD3.5/FLUX plafond 1 M\$
Confidentialité des données × Lié au cloud ◎ Peut rester local de bout en bout
Courbe d'apprentissage Quelques heures Jours à semaines

Lecture nette : pour « faire une seule belle image », Midjourney. 10 \$/mois et aucun enfer de configuration. Pour « je veux 100 images du même personnage », « je veux mélanger des données propriétaires », « je veux un forfait commercial à n'importe quel volume » ou « je veux reproduire un style anime précis », Stable Diffusion. Aucun n'est « meilleur ». Beaucoup de pros utilisent les deux (un illustrateur que je connais ébauche la composition dans MJ et finit dans SD).

8. Trois pièges — droits d'auteur, NSFW, compatibilité

Trois choses que vous rencontrerez en utilisant SD et qui méritent d'être connues d'emblée.

Piège ① : risque de droits d'auteur sur les données d'entraînement

Les modèles de base de SD sont entraînés sur LAION-5B (5,8 milliards d'images scrapées sur internet). Inévitablement, des œuvres protégées s'y trouvent en grand nombre. Getty Images poursuit actuellement Stability AI (action déposée en 2023, en cours aux États-Unis et au Royaume-Uni), et les LoRAs « style d'artiste précis » sur Civitai sont devenus visiblement plus gris depuis 2025. Pour un travail commercial, hygiène minimale : ne promptez pas avec des noms d'artistes précis, et même sur les LoRAs Civitai, évitez les figures publiques ou les œuvres modelées sur des titulaires de droits identifiables. Si « la sûreté commerciale » n'est pas négociable, Adobe Firefly est l'alternative.

Piège ② : la génération NSFW est trivialement facile

Comme SD a des poids ouverts, désactiver le SafetyChecker rend les images sexuelles ou violentes faciles à générer. Civitai héberge ouvertement de nombreux modèles NSFW. La technologie elle-même est neutre, mais la création ou la distribution de contenu généré impliquant des mineurs est illégale dans de nombreux pays (au Japon, une législation est actuellement en discussion). Ne faites jamais cela sur un PC de travail pendant les heures de travail — les logs et le trafic réseau rendent la détection triviale. Même sur un PC personnel, certaines catégories sont illégales à créer ou même à stocker. La conscience de soi est obligatoire.

Piège ③ : ruptures de compatibilité entre générations

Comme vu plus haut, SD1.5 / SDXL / SD3.5 / FLUX sont chacun leur propre écosystème. LoRAs, embeddings et modèles ControlNet ne se chargent pas d'un à l'autre. « Bon, je passe à SDXL » peut signifier découvrir 50 LoRAs SD1.5 que vous ne pouvez plus utiliser. Si vous débutez, choisissez-en un (SDXL ou FLUX) et restez dans cet écosystème — c'est en fait plus efficace à long terme.

Synthèse

Essence
La révolution qui a transformé l'IA d'image en « un logiciel que les individus peuvent posséder et modifier ». Apporte des libertés que MJ/DALL·E n'offrent pas
Point d'entrée
RTX 3060 12 Go + SDXL + A1111 est le départ réaliste. Pas de GPU ? Utilisez Runpod à partir de 0,001 \$/image
Lequel utiliser
La plupart des gens : Midjourney. Choisissez SD seulement s'il vous faut « 100 du même personnage », « des données privées » ou « des coûts limités à l'électricité »
Attention
Droits d'auteur, NSFW et ruptures de compatibilité sont les trois choses à connaître tôt. Démarrez le travail commercial sur SDXL (pas de plafond de CA)

Stable Diffusion a changé le monde en 2022. Mais en 2026, « utilisez simplement SD » n'est plus la réponse par défaut — Midjourney V8 gagne en qualité brute, Adobe Firefly gagne en sûreté commerciale. La raison pour laquelle SD n'est pas mort — et a même gagné en élan avec FLUX — est qu'il reste la seule option pour « utiliser l'IA d'image sur son propre PC, avec ses propres données, exactement comme on le veut, sans dépendre d'aucune entreprise cloud ». Midjourney peut vous exclure de Discord ; OpenAI peut changer ses conditions de service ; le fichier de poids SD sur votre SSD est à vous. Pour les gens qui se sentent plus en sécurité ainsi, SD continuera d'être un outil à part.

FAQ

Stable Diffusion est-il gratuit ?

Le modèle lui-même (fichiers de poids) est gratuit à télécharger et à utiliser. Il vous faut un GPU pour le faire tourner — au minimum une RTX 3060 12 Go (environ 200 \$) — ou un service d'inférence cloud (Runpod tourne à environ 0,4 \$/heure). Vous ne devez aucun frais mensuel à Stability AI.

Puis-je l'utiliser commercialement ?

Cela dépend de la version. SD 1.5 et SDXL sont entièrement ouverts (CreativeML Open RAIL-M, pas de plafond de CA). SD 3, SD 3.5 et FLUX.1 dev sont gratuits pour l'usage commercial sous 1 M\$ de revenu annuel ; au-dessus, il faut un contrat avec Stability AI ou Black Forest Labs. La vente des images générées elles-mêmes est illimitée pour toutes les versions.

Lequel est meilleur, Midjourney ou SD ?

Cela dépend de l'usage. Si vous voulez juste une belle image à partir d'un prompt, Midjourney est bien plus simple et la qualité est excellente. S'il vous faut produire en masse le même personnage, mélanger des données propriétaires, ramener le coût à celui de l'électricité ou reproduire un style anime précis, seul Stable Diffusion fonctionne. Beaucoup de pros utilisent les deux.

Par quelle version commencer ?

SDXL 1.0 est le départ le plus sûr aujourd'hui. Tourne en 8 à 12 Go de VRAM, dispose d'une énorme bibliothèque LoRA sur Civitai, n'a pas de plafond de CA commercial, et l'écosystème est mature. Pour la qualité maximale, passez à FLUX.1 dev (16 Go+ de VRAM recommandés). SD 1.5 est léger mais en retard d'une génération sur la qualité — il laissera probablement les nouveaux utilisateurs sur leur faim.

FLUX est-il différent de Stable Diffusion ?

Techniquement apparenté mais d'une autre société. FLUX vient de Black Forest Labs, fondé par d'anciens ingénieurs de Stability AI qui ont construit SD. Il se positionne moins comme un successeur et plus comme « une IA d'image ouverte de meilleure qualité ». Les écosystèmes sont séparés (les LoRAs FLUX ne fonctionnent pas dans SD). Mais dans la catégorie « IA d'image à poids ouverts, exécutable localement », ils sont du même camp, et tous deux sont citoyens de premier rang sur Civitai et ComfyUI.

Acheter un GPU ou louer dans le cloud ?

Le cloud (Runpod / Replicate / Civitai à la demande) est moins cher si vous générez moins de 50 images par mois. Environ 0,001 à 0,01 \$ par image. Si vous générez des centaines par mois, entraînez vos propres LoRAs ou refusez d'envoyer vos données hors de votre machine, l'achat d'un GPU s'amortit. Le rapport qualité-prix idéal pour les utilisateurs sérieux est une RTX 3090 d'occasion (24 Go, environ 500 \$).