Sommaire
- 1. 22 août 2022 — le jour où l'IA d'image est devenue téléchargeable
- 2. Qu'est-ce que Stable Diffusion — en trois lignes
- 3. Lignée des versions — SD1.5 / SDXL / SD3.5 et la scission FLUX
- 4. La réalité de l'exécution locale — par palier de VRAM
- 5. Le piège de la licence — leçons du fiasco SD3
- 6. Civitai / LoRA / ComfyUI — un écosystème plus grand que le modèle
- 7. Midjourney vs Stable Diffusion — lequel choisir
- 8. Trois pièges — droits d'auteur, NSFW, compatibilité
- Synthèse
- FAQ
Le 22 août 2022, la startup londonienne Stability AI a publié le fichier de poids d'un modèle de génération d'images appelé Stable Diffusion v1.4. Un seul fichier `.ckpt` de 4 Go. À l'instant où il a atterri sur GitHub et Hugging Face, « l'IA de génération d'images » est passée de quelque chose derrière le cloud à un logiciel téléchargeable sur son propre PC. Ni Midjourney ni DALL·E 2 n'auraient fait cela à l'époque.
Près de quatre ans plus tard, Stable Diffusion en est à SD 3.5 Large (8,1 milliards de paramètres), et Civitai héberge plus de 100 000 modèles personnalisés et LoRAs. Pendant ce temps, le retour de bâton sur la licence à la sortie de SD3 a provoqué un exode de développeurs, ce qui a donné naissance à FLUX — créé par la nouvelle société de l'équipe SD d'origine, Black Forest Labs — et FLUX a dépassé son parent en qualité. Le tableau n'est plus simple.
Ma position d'emblée. Si « Midjourney me suffit » vous convient, ne vous forcez pas à passer à Stable Diffusion. Mais si l'une de ces situations s'applique — « je veux garder le même personnage cohérent sur 100 images », « je veux mélanger localement mes propres données confidentielles », « je veux que mon coût mensuel soit de 0 \$ », « il me faut un modèle ouvert que je puisse divulguer pour un travail commercial » — alors SD est incontournable. Cet article couvre le fonctionnement de SD, son historique de versions, la configuration matérielle, la licence, l'écosystème et comment choisir, le tout à jour en mai 2026.
Quatre choses qui le rendent unique
— Ce que Midjourney, DALL·E et Firefly ne vous donneront jamais
Autrement dit, c'est l'IA d'image pour ceux qui veulent s'affranchir de la dépendance au cloud, des boîtes noires et des abonnements mensuels.
Le prix à payer en échange : un GPU, du temps de configuration et des essais-erreurs de prompt.
1. 22 août 2022 — le jour où l'IA d'image est devenue téléchargeable
À l'époque, la scène de l'IA de génération d'images était un duel : DALL·E 2 d'OpenAI (bêta sur invitation) et Midjourney V3 (Discord uniquement). Tous deux étaient exclusivement cloud, et tous deux gardaient leurs poids complètement cachés. Ce que leur IA apprenait, comment elle tournait, ce qu'elle pouvait et ne pouvait pas générer — tout dépendait du bon vouloir de l'éditeur.
Puis Stability AI a fait un choix que personne n'attendait : publier le fichier de poids lui-même. Un modèle de diffusion entraîné sur LAION-5B (5,8 milliards de paires image-texte), code d'inférence sous MIT, poids sous CreativeML Open RAIL-M (usage commercial OK, presque entièrement libre). En une semaine, des ingénieurs du monde entier le faisaient tourner sur Google Colab, une WebUI locale (plus tard AUTOMATIC1111) est née, Civitai a été lancé — et la personnalisation de l'art IA a décollé.
L'étonnant n'était pas tant le saut technique que le précédent : « l'IA de génération d'images est quelque chose que les individus peuvent posséder et modifier ». Pour une analogie côté LLM, le choc était proche de la sortie de Llama 2 et Llama 3 avec « usage commercial OK ». Depuis, l'industrie de l'IA d'image avance sur deux voies parallèles : « fermé et haute qualité » (MJ/DALL·E) et « ouvert et librement personnalisable » (la famille SD).
2. Qu'est-ce que Stable Diffusion — en trois lignes
Stable Diffusion est une IA de génération d'images à poids ouverts, basée sur un modèle de diffusion, publiée par Stability AI. Décomposition en trois lignes :
Ce qui compte vraiment, à mon avis, c'est ce que « modèle de diffusion » signifie en clair. À l'ère du GAN (StyleGAN et compagnie), un générateur et un discriminateur s'affrontaient pour produire des images. Les modèles de diffusion ont pris une autre voie : « partir d'une image bruitée et soustraire progressivement le bruit ». Une idée plus simple — mais qui s'est révélée bien plus stable et capable de produire des sorties haute résolution que les GANs. Cette intuition est le cœur du succès de SD, et presque toutes les IA d'image depuis (Imagen, DALL·E 3, FLUX) sont également des modèles de diffusion.
3. Lignée des versions — SD1.5 / SDXL / SD3.5 et la scission FLUX
Le plus déroutant dans l'histoire de SD, c'est « quelle version devrais-je vraiment utiliser ? ». Chaque génération diffère en performance, licence, GPU recommandé et écosystème LoRA. Mettons-le à plat.
| Version | Sortie | Paramètres | VRAM recommandée | Caractéristiques |
|---|---|---|---|---|
| SD 1.5 | Oct. 2022 | 0,9 G | 4–8 Go | Le plus léger, le plus de LoRAs, le plus fort en anime. Toujours dominant sur Civitai |
| SD 2.x | Nov. 2022 | 0,9 G | 6–8 Go | À ignorer en pratique. Données d'entraînement réduites, mauvais accueil, n'a jamais pris |
| SDXL 1.0 | Juil. 2023 | 3,5 G | 8–12 Go | Standard 1024×1024. Référence en photoréalisme et design commercial. Deuxième plus grand pool de LoRAs |
| SD 3 Medium | Juin 2024 | 2 G | 8–12 Go | Le retour de bâton sur la licence a provoqué l'exode des développeurs. Largement perçu comme un échec |
| SD 3.5 Medium | Oct. 2024 | 2,5 G | 9,9 Go | Rédemption après SD3. Architecture MMDiT-X, conçue pour les PC grand public |
| SD 3.5 Large | Oct. 2024 | 8,1 G | 18 Go (11 Go en FP8) | Le modèle phare en qualité. Visé pour la classe RTX 4090 |
| FLUX.1 dev | Août 2024 | 12 G | 12–24 Go | Par Black Forest Labs, fondé par d'anciens développeurs SD. Largement jugé supérieur à SD lui-même |
Conclusion : si vous démarrez aujourd'hui, le choix se joue entre SDXL et FLUX.1 dev. SD 1.5 est léger et a le plus de LoRAs, mais il est en retard d'une génération sur la qualité. SD 3.5 Large est lourd et pourtant bousculé par FLUX. Le tri pratique : SDXL pour le design commercial, FLUX pour la qualité maximale, SD 3.5 Medium pour la configuration locale la plus légère et viable.
L'arrivée de FLUX a une histoire ironique. Après le fiasco de la licence SD3 (voir plus bas), une grande partie de l'équipe SD d'origine a quitté Stability AI, monté Black Forest Labs en Allemagne, et lancé FLUX.1. « Un successeur de SD de meilleure qualité » — venant des gens qui ont construit SD à la base. Du point de vue de la communauté, beaucoup voient maintenant FLUX comme l'héritier légitime, plutôt que le parent.
4. La réalité de l'exécution locale — par palier de VRAM
« Tourne en local » est une chose ; ce que votre PC précis peut réellement faire en est une autre. Voici ce que j'ai vu en pratique.
Note : 16 Go+ de RAM système et 100 Go+ d'espace SSD libre sont aussi nécessaires. Mac fonctionne via MPS d'Apple Silicon, mais 3 à 5× plus lent que NVIDIA
Sans enrobage : si vous voulez toucher sérieusement à SD aujourd'hui, les points d'entrée réalistes sont une RTX 3060 12 Go (environ 200 \$ d'occasion) ou une RTX 4070 (environ 600 \$ neuf). Les GPU 8 Go fonctionnent, mais vous entrez dans un marais de drapeaux d'optimisation et de quantification — pas ce que je recommanderais à un débutant. Si vous ne voulez pas acheter de GPU, la bonne stratégie est les services d'inférence cloud (Runpod / Replicate / l'hébergement de Civitai) à environ 0,001 à 0,01 \$ par image.
5. Le piège de la licence — leçons du fiasco SD3
« C'est open source, donc l'usage commercial est OK » n'est pas une affirmation aussi simple qu'on le voudrait avec SD. La licence dépend de la version.
Blogueurs individuels, freelances et startups en phase initiale sont tous tranquilles. Un accord commercial n'est nécessaire que lorsqu'une grande entreprise l'intègre à un produit. La vente des images générées elles-mêmes est illimitée — quelle que soit la quantité générée ou vendue, vous ne devez rien à Stability AI
Quand SD 3 est sorti en juin 2024, sa licence était si dure — frais par image générée, interdiction de distribution sur Civitai des dérivés — que Civitai a publiquement refusé d'héberger les dérivés SD3. La communauté a déclaré « SD est mort », de nombreux développeurs sont partis vers Black Forest Labs et ont livré FLUX. Stability AI a massivement assoupli les conditions au lancement de SD 3.5 en octobre (la version actuelle à 1 M\$ de CA), mais en mai 2026, la confiance de la communauté n'est pas totalement restaurée.
Conseil pratique : « utilisez simplement SDXL » est la version qui mord le moins. CreativeML Open RAIL-M signifie pas de plafond de CA, le pool de LoRAs est énorme, et l'écosystème est mature. Passez à SD 3.5 ou FLUX seulement quand SDXL cesse de suffire.
6. Civitai / LoRA / ComfyUI — un écosystème plus grand que le modèle
Parler de Stable Diffusion comme « juste le modèle » passe à côté de l'essentiel. La force de SD, c'est l'écosystème qui l'entoure.
Une mise en garde. Les LoRAs SD 1.5 ne se chargent pas sur SDXL ; les LoRAs SDXL ne se chargent pas sur FLUX. Chaque modèle de base est son propre écosystème. Si les LoRAs que vous adorez sur Civitai sont tous SD 1.5, passer à SDXL signifie les abandonner. En cherchant sur Civitai, vérifiez toujours le filtre « Base Model ».
7. Midjourney vs Stable Diffusion — lequel choisir
On demande souvent « lequel est meilleur, SD ou Midjourney/DALL·E ? » — mais c'est le mauvais axe. Choisissez Midjourney pour la qualité, choisissez SD pour la liberté et la propriété. Des rôles totalement différents.
| Critère | Midjourney V8 | Stable Diffusion (SDXL/FLUX) |
|---|---|---|
| Facilité d'usage | ◎ Il suffit d'écrire le prompt | △ Configuration requise |
| Qualité par défaut | ◎ Meilleur rendu artistique du secteur | ○ Dépend du modèle (FLUX est au niveau) |
| Contrôle de composition | △ Prompt uniquement | ◎ Contrôle total via ControlNet |
| Cohérence de personnage | ○ Character Reference | ◎ Entraînez un LoRA, reproduisez parfaitement |
| Coût mensuel | 10 à 120 \$ | 0 \$ (local) ou paiement à l'usage |
| Usage commercial | OK sur les plans payants | SDXL illimité ; SD3.5/FLUX plafond 1 M\$ |
| Confidentialité des données | × Lié au cloud | ◎ Peut rester local de bout en bout |
| Courbe d'apprentissage | Quelques heures | Jours à semaines |
Lecture nette : pour « faire une seule belle image », Midjourney. 10 \$/mois et aucun enfer de configuration. Pour « je veux 100 images du même personnage », « je veux mélanger des données propriétaires », « je veux un forfait commercial à n'importe quel volume » ou « je veux reproduire un style anime précis », Stable Diffusion. Aucun n'est « meilleur ». Beaucoup de pros utilisent les deux (un illustrateur que je connais ébauche la composition dans MJ et finit dans SD).
8. Trois pièges — droits d'auteur, NSFW, compatibilité
Trois choses que vous rencontrerez en utilisant SD et qui méritent d'être connues d'emblée.
Piège ① : risque de droits d'auteur sur les données d'entraînement
Les modèles de base de SD sont entraînés sur LAION-5B (5,8 milliards d'images scrapées sur internet). Inévitablement, des œuvres protégées s'y trouvent en grand nombre. Getty Images poursuit actuellement Stability AI (action déposée en 2023, en cours aux États-Unis et au Royaume-Uni), et les LoRAs « style d'artiste précis » sur Civitai sont devenus visiblement plus gris depuis 2025. Pour un travail commercial, hygiène minimale : ne promptez pas avec des noms d'artistes précis, et même sur les LoRAs Civitai, évitez les figures publiques ou les œuvres modelées sur des titulaires de droits identifiables. Si « la sûreté commerciale » n'est pas négociable, Adobe Firefly est l'alternative.
Piège ② : la génération NSFW est trivialement facile
Comme SD a des poids ouverts, désactiver le SafetyChecker rend les images sexuelles ou violentes faciles à générer. Civitai héberge ouvertement de nombreux modèles NSFW. La technologie elle-même est neutre, mais la création ou la distribution de contenu généré impliquant des mineurs est illégale dans de nombreux pays (au Japon, une législation est actuellement en discussion). Ne faites jamais cela sur un PC de travail pendant les heures de travail — les logs et le trafic réseau rendent la détection triviale. Même sur un PC personnel, certaines catégories sont illégales à créer ou même à stocker. La conscience de soi est obligatoire.
Piège ③ : ruptures de compatibilité entre générations
Comme vu plus haut, SD1.5 / SDXL / SD3.5 / FLUX sont chacun leur propre écosystème. LoRAs, embeddings et modèles ControlNet ne se chargent pas d'un à l'autre. « Bon, je passe à SDXL » peut signifier découvrir 50 LoRAs SD1.5 que vous ne pouvez plus utiliser. Si vous débutez, choisissez-en un (SDXL ou FLUX) et restez dans cet écosystème — c'est en fait plus efficace à long terme.
Synthèse
Stable Diffusion a changé le monde en 2022. Mais en 2026, « utilisez simplement SD » n'est plus la réponse par défaut — Midjourney V8 gagne en qualité brute, Adobe Firefly gagne en sûreté commerciale. La raison pour laquelle SD n'est pas mort — et a même gagné en élan avec FLUX — est qu'il reste la seule option pour « utiliser l'IA d'image sur son propre PC, avec ses propres données, exactement comme on le veut, sans dépendre d'aucune entreprise cloud ». Midjourney peut vous exclure de Discord ; OpenAI peut changer ses conditions de service ; le fichier de poids SD sur votre SSD est à vous. Pour les gens qui se sentent plus en sécurité ainsi, SD continuera d'être un outil à part.
FAQ
Stable Diffusion est-il gratuit ?
Le modèle lui-même (fichiers de poids) est gratuit à télécharger et à utiliser. Il vous faut un GPU pour le faire tourner — au minimum une RTX 3060 12 Go (environ 200 \$) — ou un service d'inférence cloud (Runpod tourne à environ 0,4 \$/heure). Vous ne devez aucun frais mensuel à Stability AI.
Puis-je l'utiliser commercialement ?
Cela dépend de la version. SD 1.5 et SDXL sont entièrement ouverts (CreativeML Open RAIL-M, pas de plafond de CA). SD 3, SD 3.5 et FLUX.1 dev sont gratuits pour l'usage commercial sous 1 M\$ de revenu annuel ; au-dessus, il faut un contrat avec Stability AI ou Black Forest Labs. La vente des images générées elles-mêmes est illimitée pour toutes les versions.
Lequel est meilleur, Midjourney ou SD ?
Cela dépend de l'usage. Si vous voulez juste une belle image à partir d'un prompt, Midjourney est bien plus simple et la qualité est excellente. S'il vous faut produire en masse le même personnage, mélanger des données propriétaires, ramener le coût à celui de l'électricité ou reproduire un style anime précis, seul Stable Diffusion fonctionne. Beaucoup de pros utilisent les deux.
Par quelle version commencer ?
SDXL 1.0 est le départ le plus sûr aujourd'hui. Tourne en 8 à 12 Go de VRAM, dispose d'une énorme bibliothèque LoRA sur Civitai, n'a pas de plafond de CA commercial, et l'écosystème est mature. Pour la qualité maximale, passez à FLUX.1 dev (16 Go+ de VRAM recommandés). SD 1.5 est léger mais en retard d'une génération sur la qualité — il laissera probablement les nouveaux utilisateurs sur leur faim.
FLUX est-il différent de Stable Diffusion ?
Techniquement apparenté mais d'une autre société. FLUX vient de Black Forest Labs, fondé par d'anciens ingénieurs de Stability AI qui ont construit SD. Il se positionne moins comme un successeur et plus comme « une IA d'image ouverte de meilleure qualité ». Les écosystèmes sont séparés (les LoRAs FLUX ne fonctionnent pas dans SD). Mais dans la catégorie « IA d'image à poids ouverts, exécutable localement », ils sont du même camp, et tous deux sont citoyens de premier rang sur Civitai et ComfyUI.
Acheter un GPU ou louer dans le cloud ?
Le cloud (Runpod / Replicate / Civitai à la demande) est moins cher si vous générez moins de 50 images par mois. Environ 0,001 à 0,01 \$ par image. Si vous générez des centaines par mois, entraînez vos propres LoRAs ou refusez d'envoyer vos données hors de votre machine, l'achat d'un GPU s'amortit. Le rapport qualité-prix idéal pour les utilisateurs sérieux est une RTX 3090 d'occasion (24 Go, environ 500 \$).