El 22 de agosto de 2022, la startup londinense Stability AI publicó el archivo de pesos de un modelo de generación de imágenes llamado Stable Diffusion v1.4. Un único archivo `.ckpt` de 4 GB. En el momento en que aterrizó en GitHub y Hugging Face, la «IA de generación de imágenes» pasó de ser algo detrás de la nube a software que podías descargar en tu propio PC. Ni Midjourney ni DALL·E 2 hacían eso en su momento.

Casi cuatro años después, Stable Diffusion ha alcanzado SD 3.5 Large (8.100 millones de parámetros), y Civitai aloja más de 100.000 modelos personalizados y LoRAs. Mientras tanto, el revés en torno a la licencia de SD3 provocó un éxodo de desarrolladores, que dio lugar a FLUX — creado por la nueva empresa del equipo original de SD, Black Forest Labs — y FLUX ha superado en calidad al modelo original. El panorama ya no es sencillo.

Mi postura, por delante. Si te basta con «Midjourney está bien», no te fuerces a entrar en Stable Diffusion. Pero si te aplica alguno de estos casos — «quiero mantener el mismo personaje consistente en 100 imágenes», «quiero mezclar datos confidenciales propios en local», «quiero que mi coste mensual sea de 0 USD», «necesito un modelo abierto que pueda divulgar para trabajo comercial» — entonces SD es ineludible. Este artículo cubre cómo funciona SD, su historial de versiones, los requisitos de hardware, la licencia, el ecosistema y cómo elegir, todo a fecha de mayo de 2026.

Stable Diffusion · IA de imagen de código abierto

Cuatro cosas que lo hacen diferente

— Lo que Midjourney, DALL·E y Firefly nunca te darán

① PESOS ABIERTOS
Los archivos de pesos se distribuyen
Descarga .safetensors directamente desde Hugging Face. Midjourney ni siquiera expone una API
② LOCAL PRIMERO
Se ejecuta en tu propia GPU
Viable desde una RTX 3060 (12 GB) en adelante. Los datos generados se quedan en tu máquina
③ FINE-TUNE
Modifícalo libremente con LoRA
Más de 100.000 LoRAs y modelos personalizados en Civitai — anime, fotorrealismo, personajes concretos, lo que sea
④ COSTE CERO
Gratis más allá de la electricidad
Tras la inversión inicial en GPU, cada imagen cuesta 0 USD. El uso comercial también es válido con condiciones

En otras palabras, esta es la IA de imagen para quienes quieren liberarse de la dependencia de la nube, las cajas negras y las suscripciones mensuales.
El precio que pagas a cambio: una GPU, tiempo de configuración y prueba y error con los prompts.

1. 22 de agosto de 2022 — el día en que la IA de imágenes se volvió descargable

Por aquel entonces, la escena de la IA de generación de imágenes era una carrera de dos: DALL·E 2 de OpenAI (beta solo por invitación) y Midjourney V3 (solo en Discord). Ambos eran exclusivamente en la nube y mantenían sus pesos completamente ocultos. Lo que su IA aprendía, cómo se ejecutaba, qué podía y qué no podía generar — todo quedaba a discreción del proveedor.

Entonces Stability AI tomó una decisión que nadie esperaba: publicar el propio archivo de pesos. Un modelo de difusión entrenado sobre LAION-5B (5.800 millones de pares de imagen y texto), código de inferencia bajo MIT, pesos bajo CreativeML Open RAIL-M (uso comercial permitido, casi totalmente gratuito). En una semana, ingenieros de todo el mundo lo habían puesto a funcionar en Google Colab, nació una WebUI local (más tarde AUTOMATIC1111), se lanzó Civitai — y la personalización del arte con IA despegó.

Lo notable no fue tanto el salto técnico como el precedente: «la IA de generación de imágenes es algo que los individuos pueden poseer y modificar.» Si quieres una analogía con los LLM, el impacto se acercó al de Llama 2 y Llama 3 publicándose con «uso comercial permitido». Desde entonces, la industria de la IA de imágenes ha corrido por dos vías paralelas: «cerrada y de alta calidad» (MJ/DALL·E) y «abierta y libremente personalizable» (la familia SD).

2. Qué es Stable Diffusion — en tres líneas

Stable Diffusion es una IA de generación de imágenes basada en un modelo de difusión y con pesos abiertos publicada por Stability AI. Desglose en tres líneas:

① CÓMO FUNCIONA
Parte de una imagen de ruido aleatorio y la va eliminando paulatinamente para que coincida con tu prompt de texto. Requiere entre 20 y 50 pasos
② ARQUITECTURA
Una pila de tres partes: un Text Encoder (CLIP/T5) que interpreta el prompt, un U-Net/DiT que realiza el denoising y un VAE que comprime y descomprime la imagen
③ DISTRIBUCIÓN
Los archivos de pesos (.safetensors, de 2 GB a 16 GB) son descargables libremente desde Hugging Face. Ejecútalos en una GPU local o a través de servicios de inferencia en la nube

Lo que de verdad creo que importa es qué significa «modelo de difusión» en términos llanos. En la era de los GAN (StyleGAN y compañía), un generador y un discriminador se enfrentaban para producir imágenes. Los modelos de difusión tomaron un camino distinto: «parte de una imagen con ruido y ve restando ruido poco a poco.» Una idea más sencilla, pero que resultó producir salidas mucho más estables y de mayor resolución que los GAN. Esa intuición es el núcleo del éxito de SD, y casi toda IA de imagen posterior (Imagen, DALL·E 3, FLUX) es también un modelo de difusión.

3. Línea de versiones — SD1.5 / SDXL / SD3.5 y la escisión de FLUX

Lo más confuso de la historia de SD es: «¿qué versión debería usar en realidad?» Cada generación difiere en rendimiento, licencia, GPU recomendada y ecosistema de LoRAs. Vamos a ordenarlo.

Versión Publicada Parámetros VRAM recomendada Características
SD 1.5 Oct 2022 0,9B 4–8 GB La más ligera, con más LoRAs, la más potente en anime. Sigue siendo dominante en Civitai
SD 2.x Nov 2022 0,9B 6–8 GB Sáltatela en la práctica. Datos de entrenamiento reducidos, mala acogida, nunca cuajó
SDXL 1.0 Jul 2023 3,5B 8–12 GB 1024×1024 estándar. La opción de cabecera para fotorrealismo y diseño comercial. Segunda mayor reserva de LoRAs
SD 3 Medium Jun 2024 2B 8–12 GB El rechazo a su licencia provocó el éxodo de desarrolladores. Ampliamente visto como un fracaso
SD 3.5 Medium Oct 2024 2,5B 9,9 GB Redención para SD3. Arquitectura MMDiT-X, diseñada para PCs de consumo
SD 3.5 Large Oct 2024 8,1B 18 GB (11 GB en FP8) La calidad insignia. Pensada para la clase RTX 4090
FLUX.1 dev Ago 2024 12B 12–24 GB De Black Forest Labs, fundada por exdesarrolladores de SD. Ampliamente valorada por encima del propio SD

Conclusión: si empiezas hoy, la elección se reduce a SDXL y FLUX.1 dev. SD 1.5 es ligera y tiene la mayor cantidad de LoRAs, pero está una generación por detrás en calidad. SD 3.5 Large es pesada y aun así la mueve FLUX. El reparto práctico es: SDXL para diseño comercial, FLUX para la máxima calidad, SD 3.5 Medium para la configuración local viable más ligera.

La llegada de FLUX tiene una historia con ironía. Tras el fiasco de la licencia de SD3 (más abajo), gran parte del equipo original de SD dejó Stability AI, montó Black Forest Labs en Alemania y lanzó FLUX.1. «Un sucesor de SD de mayor calidad» — de la mano de quienes construyeron SD en primer lugar. Desde la perspectiva de la comunidad, mucha gente ve hoy a FLUX como el heredero legítimo en lugar del modelo original.

4. La realidad de ejecutarlo en local — por nivel de VRAM

«Se ejecuta en local» es una cosa; lo que tu PC concreto puede hacer realmente es otra. Esto es lo que he visto en la práctica.

4–6 GB (GTX 1660 / RTX 3050)
Nivel de «funciona a duras penas»
Solo SD 1.5. De 20 a 60 segundos por imagen. SDXL en adelante es difícil
8 GB (RTX 3060 Ti / 4060)
Mínimo práctico
SDXL funciona con optimización de memoria. De 15 a 30 segundos por imagen de 1024 px
12 GB (RTX 3060 12GB / 4070)
Nivel cómodo
SDXL/SD 3.5 Medium con margen. Apila LoRAs libremente. De 5 a 15 segundos por imagen
16–24 GB (RTX 4080 / 4090)
Configuración seria de producción
FLUX/SD 3.5 Large con margen. Puedes entrenar tus propios LoRAs. De 2 a 8 segundos por imagen

Nota: también se necesitan 16 GB o más de RAM del sistema y 100 GB o más de espacio libre en SSD. Mac funciona vía MPS de Apple Silicon, pero es de 3 a 5 veces más lento que NVIDIA

Sin endulzarlo: si quieres tocar SD en serio hoy, los puntos de entrada realistas son una RTX 3060 12GB (unos 200 USD de segunda mano) o una RTX 4070 (unos 600 USD nueva). Las GPUs de 8 GB funcionan, pero te metes en un pantano de flags de optimización y cuantización — no es lo que recomendaría a un principiante. Si no quieres comprar GPU, la jugada correcta son los servicios de inferencia en la nube (Runpod / Replicate / el alojamiento propio de Civitai) por aproximadamente entre 0,001 y 0,01 USD por imagen.

5. La trampa de la licencia — lecciones del rechazo a SD3

«Es código abierto, así que el uso comercial está bien» no es la afirmación sencilla que la gente quiere que sea con SD. La licencia depende de la versión.

SD 1.5 / SDXL
CreativeML Open RAIL-M
Sin tope de ingresos. El uso comercial es casi totalmente libre. Las únicas restricciones afectan al uso ilegal o dañino
SD 3 / SD 3.5 / FLUX.1 dev
Community License (con tope de 1 M USD en ingresos)
Particulares y organizaciones con menos de 1 millón de USD de facturación anual pueden usarlo comercialmente. Por encima, se requiere un contrato Enterprise

Blogueros individuales, freelancers y startups en fase temprana están en regla. Solo hace falta un acuerdo comercial cuando una gran empresa lo integra en un producto. Vender las propias imágenes generadas es ilimitado — generes y vendas las que generes, no le debes nada a Stability AI

Cuando SD 3 salió en junio de 2024, su licencia era tan dura — tarifas por uso por imagen generada, prohibición de distribuir derivados en Civitai — que Civitai rechazó públicamente alojar derivados de SD3. La comunidad declaró «SD ha muerto», muchos desarrolladores se marcharon a Black Forest Labs y lanzaron FLUX. Stability AI relajó enormemente los términos cuando se lanzó SD 3.5 en octubre (la versión actual de 1 M USD de facturación), pero a fecha de mayo de 2026 la confianza de la comunidad no se ha recuperado del todo.

Consejo práctico: «simplemente usa SDXL» es la versión que menos muerde. CreativeML Open RAIL-M significa que no hay tope de ingresos, la reserva de LoRAs es enorme y el ecosistema está maduro. Pásate a SD 3.5 o FLUX solo cuando SDXL deje de ser suficiente.

6. Civitai / LoRA / ComfyUI — un ecosistema mayor que el propio modelo

Hablar de Stable Diffusion como «solo el modelo» se pierde lo importante. La fuerza de SD es el ecosistema que lo rodea.

Civitai
Hub de distribución de modelos
Más de 100.000 checkpoints, LoRAs y embeddings. Anime, fotorrealismo, personajes concretos, poses concretas — lo que sea
LoRA
Archivo de entrenamiento añadido
Archivos pequeños de 50 a 300 MB que añaden un estilo o personaje a un modelo base. Apílalos para combinar efectos
ComfyUI
UI basada en nodos
La elección del profesional. Construye flujos complejos visualmente (cadenas ControlNet → upscale → Inpaint, etc.)
A1111
WebUI para principiantes
El proyecto de AUTOMATIC1111. Basado en formularios e intuitivo. Por aquí entraron la mayoría de los usuarios de SD
ControlNet
Control de composición
Especifica la composición con una imagen de pose, un dibujo de líneas o un mapa de profundidad. Midjourney no tiene equivalente a esta precisión
IP-Adapter
Referencia de imagen
Copia el estilo, la cara o la ropa de una imagen de referencia a una nueva. Imprescindible para la consistencia de personaje

Una advertencia. Los LoRAs de SD 1.5 no cargan en SDXL; los LoRAs de SDXL no cargan en FLUX. Cada modelo base es su propio ecosistema. Si los LoRAs que adoras en Civitai son todos SD 1.5, cambiar a SDXL significa abandonarlos. Al buscar en Civitai, revisa siempre el filtro «Base Model».

7. Midjourney vs Stable Diffusion — cuál elegir

A menudo se pregunta «¿qué es mejor, SD o Midjourney/DALL·E?» — pero ese es el eje equivocado. Ve con Midjourney por calidad, ve con SD por libertad y propiedad. Papeles totalmente distintos.

Aspecto Midjourney V8 Stable Diffusion (SDXL/FLUX)
Facilidad de uso ◎ Solo escribe el prompt △ Requiere configuración
Calidad por defecto ◎ El mejor look artístico del sector ○ Depende del modelo (FLUX está a la par)
Control de composición △ Solo prompt ◎ Control total vía ControlNet
Consistencia de personaje ○ Character Reference ◎ Entrena un LoRA y replica a la perfección
Coste mensual 10–120 USD 0 USD (local) o pago por uso
Uso comercial OK en planes de pago SDXL ilimitado; SD3.5/FLUX con tope de 1 M USD
Privacidad de datos × Atado a la nube ◎ Puede quedar todo en local
Curva de aprendizaje Horas Días o semanas

La lectura limpia: para «hacer una sola imagen bonita», Midjourney. 10 USD al mes y sin infierno de configuración. Para «quiero 100 imágenes del mismo personaje», «quiero mezclar datos propios», «quiero una tarifa plana comercial a cualquier volumen» o «quiero reproducir un estilo concreto de anime», Stable Diffusion. Ninguna es «mejor». Muchos profesionales usan ambas (un ilustrador que conozco esboza la composición en MJ y la termina en SD).

8. Tres trampas — derechos de autor, NSFW y compatibilidad

Tres cosas con las que te toparás al usar SD y que conviene conocer de antemano.

Trampa ①: riesgo de derechos de autor en los datos de entrenamiento

Los modelos base de SD están entrenados sobre LAION-5B (5.800 millones de imágenes extraídas de internet). Inevitablemente, hay obras con derechos en grandes cantidades. Actualmente, Getty Images demanda a Stability AI (presentada en 2023, en curso tanto en EE. UU. como en el Reino Unido), y los LoRAs de «estilo de artista concreto» en Civitai se han vuelto visiblemente más grises desde 2025. Para trabajo comercial, higiene mínima: no uses nombres de artistas concretos en los prompts, y aun en los LoRAs de Civitai, evita figuras públicas u obras moldeadas sobre titulares de derechos identificables. Si la «seguridad comercial» no es negociable, Adobe Firefly es la alternativa.

Trampa ②: generar NSFW es trivialmente fácil

Como SD tiene pesos abiertos, desactivar el SafetyChecker hace que generar imágenes sexuales o violentas sea fácil. Civitai aloja abiertamente muchos modelos NSFW. La tecnología en sí es neutral, pero la creación o distribución de contenido generado en el que aparezcan menores es ilegal en muchos países (Japón tiene legislación actualmente en discusión). Nunca hagas esto en un PC del trabajo en horario laboral — los registros y el tráfico de red lo hacen trivial de detectar. Incluso en un PC doméstico, ciertas categorías son ilegales de crear o incluso de almacenar. La autoconciencia es obligatoria.

Trampa ③: la división de compatibilidad entre generaciones

Como ya se ha cubierto, SD1.5 / SDXL / SD3.5 / FLUX son cada uno su propio ecosistema. LoRAs, embeddings y modelos de ControlNet no se cargan de forma cruzada. «Voy a actualizar a SDXL» puede significar descubrir 50 LoRAs de SD1.5 que ya no puedes usar. Si estás empezando, elige uno (SDXL o FLUX) y mantente dentro de ese ecosistema — a la larga, es en realidad más eficiente.

Resumen

Esencia
La revolución que convirtió la IA de imagen en «software que los individuos pueden poseer y modificar». Ofrece libertades que MJ/DALL·E no
Punto de entrada
RTX 3060 12GB + SDXL + A1111 es el inicio realista. ¿Sin GPU? Usa Runpod desde 0,001 USD/imagen
Cuál usar
Para la mayoría: Midjourney. Elige SD solo si necesitas «100 del mismo personaje», «datos privados» o «costes solo de electricidad»
Cuidado
Derechos de autor, NSFW y la división de compatibilidad son las tres cosas que conviene saber pronto. Empieza el trabajo comercial con SDXL (sin tope de ingresos)

Stable Diffusion cambió el mundo en 2022. Pero en 2026, «simplemente usa SD» ya no es la respuesta por defecto — Midjourney V8 gana en calidad bruta, Adobe Firefly gana en seguridad comercial. La razón por la que SD no ha muerto — y de hecho ha ganado impulso con FLUX — es que sigue siendo la única opción para «usar IA de imagen en tu propio PC, con tus propios datos, exactamente como quieres, sin depender de ninguna empresa de la nube». Midjourney puede cerrarte el acceso al Discord; OpenAI puede cambiar sus términos del servicio; el archivo de pesos de SD en tu SSD es tuyo. Para quienes así se sienten más seguros, SD seguirá siendo una herramienta especial.

Preguntas frecuentes

¿Stable Diffusion es gratis?

El propio modelo (los archivos de pesos) es gratis de descargar y usar. Sí necesitas una GPU para ejecutarlo — como mínimo una RTX 3060 12GB (unos 200 USD) — o un servicio de inferencia en la nube (Runpod ronda los 0,4 USD/hora). No le debes ninguna cuota mensual a Stability AI.

¿Puedo usarlo comercialmente?

Depende de la versión. SD 1.5 y SDXL son totalmente abiertas (CreativeML Open RAIL-M, sin tope de ingresos). SD 3, SD 3.5 y FLUX.1 dev son gratuitas para uso comercial por debajo de 1 millón de USD de facturación anual; por encima necesitas un contrato con Stability AI o Black Forest Labs. Vender las propias imágenes generadas es ilimitado en todas las versiones.

¿Qué es mejor, Midjourney o SD?

Depende del uso. Si solo quieres una imagen bonita a partir de un prompt, Midjourney es mucho más simple y la calidad es excelente. Si necesitas producir en masa el mismo personaje, mezclar datos propios, bajar el coste a la electricidad o reproducir un estilo concreto de anime, solo Stable Diffusion sirve. Muchos profesionales usan ambas.

¿Por qué versión debería empezar?

SDXL 1.0 es el inicio más seguro hoy. Se ejecuta con 8–12 GB de VRAM, tiene una enorme biblioteca de LoRAs en Civitai, no tiene tope comercial de ingresos y el ecosistema está maduro. Para la máxima calidad ve a FLUX.1 dev (recomendado 16 GB o más de VRAM). SD 1.5 es ligera pero está una generación por detrás en calidad — es probable que deje a los nuevos usuarios queriendo más.

¿FLUX es algo distinto de Stable Diffusion?

Técnicamente relacionados pero de una empresa distinta. FLUX es de Black Forest Labs, fundada por exingenieros de Stability AI que construyeron SD. Se posiciona menos como un sucesor y más como «una IA de imagen abierta de mayor calidad». Los ecosistemas son distintos (los LoRAs de FLUX no funcionan en SD). Pero en la categoría «IA de imagen con pesos abiertos y ejecutable en local» son del mismo bando, y ambas son ciudadanas de primera clase en Civitai y ComfyUI.

¿Compro una GPU o alquilo nube?

La nube (Runpod / Replicate / la opción on-demand de Civitai) es más barata si generas menos de 50 imágenes al mes. Alrededor de 0,001–0,01 USD por imagen. Si generas cientos al mes, entrenas tus propios LoRAs o te niegas a enviar datos fuera de tu máquina, comprar una GPU se amortiza. El punto dulce coste-efectivo para usuarios serios es una RTX 3090 de segunda mano (24 GB, unos 500 USD).