Qué es Stable Diffusion | Local, licencia y ecosistema

Q: ¿Puedo usarlo comercialmente?

Depende de la versión. SD 1.5 y SDXL son totalmente abiertas (CreativeML Open RAIL-M, sin tope de ingresos). SD 3, SD 3.5 y FLUX.1 dev son gratuitas para uso comercial por debajo de 1 millón de USD de facturación anual; por encima necesitas un contrato con Stability AI o Black Forest Labs. Vender las propias imágenes generadas es ilimitado en todas las versiones.

Q: ¿Por qué versión debería empezar?

SDXL 1.0 es el inicio más seguro hoy. Se ejecuta con 8–12 GB de VRAM, tiene una enorme biblioteca de LoRAs en Civitai, no tiene tope comercial de ingresos y el ecosistema está maduro. Para la máxima calidad ve a FLUX.1 dev (recomendado 16 GB o más de VRAM). SD 1.5 es ligera pero está una generación por detrás en calidad — es probable que deje a los nuevos usuarios queriendo más.

Qué es Stable Diffusion — IA de imagen de código abierto: cómo funciona, ejecución local y licencia comercial

Contenido

1. 22 de agosto de 2022 — el día en que la IA de imágenes se volvió descargable
2. Qué es Stable Diffusion — en tres líneas
3. Línea de versiones — SD1.5 / SDXL / SD3.5 y la escisión de FLUX
4. La realidad de ejecutarlo en local — por nivel de VRAM
5. La trampa de la licencia — lecciones del rechazo a SD3
6. Civitai / LoRA / ComfyUI — un ecosistema mayor que el propio modelo
7. Midjourney vs Stable Diffusion — cuál elegir
8. Tres trampas — derechos de autor, NSFW y compatibilidad
Resumen
Preguntas frecuentes

El 22 de agosto de 2022, la startup londinense Stability AI publicó el archivo de pesos de un modelo de generación de imágenes llamado Stable Diffusion v1.4. Un único archivo `.ckpt` de 4 GB. En el momento en que aterrizó en GitHub y Hugging Face, la «IA de generación de imágenes» pasó de ser algo detrás de la nube a software que podías descargar en tu propio PC. Ni Midjourney ni DALL·E 2 hacían eso en su momento.

Casi cuatro años después, Stable Diffusion ha alcanzado SD 3.5 Large (8.100 millones de parámetros), y Civitai aloja más de 100.000 modelos personalizados y LoRAs. Mientras tanto, el revés en torno a la licencia de SD3 provocó un éxodo de desarrolladores, que dio lugar a FLUX — creado por la nueva empresa del equipo original de SD, Black Forest Labs — y FLUX ha superado en calidad al modelo original. El panorama ya no es sencillo.

Mi postura, por delante. Si te basta con «Midjourney está bien», no te fuerces a entrar en Stable Diffusion. Pero si te aplica alguno de estos casos — «quiero mantener el mismo personaje consistente en 100 imágenes», «quiero mezclar datos confidenciales propios en local», «quiero que mi coste mensual sea de 0 USD», «necesito un modelo abierto que pueda divulgar para trabajo comercial» — entonces SD es ineludible. Este artículo cubre cómo funciona SD, su historial de versiones, los requisitos de hardware, la licencia, el ecosistema y cómo elegir, todo a fecha de mayo de 2026.

Stable Diffusion · IA de imagen de código abierto

Cuatro cosas que lo hacen diferente

— Lo que Midjourney, DALL·E y Firefly nunca te darán

① PESOS ABIERTOS

Los archivos de pesos se distribuyen

Descarga .safetensors directamente desde Hugging Face. Midjourney ni siquiera expone una API

② LOCAL PRIMERO

Se ejecuta en tu propia GPU

Viable desde una RTX 3060 (12 GB) en adelante. Los datos generados se quedan en tu máquina

③ FINE-TUNE

Modifícalo libremente con LoRA

Más de 100.000 LoRAs y modelos personalizados en Civitai — anime, fotorrealismo, personajes concretos, lo que sea

④ COSTE CERO

Gratis más allá de la electricidad

Tras la inversión inicial en GPU, cada imagen cuesta 0 USD. El uso comercial también es válido con condiciones

En otras palabras, esta es la IA de imagen para quienes quieren liberarse de la dependencia de la nube, las cajas negras y las suscripciones mensuales.
El precio que pagas a cambio: una GPU, tiempo de configuración y prueba y error con los prompts.

1. 22 de agosto de 2022 — el día en que la IA de imágenes se volvió descargable

Por aquel entonces, la escena de la IA de generación de imágenes era una carrera de dos: DALL·E 2 de OpenAI (beta solo por invitación) y Midjourney V3 (solo en Discord). Ambos eran exclusivamente en la nube y mantenían sus pesos completamente ocultos. Lo que su IA aprendía, cómo se ejecutaba, qué podía y qué no podía generar — todo quedaba a discreción del proveedor.

Entonces Stability AI tomó una decisión que nadie esperaba: publicar el propio archivo de pesos. Un modelo de difusión entrenado sobre LAION-5B (5.800 millones de pares de imagen y texto), código de inferencia bajo MIT, pesos bajo CreativeML Open RAIL-M (uso comercial permitido, casi totalmente gratuito). En una semana, ingenieros de todo el mundo lo habían puesto a funcionar en Google Colab, nació una WebUI local (más tarde AUTOMATIC1111), se lanzó Civitai — y la personalización del arte con IA despegó.

Lo notable no fue tanto el salto técnico como el precedente: «la IA de generación de imágenes es algo que los individuos pueden poseer y modificar.» Si quieres una analogía con los LLM, el impacto se acercó al de Llama 2 y Llama 3 publicándose con «uso comercial permitido». Desde entonces, la industria de la IA de imágenes ha corrido por dos vías paralelas: «cerrada y de alta calidad» (MJ/DALL·E) y «abierta y libremente personalizable» (la familia SD).

2. Qué es Stable Diffusion — en tres líneas

Stable Diffusion es una IA de generación de imágenes basada en un modelo de difusión y con pesos abiertos publicada por Stability AI. Desglose en tres líneas:

① CÓMO FUNCIONA

Parte de una imagen de ruido aleatorio y la va eliminando paulatinamente para que coincida con tu prompt de texto. Requiere entre 20 y 50 pasos

② ARQUITECTURA

Una pila de tres partes: un Text Encoder (CLIP/T5) que interpreta el prompt, un U-Net/DiT que realiza el denoising y un VAE que comprime y descomprime la imagen

③ DISTRIBUCIÓN

Los archivos de pesos (.safetensors, de 2 GB a 16 GB) son descargables libremente desde Hugging Face. Ejecútalos en una GPU local o a través de servicios de inferencia en la nube

Lo que de verdad creo que importa es qué significa «modelo de difusión» en términos llanos. En la era de los GAN (StyleGAN y compañía), un generador y un discriminador se enfrentaban para producir imágenes. Los modelos de difusión tomaron un camino distinto: «parte de una imagen con ruido y ve restando ruido poco a poco.» Una idea más sencilla, pero que resultó producir salidas mucho más estables y de mayor resolución que los GAN. Esa intuición es el núcleo del éxito de SD, y casi toda IA de imagen posterior (Imagen, DALL·E 3, FLUX) es también un modelo de difusión.

3. Línea de versiones — SD1.5 / SDXL / SD3.5 y la escisión de FLUX

Lo más confuso de la historia de SD es: «¿qué versión debería usar en realidad?» Cada generación difiere en rendimiento, licencia, GPU recomendada y ecosistema de LoRAs. Vamos a ordenarlo.

Versión	Publicada	Parámetros	VRAM recomendada	Características
SD 1.5	Oct 2022	0,9B	4–8 GB	La más ligera, con más LoRAs, la más potente en anime. Sigue siendo dominante en Civitai
SD 2.x	Nov 2022	0,9B	6–8 GB	Sáltatela en la práctica. Datos de entrenamiento reducidos, mala acogida, nunca cuajó
SDXL 1.0	Jul 2023	3,5B	8–12 GB	1024×1024 estándar. La opción de cabecera para fotorrealismo y diseño comercial. Segunda mayor reserva de LoRAs
SD 3 Medium	Jun 2024	2B	8–12 GB	El rechazo a su licencia provocó el éxodo de desarrolladores. Ampliamente visto como un fracaso
SD 3.5 Medium	Oct 2024	2,5B	9,9 GB	Redención para SD3. Arquitectura MMDiT-X, diseñada para PCs de consumo
SD 3.5 Large	Oct 2024	8,1B	18 GB (11 GB en FP8)	La calidad insignia. Pensada para la clase RTX 4090
FLUX.1 dev	Ago 2024	12B	12–24 GB	De Black Forest Labs, fundada por exdesarrolladores de SD. Ampliamente valorada por encima del propio SD

Conclusión: si empiezas hoy, la elección se reduce a SDXL y FLUX.1 dev. SD 1.5 es ligera y tiene la mayor cantidad de LoRAs, pero está una generación por detrás en calidad. SD 3.5 Large es pesada y aun así la mueve FLUX. El reparto práctico es: SDXL para diseño comercial, FLUX para la máxima calidad, SD 3.5 Medium para la configuración local viable más ligera.

La llegada de FLUX tiene una historia con ironía. Tras el fiasco de la licencia de SD3 (más abajo), gran parte del equipo original de SD dejó Stability AI, montó Black Forest Labs en Alemania y lanzó FLUX.1. «Un sucesor de SD de mayor calidad» — de la mano de quienes construyeron SD en primer lugar. Desde la perspectiva de la comunidad, mucha gente ve hoy a FLUX como el heredero legítimo en lugar del modelo original.

4. La realidad de ejecutarlo en local — por nivel de VRAM

«Se ejecuta en local» es una cosa; lo que tu PC concreto puede hacer realmente es otra. Esto es lo que he visto en la práctica.

4–6 GB (GTX 1660 / RTX 3050)

Nivel de «funciona a duras penas»

Solo SD 1.5. De 20 a 60 segundos por imagen. SDXL en adelante es difícil

8 GB (RTX 3060 Ti / 4060)

Mínimo práctico

SDXL funciona con optimización de memoria. De 15 a 30 segundos por imagen de 1024 px

12 GB (RTX 3060 12GB / 4070)

Nivel cómodo

SDXL/SD 3.5 Medium con margen. Apila LoRAs libremente. De 5 a 15 segundos por imagen

16–24 GB (RTX 4080 / 4090)

Configuración seria de producción

FLUX/SD 3.5 Large con margen. Puedes entrenar tus propios LoRAs. De 2 a 8 segundos por imagen

Nota: también se necesitan 16 GB o más de RAM del sistema y 100 GB o más de espacio libre en SSD. Mac funciona vía MPS de Apple Silicon, pero es de 3 a 5 veces más lento que NVIDIA

Sin endulzarlo: si quieres tocar SD en serio hoy, los puntos de entrada realistas son una RTX 3060 12GB (unos 200 USD de segunda mano) o una RTX 4070 (unos 600 USD nueva). Las GPUs de 8 GB funcionan, pero te metes en un pantano de flags de optimización y cuantización — no es lo que recomendaría a un principiante. Si no quieres comprar GPU, la jugada correcta son los servicios de inferencia en la nube (Runpod / Replicate / el alojamiento propio de Civitai) por aproximadamente entre 0,001 y 0,01 USD por imagen.

5. La trampa de la licencia — lecciones del rechazo a SD3

«Es código abierto, así que el uso comercial está bien» no es la afirmación sencilla que la gente quiere que sea con SD. La licencia depende de la versión.

SD 1.5 / SDXL

CreativeML Open RAIL-M

Sin tope de ingresos. El uso comercial es casi totalmente libre. Las únicas restricciones afectan al uso ilegal o dañino

SD 3 / SD 3.5 / FLUX.1 dev

Community License (con tope de 1 M USD en ingresos)

Particulares y organizaciones con menos de 1 millón de USD de facturación anual pueden usarlo comercialmente. Por encima, se requiere un contrato Enterprise

Blogueros individuales, freelancers y startups en fase temprana están en regla. Solo hace falta un acuerdo comercial cuando una gran empresa lo integra en un producto. Vender las propias imágenes generadas es ilimitado — generes y vendas las que generes, no le debes nada a Stability AI

Cuando SD 3 salió en junio de 2024, su licencia era tan dura — tarifas por uso por imagen generada, prohibición de distribuir derivados en Civitai — que Civitai rechazó públicamente alojar derivados de SD3. La comunidad declaró «SD ha muerto», muchos desarrolladores se marcharon a Black Forest Labs y lanzaron FLUX. Stability AI relajó enormemente los términos cuando se lanzó SD 3.5 en octubre (la versión actual de 1 M USD de facturación), pero a fecha de mayo de 2026 la confianza de la comunidad no se ha recuperado del todo.

Consejo práctico: «simplemente usa SDXL» es la versión que menos muerde. CreativeML Open RAIL-M significa que no hay tope de ingresos, la reserva de LoRAs es enorme y el ecosistema está maduro. Pásate a SD 3.5 o FLUX solo cuando SDXL deje de ser suficiente.

6. Civitai / LoRA / ComfyUI — un ecosistema mayor que el propio modelo

Hablar de Stable Diffusion como «solo el modelo» se pierde lo importante. La fuerza de SD es el ecosistema que lo rodea.

Civitai

Hub de distribución de modelos

Más de 100.000 checkpoints, LoRAs y embeddings. Anime, fotorrealismo, personajes concretos, poses concretas — lo que sea

LoRA

Archivo de entrenamiento añadido

Archivos pequeños de 50 a 300 MB que añaden un estilo o personaje a un modelo base. Apílalos para combinar efectos

ComfyUI

UI basada en nodos

La elección del profesional. Construye flujos complejos visualmente (cadenas ControlNet → upscale → Inpaint, etc.)

A1111

WebUI para principiantes

El proyecto de AUTOMATIC1111. Basado en formularios e intuitivo. Por aquí entraron la mayoría de los usuarios de SD

ControlNet

Control de composición

Especifica la composición con una imagen de pose, un dibujo de líneas o un mapa de profundidad. Midjourney no tiene equivalente a esta precisión

IP-Adapter

Referencia de imagen

Copia el estilo, la cara o la ropa de una imagen de referencia a una nueva. Imprescindible para la consistencia de personaje

Una advertencia. Los LoRAs de SD 1.5 no cargan en SDXL; los LoRAs de SDXL no cargan en FLUX. Cada modelo base es su propio ecosistema. Si los LoRAs que adoras en Civitai son todos SD 1.5, cambiar a SDXL significa abandonarlos. Al buscar en Civitai, revisa siempre el filtro «Base Model». Para entender cómo funcionan realmente estos complementos, lee qué es LoRA.

7. Midjourney vs Stable Diffusion — cuál elegir

A menudo se pregunta «¿qué es mejor, SD o Midjourney/DALL·E?» — pero ese es el eje equivocado. Ve con Midjourney por calidad, ve con SD por libertad y propiedad. Papeles totalmente distintos.

Aspecto	Midjourney V8	Stable Diffusion (SDXL/FLUX)
Facilidad de uso	◎ Solo escribe el prompt	△ Requiere configuración
Calidad por defecto	◎ El mejor look artístico del sector	○ Depende del modelo (FLUX está a la par)
Control de composición	△ Solo prompt	◎ Control total vía ControlNet
Consistencia de personaje	○ Character Reference	◎ Entrena un LoRA y replica a la perfección
Coste mensual	10–120 USD	0 USD (local) o pago por uso
Uso comercial	OK en planes de pago	SDXL ilimitado; SD3.5/FLUX con tope de 1 M USD
Privacidad de datos	× Atado a la nube	◎ Puede quedar todo en local
Curva de aprendizaje	Horas	Días o semanas

La lectura limpia: para «hacer una sola imagen bonita», Midjourney. 10 USD al mes y sin infierno de configuración. Para «quiero 100 imágenes del mismo personaje», «quiero mezclar datos propios», «quiero una tarifa plana comercial a cualquier volumen» o «quiero reproducir un estilo concreto de anime», Stable Diffusion. Ninguna es «mejor». Muchos profesionales usan ambas (un ilustrador que conozco esboza la composición en MJ y la termina en SD).

8. Tres trampas — derechos de autor, NSFW y compatibilidad

Tres cosas con las que te toparás al usar SD y que conviene conocer de antemano.

Trampa ①: riesgo de derechos de autor en los datos de entrenamiento

Los modelos base de SD están entrenados sobre LAION-5B (5.800 millones de imágenes extraídas de internet). Inevitablemente, hay obras con derechos en grandes cantidades. Actualmente, Getty Images demanda a Stability AI (presentada en 2023, en curso tanto en EE. UU. como en el Reino Unido), y los LoRAs de «estilo de artista concreto» en Civitai se han vuelto visiblemente más grises desde 2025. Para trabajo comercial, higiene mínima: no uses nombres de artistas concretos en los prompts, y aun en los LoRAs de Civitai, evita figuras públicas u obras moldeadas sobre titulares de derechos identificables. Si la «seguridad comercial» no es negociable, Adobe Firefly es la alternativa.

Trampa ②: generar NSFW es trivialmente fácil

Como SD tiene pesos abiertos, desactivar el SafetyChecker hace que generar imágenes sexuales o violentas sea fácil. Civitai aloja abiertamente muchos modelos NSFW. La tecnología en sí es neutral, pero la creación o distribución de contenido generado en el que aparezcan menores es ilegal en muchos países (Japón tiene legislación actualmente en discusión). Nunca hagas esto en un PC del trabajo en horario laboral — los registros y el tráfico de red lo hacen trivial de detectar. Incluso en un PC doméstico, ciertas categorías son ilegales de crear o incluso de almacenar. La autoconciencia es obligatoria.

Trampa ③: la división de compatibilidad entre generaciones

Como ya se ha cubierto, SD1.5 / SDXL / SD3.5 / FLUX son cada uno su propio ecosistema. LoRAs, embeddings y modelos de ControlNet no se cargan de forma cruzada. «Voy a actualizar a SDXL» puede significar descubrir 50 LoRAs de SD1.5 que ya no puedes usar. Si estás empezando, elige uno (SDXL o FLUX) y mantente dentro de ese ecosistema — a la larga, es en realidad más eficiente.

Resumen

Esencia

La revolución que convirtió la IA de imagen en «software que los individuos pueden poseer y modificar». Ofrece libertades que MJ/DALL·E no

Punto de entrada

RTX 3060 12GB + SDXL + A1111 es el inicio realista. ¿Sin GPU? Usa Runpod desde 0,001 USD/imagen

Cuál usar

Para la mayoría: Midjourney. Elige SD solo si necesitas «100 del mismo personaje», «datos privados» o «costes solo de electricidad»

Cuidado

Derechos de autor, NSFW y la división de compatibilidad son las tres cosas que conviene saber pronto. Empieza el trabajo comercial con SDXL (sin tope de ingresos)

Stable Diffusion cambió el mundo en 2022. Pero en 2026, «simplemente usa SD» ya no es la respuesta por defecto — Midjourney V8 gana en calidad bruta, Adobe Firefly gana en seguridad comercial. La razón por la que SD no ha muerto — y de hecho ha ganado impulso con FLUX — es que sigue siendo la única opción para «usar IA de imagen en tu propio PC, con tus propios datos, exactamente como quieres, sin depender de ninguna empresa de la nube». Midjourney puede cerrarte el acceso al Discord; OpenAI puede cambiar sus términos del servicio; el archivo de pesos de SD en tu SSD es tuyo. Para quienes así se sienten más seguros, SD seguirá siendo una herramienta especial.

Preguntas frecuentes

¿Stable Diffusion es gratis?

El propio modelo (los archivos de pesos) es gratis de descargar y usar. Sí necesitas una GPU para ejecutarlo — como mínimo una RTX 3060 12GB (unos 200 USD) — o un servicio de inferencia en la nube (Runpod ronda los 0,4 USD/hora). No le debes ninguna cuota mensual a Stability AI.

¿Puedo usarlo comercialmente?

Depende de la versión. SD 1.5 y SDXL son totalmente abiertas (CreativeML Open RAIL-M, sin tope de ingresos). SD 3, SD 3.5 y FLUX.1 dev son gratuitas para uso comercial por debajo de 1 millón de USD de facturación anual; por encima necesitas un contrato con Stability AI o Black Forest Labs. Vender las propias imágenes generadas es ilimitado en todas las versiones.

¿Qué es mejor, Midjourney o SD?

Depende del uso. Si solo quieres una imagen bonita a partir de un prompt, Midjourney es mucho más simple y la calidad es excelente. Si necesitas producir en masa el mismo personaje, mezclar datos propios, bajar el coste a la electricidad o reproducir un estilo concreto de anime, solo Stable Diffusion sirve. Muchos profesionales usan ambas.

¿Por qué versión debería empezar?

SDXL 1.0 es el inicio más seguro hoy. Se ejecuta con 8–12 GB de VRAM, tiene una enorme biblioteca de LoRAs en Civitai, no tiene tope comercial de ingresos y el ecosistema está maduro. Para la máxima calidad ve a FLUX.1 dev (recomendado 16 GB o más de VRAM). SD 1.5 es ligera pero está una generación por detrás en calidad — es probable que deje a los nuevos usuarios queriendo más.

¿FLUX es algo distinto de Stable Diffusion?

Técnicamente relacionados pero de una empresa distinta. FLUX es de Black Forest Labs, fundada por exingenieros de Stability AI que construyeron SD. Se posiciona menos como un sucesor y más como «una IA de imagen abierta de mayor calidad». Los ecosistemas son distintos (los LoRAs de FLUX no funcionan en SD). Pero en la categoría «IA de imagen con pesos abiertos y ejecutable en local» son del mismo bando, y ambas son ciudadanas de primera clase en Civitai y ComfyUI.

¿Compro una GPU o alquilo nube?

La nube (Runpod / Replicate / la opción on-demand de Civitai) es más barata si generas menos de 50 imágenes al mes. Alrededor de 0,001–0,01 USD por imagen. Si generas cientos al mes, entrenas tus propios LoRAs o te niegas a enviar datos fuera de tu máquina, comprar una GPU se amortiza. El punto dulce coste-efectivo para usuarios serios es una RTX 3090 de segunda mano (24 GB, unos 500 USD).

Qué es Stable Diffusion — IA de imagen de código abierto: cómo funciona, ejecución local y licencia comercial

Cuatro cosas que lo hacen diferente

1. 22 de agosto de 2022 — el día en que la IA de imágenes se volvió descargable

2. Qué es Stable Diffusion — en tres líneas

3. Línea de versiones — SD1.5 / SDXL / SD3.5 y la escisión de FLUX

4. La realidad de ejecutarlo en local — por nivel de VRAM

5. La trampa de la licencia — lecciones del rechazo a SD3

6. Civitai / LoRA / ComfyUI — un ecosistema mayor que el propio modelo

7. Midjourney vs Stable Diffusion — cuál elegir

8. Tres trampas — derechos de autor, NSFW y compatibilidad

Trampa ①: riesgo de derechos de autor en los datos de entrenamiento

Trampa ②: generar NSFW es trivialmente fácil

Trampa ③: la división de compatibilidad entre generaciones

Resumen

Preguntas frecuentes

Artículos relacionados

Las 8 mejores herramientas de IA de generación de imágenes — Comparadas y ordenadas por caso de uso

Las 20 mejores herramientas de IA generativa para desarrollo de videojuegos: arte, música y código

Herramientas de diseño con IA comparadas — Canva, Adobe Firefly, Figma AI y Recraft por caso de uso

Cómo usar Midjourney — Guía completa V8.1: planes, prompts de cinco capas, parámetros y referencias

Comentarios

Dejar un comentario