Em 22 de agosto de 2022, a startup londrina Stability AI lançou o arquivo de pesos de um modelo de geração de imagens chamado Stable Diffusion v1.4. Um único arquivo `.ckpt` de 4 GB. No momento em que ele chegou ao GitHub e ao Hugging Face, a "IA de geração de imagens" deixou de ser algo escondido por trás da nuvem e passou a ser software que você baixa no seu próprio PC. Nem o Midjourney nem o DALL·E 2 fariam isso na época.

Quase quatro anos depois, o Stable Diffusion chegou ao SD 3.5 Large (8,1 bilhões de parâmetros), e o Civitai hospeda mais de 100.000 modelos personalizados e LoRAs. Enquanto isso, a polêmica de licenciamento em torno do lançamento do SD3 causou um êxodo de desenvolvedores, que deu origem ao FLUX — construído pela nova empresa da equipe original do SD, a Black Forest Labs — e o FLUX superou o "pai" em qualidade. O cenário deixou de ser simples.

Minha posição antes de tudo. Se "o Midjourney está ótimo" funciona para você, não se force a entrar no Stable Diffusion. Mas se algum destes pontos se aplica — "quero manter o mesmo personagem consistente em 100 imagens", "quero misturar meus próprios dados confidenciais localmente", "quero custo mensal de US$ 0", "preciso de um modelo aberto que possa divulgar para trabalho comercial" — então o SD é inevitável. Este artigo cobre como o SD funciona, seu histórico de versões, requisitos de hardware, licenciamento, ecossistema e como escolher, tudo com referência a maio de 2026.

Stable Diffusion · IA de imagem open source

Quatro coisas que o tornam diferente

— O que Midjourney, DALL·E e Firefly nunca vão te dar

① PESOS ABERTOS
Os arquivos de pesos são distribuídos
Baixe os .safetensors direto do Hugging Face. O Midjourney sequer expõe uma API
② LOCAL PRIMEIRO
Roda na sua própria GPU
Viável a partir da RTX 3060 (12 GB). Os dados gerados ficam na sua máquina
③ FINE-TUNE
Modifique livremente com LoRA
Mais de 100.000 LoRAs e modelos personalizados no Civitai — anime, foto-real, personagens específicos, qualquer coisa
④ CUSTO ZERO
Grátis além da eletricidade
Depois do investimento inicial na GPU, cada imagem custa US$ 0. O uso comercial também é OK, com condições

Em outras palavras, esta é a IA de imagem para quem quer liberdade da dependência da nuvem, das caixas-pretas e das assinaturas mensais.
O preço a pagar em troca: uma GPU, tempo de configuração e tentativa e erro de prompt.

1. 22 de agosto de 2022 — O dia em que a IA de imagem virou algo para baixar

Na época, a cena de IA de geração de imagens era uma corrida de dois cavalos: o DALL·E 2 da OpenAI (beta apenas por convite) e o Midjourney V3 (somente Discord). Ambos eram exclusivos de nuvem, e ambos mantinham seus pesos completamente escondidos. O que a IA aprendia, como rodava, o que podia ou não gerar — tudo ficava a critério do fornecedor.

Então a Stability AI fez uma escolha que ninguém esperava: liberar o próprio arquivo de pesos. Um modelo de difusão treinado em LAION-5B (5,8 bilhões de pares imagem-texto), código de inferência sob licença MIT, pesos sob CreativeML Open RAIL-M (uso comercial OK, praticamente totalmente livre). Em uma semana, engenheiros do mundo todo já o rodavam no Google Colab, uma WebUI local nasceu (depois AUTOMATIC1111), o Civitai foi lançado — e a personalização da arte com IA decolou.

O notável não foi tanto o salto técnico, mas o precedente: "IA de geração de imagens é algo que indivíduos podem possuir e modificar." Se você quer uma analogia com LLMs, o choque foi parecido com o lançamento do Llama 2 e do Llama 3 com "uso comercial OK". Desde então, a indústria de IA de imagem corre em duas trilhas paralelas: "fechada e de alta qualidade" (MJ/DALL·E) e "aberta e livremente personalizável" (a família SD).

2. O que é Stable Diffusion — em três linhas

Stable Diffusion é uma IA de geração de imagens baseada em modelo de difusão e de pesos abertos, lançada pela Stability AI. Em três linhas:

① COMO FUNCIONA
Parte de uma imagem de ruído aleatório e gradualmente remove esse ruído para corresponder ao seu prompt de texto. Leva de 20 a 50 passos
② ARQUITETURA
Uma pilha de três partes: Text Encoder (CLIP/T5) que interpreta o prompt, U-Net/DiT que faz a remoção de ruído e um VAE que comprime/descomprime a imagem
③ DISTRIBUIÇÃO
Os arquivos de pesos (.safetensors, de 2 GB a 16 GB) são baixáveis livremente do Hugging Face. Rode-os em uma GPU local ou via serviços de inferência em nuvem

O que eu acho que de fato importa é o significado de "modelo de difusão" em termos simples. Na era GAN (StyleGAN e companhia), um gerador e um discriminador brigavam entre si para produzir imagens. Os modelos de difusão tomaram outro caminho: "partir de uma imagem ruidosa e subtrair ruído aos poucos." Uma ideia mais simples — mas que acabou produzindo resultados muito mais estáveis e em alta resolução do que os GANs. Essa intuição é o cerne do sucesso do SD, e quase toda IA de imagem desde então (Imagen, DALL·E 3, FLUX) também é um modelo de difusão.

3. Linhagem de versões — SD1.5 / SDXL / SD3.5 e a cisão do FLUX

O mais confuso na história do SD é "qual versão eu devo usar de fato?". Cada geração difere em desempenho, licença, GPU recomendada e ecossistema de LoRA. Vamos colocar tudo na mesa.

Versão Lançada em Parâmetros VRAM recomendada Características
SD 1.5 Out 2022 0,9 B 4–8 GB Mais leve, mais LoRAs, mais forte em anime. Ainda mainstream no Civitai
SD 2.x Nov 2022 0,9 B 6–8 GB Praticamente pular. Dados de treino reduzidos, má recepção, nunca emplacou
SDXL 1.0 Jul 2023 3,5 B 8–12 GB 1024×1024 padrão. A escolha para foto-real e design comercial. Segundo maior pool de LoRA
SD 3 Medium Jun 2024 2 B 8–12 GB A reação à licença provocou êxodo de desenvolvedores. Visto amplamente como fracasso
SD 3.5 Medium Out 2024 2,5 B 9,9 GB Redenção para o SD3. Arquitetura MMDiT-X, pensada para PCs de consumidor
SD 3.5 Large Out 2024 8,1 B 18 GB (11 GB em FP8) A qualidade carro-chefe. Mirada na classe RTX 4090
FLUX.1 dev Ago 2024 12 B 12–24 GB Da Black Forest Labs, fundada por ex-desenvolvedores do SD. Amplamente avaliado acima do próprio SD

Conclusão: se você está começando hoje, é uma escolha entre dois caminhos: SDXL ou FLUX.1 dev. O SD 1.5 é leve e tem mais LoRAs, mas está uma geração atrás em qualidade. O SD 3.5 Large é pesado e ainda assim é empurrado para o lado pelo FLUX. A ordenação prática é: SDXL para design comercial, FLUX para qualidade de topo, SD 3.5 Medium para a configuração local viável mais leve.

A chegada do FLUX tem um pano de fundo irônico. Após o fiasco de licenciamento do SD3 (mais sobre isso abaixo), grande parte da equipe original do SD deixou a Stability AI, fundou a Black Forest Labs na Alemanha e lançou o FLUX.1. "Um sucessor do SD com mais qualidade" — vindo das pessoas que construíram o SD em primeiro lugar. Do ponto de vista da comunidade, muita gente hoje vê o FLUX como o herdeiro legítimo em vez do "pai".

4. A realidade de rodar localmente — por faixa de VRAM

"Roda localmente" é uma coisa; o que o seu PC específico realmente consegue fazer é outra. Aqui está o que tenho visto na prática.

4–6 GB (GTX 1660 / RTX 3050)
Faixa de "mal funciona"
Apenas SD 1.5. De 20 a 60 segundos por imagem. SDXL para cima fica complicado
8 GB (RTX 3060 Ti / 4060)
Linha mínima prática
SDXL roda com otimização de memória. De 15 a 30 segundos por imagem 1024 px
12 GB (RTX 3060 12GB / 4070)
Faixa confortável
SDXL/SD 3.5 Medium com folga. Empilhe LoRAs livremente. De 5 a 15 segundos por imagem
16–24 GB (RTX 4080 / 4090)
Configuração séria de produção
FLUX/SD 3.5 Large com folga. Dá para treinar seus próprios LoRAs. De 2 a 8 segundos por imagem

Observação: 16 GB ou mais de RAM do sistema e 100 GB ou mais de SSD livre também são necessários. Mac roda via MPS do Apple Silicon, mas é de 3 a 5× mais lento que NVIDIA

Sem disfarçar: se você quer mexer a sério com SD hoje, os pontos de entrada realistas são uma RTX 3060 12GB (cerca de US$ 200 usada) ou uma RTX 4070 (cerca de US$ 600 nova). GPUs de 8 GB funcionam, mas você entra em um pântano de flags de otimização e quantização — não o que eu recomendaria a um iniciante. Se você não quer comprar uma GPU, o caminho certo são serviços de inferência em nuvem (Runpod / Replicate / a própria hospedagem do Civitai), por algo entre US$ 0,001 e US$ 0,01 por imagem.

5. A armadilha da licença — lições da reação ao SD3

"É open source, então o uso comercial está liberado" não é a frase simples que as pessoas gostariam que fosse no caso do SD. A licença depende da versão.

SD 1.5 / SDXL
CreativeML Open RAIL-M
Sem teto de receita. Uso comercial praticamente totalmente livre. As únicas restrições dizem respeito a usos ilegais ou nocivos
SD 3 / SD 3.5 / FLUX.1 dev
Community License (com teto de US$ 1 milhão de receita)
Indivíduos e organizações com receita anual abaixo de US$ 1 milhão podem usá-lo comercialmente. Acima disso, é preciso um contrato Enterprise

Blogueiros individuais, freelancers e startups em estágio inicial estão todos liberados. Um acordo comercial só é necessário quando uma grande empresa o embute em um produto. Vender as próprias imagens geradas é ilimitado — não importa quantas você gere ou venda, você não deve nada à Stability AI

Quando o SD 3 foi lançado em junho de 2024, sua licença era tão dura — cobrança por uso por imagem gerada, proibição de distribuição de derivados no Civitai — que o Civitai publicamente se recusou a hospedar derivados do SD3. A comunidade declarou que "o SD morreu", muitos desenvolvedores migraram para a Black Forest Labs e entregaram o FLUX. A Stability AI afrouxou drasticamente os termos quando o SD 3.5 foi lançado em outubro (a versão atual com receita de US$ 1 milhão), mas, a partir de maio de 2026, a confiança da comunidade ainda não se recuperou totalmente.

Conselho prático: "Basta usar o SDXL" é a versão que morde menos. CreativeML Open RAIL-M significa sem teto de receita, o pool de LoRA é enorme e o ecossistema está maduro. Migre para SD 3.5 ou FLUX só quando o SDXL deixar de ser suficiente.

6. Civitai / LoRA / ComfyUI — um ecossistema maior do que o modelo

Falar do Stable Diffusion como "apenas o modelo" não captura o ponto. A força do SD é o ecossistema ao redor.

Civitai
Hub de distribuição de modelos
Mais de 100.000 checkpoints, LoRAs, embeddings. Anime, foto-real, personagens específicos, poses específicas — qualquer coisa
LoRA
Arquivo de treino adicional
Arquivos pequenos de 50 a 300 MB que adicionam um estilo ou personagem a um modelo base. Empilhe-os para combinar efeitos
ComfyUI
UI baseada em nós
A escolha dos profissionais. Monte fluxos complexos visualmente (encadeamentos ControlNet → upscale → Inpaint etc.)
A1111
WebUI amigável para iniciantes
Projeto do AUTOMATIC1111. Baseado em formulário e intuitivo. Como a maioria dos usuários do SD entrou pela primeira vez
ControlNet
Controle de composição
Especifique a composição com imagem de pose, desenho de linha ou mapa de profundidade. O Midjourney não tem equivalente com essa precisão
IP-Adapter
Referência de imagem
Copie o estilo, o rosto ou a roupa de uma imagem de referência para uma nova imagem. Essencial para consistência de personagem

Uma ressalva. LoRAs de SD 1.5 não carregam no SDXL; LoRAs de SDXL não carregam no FLUX. Cada modelo base é o seu próprio ecossistema. Se os LoRAs que você ama no Civitai são todos de SD 1.5, mudar para SDXL significa abandoná-los. Ao pesquisar no Civitai, sempre verifique o filtro "Base Model".

7. Midjourney vs Stable Diffusion — qual escolher

As pessoas costumam perguntar "qual é melhor, SD ou Midjourney/DALL·E?" — mas esse é o eixo errado. Vá de Midjourney para qualidade, vá de SD para liberdade e propriedade. Papéis completamente diferentes.

Aspecto Midjourney V8 Stable Diffusion (SDXL/FLUX)
Facilidade de uso ◎ Basta escrever o prompt △ Requer configuração
Qualidade padrão ◎ Melhor visual artístico da indústria ○ Depende do modelo (FLUX está no mesmo nível)
Controle de composição △ Apenas pelo prompt ◎ Controle total via ControlNet
Consistência de personagem ○ Character Reference ◎ Treine um LoRA e replique perfeitamente
Custo mensal US$ 10 a US$ 120 US$ 0 (local) ou pagamento por uso
Uso comercial OK em planos pagos SDXL ilimitado; SD3.5/FLUX tem teto de US$ 1 milhão
Privacidade de dados × Preso à nuvem ◎ Pode ficar local de ponta a ponta
Curva de aprendizado Horas Dias a semanas

A leitura limpa: para "fazer uma única imagem bonita", Midjourney. US$ 10/mês e nada de inferno de setup. Para "quero 100 imagens do mesmo personagem", "quero misturar dados proprietários", "quero um plano fixo comercial em qualquer volume" ou "quero reproduzir um estilo de anime específico", Stable Diffusion. Nenhum é "melhor". Muitos profissionais usam os dois (uma ilustradora que conheço esboça a composição no MJ e finaliza no SD).

8. Três armadilhas — direitos autorais, NSFW, compatibilidade

Três coisas que você vai encontrar usando o SD e que vale a pena saber de antemão.

Armadilha ①: risco autoral dos dados de treino

Os modelos base do SD são treinados em LAION-5B (5,8 bilhões de imagens raspadas da internet). Inevitavelmente, obras com direitos autorais estão lá em grande número. A Getty Images está processando atualmente a Stability AI (ação ajuizada em 2023, em andamento nos EUA e no Reino Unido), e LoRAs de "estilo de artista específico" no Civitai ficaram visivelmente mais cinzentos desde 2025. Para trabalho comercial, higiene mínima: não use nomes específicos de artistas no prompt e, mesmo em LoRAs do Civitai, evite figuras públicas ou obras modeladas em titulares de direitos autorais identificáveis. Se "segurança comercial" é inegociável, a alternativa é o Adobe Firefly.

Armadilha ②: gerar conteúdo NSFW é trivialmente fácil

Como o SD tem pesos abertos, desativar o SafetyChecker faz com que imagens sexuais ou violentas sejam fáceis de gerar. O Civitai hospeda abertamente muitos modelos NSFW. A tecnologia em si é neutra, mas a criação ou distribuição de conteúdo gerado envolvendo menores é ilegal em muitos países (o Japão atualmente discute legislação a respeito). Nunca faça isso em um PC de trabalho durante o expediente — logs e tráfego de rede tornam isso trivialmente detectável. Mesmo em um PC pessoal, certas categorias são ilegais até de criar ou armazenar. Autoconsciência é obrigatória.

Armadilha ③: cisões de compatibilidade entre gerações

Como visto acima, SD1.5 / SDXL / SD3.5 / FLUX são, cada um, o próprio ecossistema. LoRAs, embeddings e modelos de ControlNet não carregam entre eles. "Vou atualizar para o SDXL" pode significar descobrir 50 LoRAs de SD1.5 que você não pode mais usar. Se você está começando, escolha um (SDXL ou FLUX) e permaneça dentro desse ecossistema — no longo prazo, isso é mais eficiente.

Resumo

Essência
A revolução que transformou a IA de imagem em "software que indivíduos podem possuir e modificar." Oferece liberdades que MJ/DALL·E não dão
Ponto de entrada
RTX 3060 12GB + SDXL + A1111 é o começo realista. Sem GPU? Use Runpod a partir de US$ 0,001/imagem
Qual usar
Para a maioria: Midjourney. Escolha o SD só se precisar de "100 do mesmo personagem", "dados privados" ou "só custo de eletricidade"
Cuidado
Direitos autorais, NSFW e cisões de compatibilidade são as três coisas a conhecer cedo. Comece trabalho comercial no SDXL (sem teto de receita)

O Stable Diffusion mudou o mundo em 2022. Mas em 2026, "basta usar o SD" não é mais a resposta padrão — o Midjourney V8 vence em qualidade bruta, o Adobe Firefly vence em segurança comercial. A razão pela qual o SD não morreu — e, na verdade, ganhou impulso com o FLUX — é que ele continua sendo a única opção para "usar IA de imagem no seu próprio PC, com seus próprios dados, exatamente do jeito que você quer, sem depender de nenhuma empresa de nuvem." O Midjourney pode te trancar para fora do Discord; a OpenAI pode mudar seus termos de serviço; o arquivo de pesos do SD no seu SSD é seu. Para quem se sente mais seguro assim, o SD continuará sendo uma ferramenta especial.

FAQ

O Stable Diffusion é grátis?

O modelo em si (arquivos de pesos) é grátis para baixar e usar. Você precisa de uma GPU para rodá-lo — no mínimo uma RTX 3060 12GB (cerca de US$ 200) — ou de um serviço de inferência em nuvem (o Runpod fica em torno de US$ 0,40/hora). Você não deve nenhuma taxa mensal à Stability AI.

Posso usá-lo comercialmente?

Depende da versão. SD 1.5 e SDXL são totalmente abertos (CreativeML Open RAIL-M, sem teto de receita). SD 3, SD 3.5 e FLUX.1 dev são livres para uso comercial abaixo de US$ 1 milhão de receita anual; acima disso, é preciso um contrato com a Stability AI ou com a Black Forest Labs. Vender as próprias imagens geradas é ilimitado em todas as versões.

Qual é melhor, Midjourney ou SD?

Depende do uso. Se você só quer uma imagem bonita a partir de um prompt, o Midjourney é muito mais simples e a qualidade é excelente. Se você precisa produzir em massa o mesmo personagem, misturar dados proprietários, reduzir custo ao da eletricidade ou reproduzir um estilo de anime específico, só o Stable Diffusion serve. Muitos profissionais usam os dois.

Por qual versão eu devo começar?

SDXL 1.0 é o início mais seguro hoje. Roda em 8 a 12 GB de VRAM, tem uma biblioteca enorme de LoRA no Civitai, não tem teto comercial de receita e o ecossistema está maduro. Para qualidade de topo, vá para o FLUX.1 dev (recomendado 16 GB+ de VRAM). O SD 1.5 é leve, mas está uma geração atrás em qualidade — provavelmente deixará novos usuários querendo mais.

O FLUX é uma coisa diferente do Stable Diffusion?

Tecnicamente aparentado, mas de outra empresa. O FLUX é da Black Forest Labs, fundada por ex-engenheiros da Stability AI que construíram o SD. É posicionado menos como sucessor e mais como "uma IA de imagem aberta de maior qualidade". Os ecossistemas são separados (LoRAs do FLUX não funcionam no SD). Mas, na categoria "IA de imagem de pesos abertos e executável localmente", são do mesmo time, e ambos são cidadãos de primeira classe no Civitai e no ComfyUI.

Devo comprar uma GPU ou alugar nuvem?

Nuvem (Runpod / Replicate / a oferta sob demanda do Civitai) é mais barata se você gera menos de 50 imagens por mês. Algo entre US$ 0,001 e US$ 0,01 por imagem. Se você gera centenas por mês, treina seus próprios LoRAs ou se recusa a enviar dados para fora da sua máquina, comprar uma GPU se paga. O ponto ótimo de custo-benefício para usuários sérios é uma RTX 3090 usada (24 GB, cerca de US$ 500).