Sumário
- 1. 22 de agosto de 2022 — O dia em que a IA de imagem virou algo para baixar
- 2. O que é Stable Diffusion — em três linhas
- 3. Linhagem de versões — SD1.5 / SDXL / SD3.5 e a cisão do FLUX
- 4. A realidade de rodar localmente — por faixa de VRAM
- 5. A armadilha da licença — lições da reação ao SD3
- 6. Civitai / LoRA / ComfyUI — um ecossistema maior do que o modelo
- 7. Midjourney vs Stable Diffusion — qual escolher
- 8. Três armadilhas — direitos autorais, NSFW, compatibilidade
- Resumo
- FAQ
Em 22 de agosto de 2022, a startup londrina Stability AI lançou o arquivo de pesos de um modelo de geração de imagens chamado Stable Diffusion v1.4. Um único arquivo `.ckpt` de 4 GB. No momento em que ele chegou ao GitHub e ao Hugging Face, a "IA de geração de imagens" deixou de ser algo escondido por trás da nuvem e passou a ser software que você baixa no seu próprio PC. Nem o Midjourney nem o DALL·E 2 fariam isso na época.
Quase quatro anos depois, o Stable Diffusion chegou ao SD 3.5 Large (8,1 bilhões de parâmetros), e o Civitai hospeda mais de 100.000 modelos personalizados e LoRAs. Enquanto isso, a polêmica de licenciamento em torno do lançamento do SD3 causou um êxodo de desenvolvedores, que deu origem ao FLUX — construído pela nova empresa da equipe original do SD, a Black Forest Labs — e o FLUX superou o "pai" em qualidade. O cenário deixou de ser simples.
Minha posição antes de tudo. Se "o Midjourney está ótimo" funciona para você, não se force a entrar no Stable Diffusion. Mas se algum destes pontos se aplica — "quero manter o mesmo personagem consistente em 100 imagens", "quero misturar meus próprios dados confidenciais localmente", "quero custo mensal de US$ 0", "preciso de um modelo aberto que possa divulgar para trabalho comercial" — então o SD é inevitável. Este artigo cobre como o SD funciona, seu histórico de versões, requisitos de hardware, licenciamento, ecossistema e como escolher, tudo com referência a maio de 2026.
Quatro coisas que o tornam diferente
— O que Midjourney, DALL·E e Firefly nunca vão te dar
Em outras palavras, esta é a IA de imagem para quem quer liberdade da dependência da nuvem, das caixas-pretas e das assinaturas mensais.
O preço a pagar em troca: uma GPU, tempo de configuração e tentativa e erro de prompt.
1. 22 de agosto de 2022 — O dia em que a IA de imagem virou algo para baixar
Na época, a cena de IA de geração de imagens era uma corrida de dois cavalos: o DALL·E 2 da OpenAI (beta apenas por convite) e o Midjourney V3 (somente Discord). Ambos eram exclusivos de nuvem, e ambos mantinham seus pesos completamente escondidos. O que a IA aprendia, como rodava, o que podia ou não gerar — tudo ficava a critério do fornecedor.
Então a Stability AI fez uma escolha que ninguém esperava: liberar o próprio arquivo de pesos. Um modelo de difusão treinado em LAION-5B (5,8 bilhões de pares imagem-texto), código de inferência sob licença MIT, pesos sob CreativeML Open RAIL-M (uso comercial OK, praticamente totalmente livre). Em uma semana, engenheiros do mundo todo já o rodavam no Google Colab, uma WebUI local nasceu (depois AUTOMATIC1111), o Civitai foi lançado — e a personalização da arte com IA decolou.
O notável não foi tanto o salto técnico, mas o precedente: "IA de geração de imagens é algo que indivíduos podem possuir e modificar." Se você quer uma analogia com LLMs, o choque foi parecido com o lançamento do Llama 2 e do Llama 3 com "uso comercial OK". Desde então, a indústria de IA de imagem corre em duas trilhas paralelas: "fechada e de alta qualidade" (MJ/DALL·E) e "aberta e livremente personalizável" (a família SD).
2. O que é Stable Diffusion — em três linhas
Stable Diffusion é uma IA de geração de imagens baseada em modelo de difusão e de pesos abertos, lançada pela Stability AI. Em três linhas:
O que eu acho que de fato importa é o significado de "modelo de difusão" em termos simples. Na era GAN (StyleGAN e companhia), um gerador e um discriminador brigavam entre si para produzir imagens. Os modelos de difusão tomaram outro caminho: "partir de uma imagem ruidosa e subtrair ruído aos poucos." Uma ideia mais simples — mas que acabou produzindo resultados muito mais estáveis e em alta resolução do que os GANs. Essa intuição é o cerne do sucesso do SD, e quase toda IA de imagem desde então (Imagen, DALL·E 3, FLUX) também é um modelo de difusão.
3. Linhagem de versões — SD1.5 / SDXL / SD3.5 e a cisão do FLUX
O mais confuso na história do SD é "qual versão eu devo usar de fato?". Cada geração difere em desempenho, licença, GPU recomendada e ecossistema de LoRA. Vamos colocar tudo na mesa.
| Versão | Lançada em | Parâmetros | VRAM recomendada | Características |
|---|---|---|---|---|
| SD 1.5 | Out 2022 | 0,9 B | 4–8 GB | Mais leve, mais LoRAs, mais forte em anime. Ainda mainstream no Civitai |
| SD 2.x | Nov 2022 | 0,9 B | 6–8 GB | Praticamente pular. Dados de treino reduzidos, má recepção, nunca emplacou |
| SDXL 1.0 | Jul 2023 | 3,5 B | 8–12 GB | 1024×1024 padrão. A escolha para foto-real e design comercial. Segundo maior pool de LoRA |
| SD 3 Medium | Jun 2024 | 2 B | 8–12 GB | A reação à licença provocou êxodo de desenvolvedores. Visto amplamente como fracasso |
| SD 3.5 Medium | Out 2024 | 2,5 B | 9,9 GB | Redenção para o SD3. Arquitetura MMDiT-X, pensada para PCs de consumidor |
| SD 3.5 Large | Out 2024 | 8,1 B | 18 GB (11 GB em FP8) | A qualidade carro-chefe. Mirada na classe RTX 4090 |
| FLUX.1 dev | Ago 2024 | 12 B | 12–24 GB | Da Black Forest Labs, fundada por ex-desenvolvedores do SD. Amplamente avaliado acima do próprio SD |
Conclusão: se você está começando hoje, é uma escolha entre dois caminhos: SDXL ou FLUX.1 dev. O SD 1.5 é leve e tem mais LoRAs, mas está uma geração atrás em qualidade. O SD 3.5 Large é pesado e ainda assim é empurrado para o lado pelo FLUX. A ordenação prática é: SDXL para design comercial, FLUX para qualidade de topo, SD 3.5 Medium para a configuração local viável mais leve.
A chegada do FLUX tem um pano de fundo irônico. Após o fiasco de licenciamento do SD3 (mais sobre isso abaixo), grande parte da equipe original do SD deixou a Stability AI, fundou a Black Forest Labs na Alemanha e lançou o FLUX.1. "Um sucessor do SD com mais qualidade" — vindo das pessoas que construíram o SD em primeiro lugar. Do ponto de vista da comunidade, muita gente hoje vê o FLUX como o herdeiro legítimo em vez do "pai".
4. A realidade de rodar localmente — por faixa de VRAM
"Roda localmente" é uma coisa; o que o seu PC específico realmente consegue fazer é outra. Aqui está o que tenho visto na prática.
Observação: 16 GB ou mais de RAM do sistema e 100 GB ou mais de SSD livre também são necessários. Mac roda via MPS do Apple Silicon, mas é de 3 a 5× mais lento que NVIDIA
Sem disfarçar: se você quer mexer a sério com SD hoje, os pontos de entrada realistas são uma RTX 3060 12GB (cerca de US$ 200 usada) ou uma RTX 4070 (cerca de US$ 600 nova). GPUs de 8 GB funcionam, mas você entra em um pântano de flags de otimização e quantização — não o que eu recomendaria a um iniciante. Se você não quer comprar uma GPU, o caminho certo são serviços de inferência em nuvem (Runpod / Replicate / a própria hospedagem do Civitai), por algo entre US$ 0,001 e US$ 0,01 por imagem.
5. A armadilha da licença — lições da reação ao SD3
"É open source, então o uso comercial está liberado" não é a frase simples que as pessoas gostariam que fosse no caso do SD. A licença depende da versão.
Blogueiros individuais, freelancers e startups em estágio inicial estão todos liberados. Um acordo comercial só é necessário quando uma grande empresa o embute em um produto. Vender as próprias imagens geradas é ilimitado — não importa quantas você gere ou venda, você não deve nada à Stability AI
Quando o SD 3 foi lançado em junho de 2024, sua licença era tão dura — cobrança por uso por imagem gerada, proibição de distribuição de derivados no Civitai — que o Civitai publicamente se recusou a hospedar derivados do SD3. A comunidade declarou que "o SD morreu", muitos desenvolvedores migraram para a Black Forest Labs e entregaram o FLUX. A Stability AI afrouxou drasticamente os termos quando o SD 3.5 foi lançado em outubro (a versão atual com receita de US$ 1 milhão), mas, a partir de maio de 2026, a confiança da comunidade ainda não se recuperou totalmente.
Conselho prático: "Basta usar o SDXL" é a versão que morde menos. CreativeML Open RAIL-M significa sem teto de receita, o pool de LoRA é enorme e o ecossistema está maduro. Migre para SD 3.5 ou FLUX só quando o SDXL deixar de ser suficiente.
6. Civitai / LoRA / ComfyUI — um ecossistema maior do que o modelo
Falar do Stable Diffusion como "apenas o modelo" não captura o ponto. A força do SD é o ecossistema ao redor.
Uma ressalva. LoRAs de SD 1.5 não carregam no SDXL; LoRAs de SDXL não carregam no FLUX. Cada modelo base é o seu próprio ecossistema. Se os LoRAs que você ama no Civitai são todos de SD 1.5, mudar para SDXL significa abandoná-los. Ao pesquisar no Civitai, sempre verifique o filtro "Base Model".
7. Midjourney vs Stable Diffusion — qual escolher
As pessoas costumam perguntar "qual é melhor, SD ou Midjourney/DALL·E?" — mas esse é o eixo errado. Vá de Midjourney para qualidade, vá de SD para liberdade e propriedade. Papéis completamente diferentes.
| Aspecto | Midjourney V8 | Stable Diffusion (SDXL/FLUX) |
|---|---|---|
| Facilidade de uso | ◎ Basta escrever o prompt | △ Requer configuração |
| Qualidade padrão | ◎ Melhor visual artístico da indústria | ○ Depende do modelo (FLUX está no mesmo nível) |
| Controle de composição | △ Apenas pelo prompt | ◎ Controle total via ControlNet |
| Consistência de personagem | ○ Character Reference | ◎ Treine um LoRA e replique perfeitamente |
| Custo mensal | US$ 10 a US$ 120 | US$ 0 (local) ou pagamento por uso |
| Uso comercial | OK em planos pagos | SDXL ilimitado; SD3.5/FLUX tem teto de US$ 1 milhão |
| Privacidade de dados | × Preso à nuvem | ◎ Pode ficar local de ponta a ponta |
| Curva de aprendizado | Horas | Dias a semanas |
A leitura limpa: para "fazer uma única imagem bonita", Midjourney. US$ 10/mês e nada de inferno de setup. Para "quero 100 imagens do mesmo personagem", "quero misturar dados proprietários", "quero um plano fixo comercial em qualquer volume" ou "quero reproduzir um estilo de anime específico", Stable Diffusion. Nenhum é "melhor". Muitos profissionais usam os dois (uma ilustradora que conheço esboça a composição no MJ e finaliza no SD).
8. Três armadilhas — direitos autorais, NSFW, compatibilidade
Três coisas que você vai encontrar usando o SD e que vale a pena saber de antemão.
Armadilha ①: risco autoral dos dados de treino
Os modelos base do SD são treinados em LAION-5B (5,8 bilhões de imagens raspadas da internet). Inevitavelmente, obras com direitos autorais estão lá em grande número. A Getty Images está processando atualmente a Stability AI (ação ajuizada em 2023, em andamento nos EUA e no Reino Unido), e LoRAs de "estilo de artista específico" no Civitai ficaram visivelmente mais cinzentos desde 2025. Para trabalho comercial, higiene mínima: não use nomes específicos de artistas no prompt e, mesmo em LoRAs do Civitai, evite figuras públicas ou obras modeladas em titulares de direitos autorais identificáveis. Se "segurança comercial" é inegociável, a alternativa é o Adobe Firefly.
Armadilha ②: gerar conteúdo NSFW é trivialmente fácil
Como o SD tem pesos abertos, desativar o SafetyChecker faz com que imagens sexuais ou violentas sejam fáceis de gerar. O Civitai hospeda abertamente muitos modelos NSFW. A tecnologia em si é neutra, mas a criação ou distribuição de conteúdo gerado envolvendo menores é ilegal em muitos países (o Japão atualmente discute legislação a respeito). Nunca faça isso em um PC de trabalho durante o expediente — logs e tráfego de rede tornam isso trivialmente detectável. Mesmo em um PC pessoal, certas categorias são ilegais até de criar ou armazenar. Autoconsciência é obrigatória.
Armadilha ③: cisões de compatibilidade entre gerações
Como visto acima, SD1.5 / SDXL / SD3.5 / FLUX são, cada um, o próprio ecossistema. LoRAs, embeddings e modelos de ControlNet não carregam entre eles. "Vou atualizar para o SDXL" pode significar descobrir 50 LoRAs de SD1.5 que você não pode mais usar. Se você está começando, escolha um (SDXL ou FLUX) e permaneça dentro desse ecossistema — no longo prazo, isso é mais eficiente.
Resumo
O Stable Diffusion mudou o mundo em 2022. Mas em 2026, "basta usar o SD" não é mais a resposta padrão — o Midjourney V8 vence em qualidade bruta, o Adobe Firefly vence em segurança comercial. A razão pela qual o SD não morreu — e, na verdade, ganhou impulso com o FLUX — é que ele continua sendo a única opção para "usar IA de imagem no seu próprio PC, com seus próprios dados, exatamente do jeito que você quer, sem depender de nenhuma empresa de nuvem." O Midjourney pode te trancar para fora do Discord; a OpenAI pode mudar seus termos de serviço; o arquivo de pesos do SD no seu SSD é seu. Para quem se sente mais seguro assim, o SD continuará sendo uma ferramenta especial.
FAQ
O Stable Diffusion é grátis?
O modelo em si (arquivos de pesos) é grátis para baixar e usar. Você precisa de uma GPU para rodá-lo — no mínimo uma RTX 3060 12GB (cerca de US$ 200) — ou de um serviço de inferência em nuvem (o Runpod fica em torno de US$ 0,40/hora). Você não deve nenhuma taxa mensal à Stability AI.
Posso usá-lo comercialmente?
Depende da versão. SD 1.5 e SDXL são totalmente abertos (CreativeML Open RAIL-M, sem teto de receita). SD 3, SD 3.5 e FLUX.1 dev são livres para uso comercial abaixo de US$ 1 milhão de receita anual; acima disso, é preciso um contrato com a Stability AI ou com a Black Forest Labs. Vender as próprias imagens geradas é ilimitado em todas as versões.
Qual é melhor, Midjourney ou SD?
Depende do uso. Se você só quer uma imagem bonita a partir de um prompt, o Midjourney é muito mais simples e a qualidade é excelente. Se você precisa produzir em massa o mesmo personagem, misturar dados proprietários, reduzir custo ao da eletricidade ou reproduzir um estilo de anime específico, só o Stable Diffusion serve. Muitos profissionais usam os dois.
Por qual versão eu devo começar?
SDXL 1.0 é o início mais seguro hoje. Roda em 8 a 12 GB de VRAM, tem uma biblioteca enorme de LoRA no Civitai, não tem teto comercial de receita e o ecossistema está maduro. Para qualidade de topo, vá para o FLUX.1 dev (recomendado 16 GB+ de VRAM). O SD 1.5 é leve, mas está uma geração atrás em qualidade — provavelmente deixará novos usuários querendo mais.
O FLUX é uma coisa diferente do Stable Diffusion?
Tecnicamente aparentado, mas de outra empresa. O FLUX é da Black Forest Labs, fundada por ex-engenheiros da Stability AI que construíram o SD. É posicionado menos como sucessor e mais como "uma IA de imagem aberta de maior qualidade". Os ecossistemas são separados (LoRAs do FLUX não funcionam no SD). Mas, na categoria "IA de imagem de pesos abertos e executável localmente", são do mesmo time, e ambos são cidadãos de primeira classe no Civitai e no ComfyUI.
Devo comprar uma GPU ou alugar nuvem?
Nuvem (Runpod / Replicate / a oferta sob demanda do Civitai) é mais barata se você gera menos de 50 imagens por mês. Algo entre US$ 0,001 e US$ 0,01 por imagem. Se você gera centenas por mês, treina seus próprios LoRAs ou se recusa a enviar dados para fora da sua máquina, comprar uma GPU se paga. O ponto ótimo de custo-benefício para usuários sérios é uma RTX 3090 usada (24 GB, cerca de US$ 500).