22 августа 2022 года лондонский стартап Stability AI выложил файл весов модели генерации изображений под названием Stable Diffusion v1.4. Один файл `.ckpt` размером 4 ГБ. В тот момент, когда он появился на GitHub и Hugging Face, «ИИ для генерации изображений» перестал быть чем-то спрятанным за облаком и стал программой, которую можно скачать на свой компьютер. Ни Midjourney, ни DALL·E 2 в то время этого не делали.

Почти четыре года спустя Stable Diffusion дорос до SD 3.5 Large (8,1 млрд параметров), а на Civitai размещено больше 100 000 пользовательских моделей и LoRA. Параллельно лицензионный скандал вокруг выпуска SD3 спровоцировал исход разработчиков, что породило FLUX — модель новой компании оригинальной команды SD, Black Forest Labs, — и FLUX обошёл «родителя» по качеству. Картина больше не выглядит простой.

Сразу моя позиция. Если вам подходит «Midjourney и хватит» — не заставляйте себя осваивать Stable Diffusion. Но если хотя бы что-то из этого про вас — «нужно держать одного персонажа одинаковым на 100 изображениях», «хочу подмешивать свои конфиденциальные данные локально», «хочу, чтобы ежемесячные расходы были 0 $», «нужна открытая модель, которую можно показать заказчику для коммерческой работы», — тогда без SD не обойтись. В статье разобрано, как работает SD, история версий, требования к железу, лицензирование, экосистема и как выбирать — по состоянию на май 2026 года.

Stable Diffusion · Открытый ИИ для изображений

Четыре отличия, делающие его особенным

— То, чего Midjourney, DALL·E и Firefly никогда не дадут

(1) ОТКРЫТЫЕ ВЕСА
Файлы весов распространяются открыто
Скачивайте .safetensors напрямую с Hugging Face. У Midjourney нет даже API
(2) ЛОКАЛЬНО ПРЕЖДЕ ВСЕГО
Работает на вашей GPU
Практично от RTX 3060 (12 ГБ) и выше. Сгенерированные данные остаются на вашей машине
(3) ДООБУЧЕНИЕ
Свободно модифицируется через LoRA
Больше 100 000 LoRA и кастомных моделей на Civitai — аниме, фотореализм, конкретные персонажи, что угодно
(4) НУЛЕВАЯ СТОИМОСТЬ
Бесплатно, кроме электричества
После единовременной покупки GPU каждое изображение стоит 0 $. Коммерческое использование разрешено при определённых условиях

Иными словами, это ИИ для изображений для тех, кто хочет свободы от облачной зависимости, чёрных ящиков и ежемесячных подписок.
Цена за это: GPU, время на настройку и эксперименты с промптами.

1. 22 августа 2022 года — день, когда ИИ-генерацию изображений стало можно скачать

На тот момент сцена ИИ-генерации изображений сводилась к двум игрокам: DALL·E 2 от OpenAI (закрытая бета по приглашениям) и Midjourney V3 (только в Discord). Обе работали только в облаке, веса были полностью закрыты. Чему училась их модель, как она запускалась, что могла и не могла генерировать — всё это оставалось на усмотрении вендора.

Затем Stability AI приняла решение, которого никто не ждал: выложить сам файл весов. Диффузионная модель, обученная на LAION-5B (5,8 млрд пар изображение–текст), код инференса под MIT, веса под CreativeML Open RAIL-M (коммерческое использование разрешено, практически без ограничений). За неделю инженеры по всему миру запустили её в Google Colab, родился локальный WebUI (позже AUTOMATIC1111), стартовал Civitai — и персонализация ИИ-арта пошла в рост.

Самым важным был не технологический скачок, а сам прецедент: «ИИ для генерации изображений — это то, чем человек может владеть и что может модифицировать». Если проводить аналогию с LLM, шок был сравним с выходом Llama 2 и Llama 3 под лицензией «коммерческое использование разрешено». С тех пор индустрия ИИ для изображений идёт по двум параллельным колеям: «закрытое и высокого качества» (MJ/DALL·E) и «открытое и свободно настраиваемое» (семейство SD).

2. Что такое Stable Diffusion — в трёх строках

Stable Diffusion — это открытая по весам ИИ-модель генерации изображений на основе диффузионной модели, выпущенная Stability AI. Разбор в трёх строках:

(1) КАК ЭТО РАБОТАЕТ
Стартует от случайного шумового изображения и постепенно убирает шум, подгоняя картинку под ваш текстовый промпт. Занимает 20–50 шагов
(2) АРХИТЕКТУРА
Стек из трёх частей: Text Encoder (CLIP/T5), который интерпретирует промпт, U-Net/DiT, который убирает шум, и VAE, который сжимает и разжимает изображение
(3) РАСПРОСТРАНЕНИЕ
Файлы весов (.safetensors, 2–16 ГБ) свободно скачиваются с Hugging Face. Запуск на локальной GPU или через облачные сервисы инференса

Что, на мой взгляд, действительно важно — это что означает «диффузионная модель» на простом языке. В эпоху GAN (StyleGAN и компания) генератор и дискриминатор сражались друг с другом, чтобы получить изображение. Диффузионные модели пошли другим путём: «начать с зашумлённой картинки и постепенно вычитать шум». Идея проще — но оказалось, что она даёт гораздо более стабильный и высокого разрешения вывод, чем GAN. Это озарение и есть ядро успеха SD, и почти все последующие ИИ для изображений (Imagen, DALL·E 3, FLUX) — тоже диффузионные модели.

3. Линейка версий — SD1.5 / SDXL / SD3.5 и развилка FLUX

Самое запутанное в истории SD — это «какую версию мне на самом деле использовать?». Каждое поколение отличается по производительности, лицензии, рекомендуемой GPU и экосистеме LoRA. Разложим по полочкам.

Версия Выход Параметры Рекомендуемая VRAM Особенности
SD 1.5 Окт 2022 0,9 млрд 4–8 ГБ Самая лёгкая, больше всего LoRA, сильнейшая в аниме. До сих пор мейнстрим на Civitai
SD 2.x Ноя 2022 0,9 млрд 6–8 ГБ Фактически пропускаем. Сокращённые тренировочные данные, плохой приём, так и не прижилась
SDXL 1.0 Июл 2023 3,5 млрд 8–12 ГБ Стандарт 1024×1024. Главный выбор для фотореализма и коммерческого дизайна. Второй по объёму пул LoRA
SD 3 Medium Июн 2024 2 млрд 8–12 ГБ Лицензионный скандал спровоцировал исход разработчиков. Широко считается провалом
SD 3.5 Medium Окт 2024 2,5 млрд 9,9 ГБ Реабилитация SD3. Архитектура MMDiT-X, рассчитана на пользовательские ПК
SD 3.5 Large Окт 2024 8,1 млрд 18 ГБ (11 ГБ в FP8) Флагманское качество. Ориентир — класс RTX 4090
FLUX.1 dev Авг 2024 12 млрд 12–24 ГБ От Black Forest Labs, основанной бывшими разработчиками SD. Многие ставят выше самого SD

Суть: если вы стартуете сегодня, реальный выбор — между SDXL и FLUX.1 dev. SD 1.5 лёгкая и имеет больше всего LoRA, но отстаёт на поколение по качеству. SD 3.5 Large тяжёлая и при этом теснится FLUX. Практическая раскладка: SDXL для коммерческого дизайна, FLUX для топового качества, SD 3.5 Medium для самой лёгкой жизнеспособной локальной установки.

У появления FLUX ироничная подоплёка. После лицензионного фиаско SD3 (подробнее ниже) значительная часть оригинальной команды SD ушла из Stability AI, основала в Германии Black Forest Labs и выпустила FLUX.1. «Более качественный преемник SD» — от тех людей, которые в первую очередь и сделали SD. С точки зрения сообщества, многие теперь видят в FLUX законного наследника, а не в «родителе».

4. Реальность локального запуска — по уровням VRAM

«Работает локально» — это одно; что на самом деле может ваш конкретный ПК — это другое. Вот что я видел на практике.

4–6 ГБ (GTX 1660 / RTX 3050)
«Еле работает»
Только SD 1.5. 20–60 секунд на изображение. SDXL и выше — тяжело
8 ГБ (RTX 3060 Ti / 4060)
Минимальный практичный порог
SDXL работает с оптимизацией памяти. 15–30 секунд на изображение 1024 px
12 ГБ (RTX 3060 12GB / 4070)
Комфортный уровень
SDXL/SD 3.5 Medium с запасом. Свободно навешивайте LoRA. 5–15 секунд на изображение
16–24 ГБ (RTX 4080 / 4090)
Серьёзная производственная установка
FLUX/SD 3.5 Large с запасом. Можно тренировать собственные LoRA. 2–8 секунд на изображение

Примечание: также нужны 16+ ГБ системной RAM и 100+ ГБ свободного места на SSD. Mac запускается через MPS Apple Silicon, но в 3–5 раз медленнее NVIDIA

Без прикрас: если вы хотите всерьёз заняться SD сегодня, реалистичные точки входа — RTX 3060 12GB (около 200 $ б/у) или RTX 4070 (около 600 $ новая). 8-гигабайтные GPU работают, но вы попадёте в болото из флагов оптимизации и квантования — не то, что я порекомендую новичку. Если не хочется покупать GPU, правильный ход — облачные сервисы инференса (Runpod / Replicate / собственный хостинг Civitai) примерно по 0,001–0,01 $ за изображение.

5. Лицензионная ловушка — уроки скандала вокруг SD3

«Это open source, поэтому коммерческое использование разрешено» — для SD это не такое простое утверждение, каким хочется его видеть. Лицензия зависит от версии.

SD 1.5 / SDXL
CreativeML Open RAIL-M
Без потолка по выручке. Коммерческое использование почти полностью свободно. Ограничения касаются только незаконного или вредного применения
SD 3 / SD 3.5 / FLUX.1 dev
Community License (потолок выручки 1 млн $)
Физлица и организации с годовой выручкой до 1 млн $ могут использовать коммерчески. Выше — нужен корпоративный контракт

Индивидуальные блогеры, фрилансеры и ранние стартапы — все в зелёной зоне. Коммерческое соглашение нужно только когда крупное предприятие встраивает модель в продукт. Продажа самих сгенерированных изображений не ограничена — сколько бы вы ни сгенерировали и ни продали, Stability AI вы ничего не должны

Когда в июне 2024 года вышла SD 3, её лицензия оказалась настолько жёсткой — плата за каждое сгенерированное изображение, запрет на распространение производных моделей на Civitai, — что Civitai публично отказался хостить производные SD3. Сообщество объявило «SD умер», многие разработчики ушли в Black Forest Labs и выпустили FLUX. В октябре, при запуске SD 3.5, Stability AI существенно смягчила условия (нынешняя версия с потолком в 1 млн $ выручки), но по состоянию на май 2026 года доверие сообщества полностью так и не восстановилось.

Практический совет: «Просто используйте SDXL» — это версия, которая кусается меньше всего. CreativeML Open RAIL-M означает отсутствие потолка по выручке, пул LoRA огромный, экосистема зрелая. Переходите на SD 3.5 или FLUX, только когда SDXL перестанет хватать.

6. Civitai / LoRA / ComfyUI — экосистема больше самой модели

Говорить о Stable Diffusion «только как о модели» — значит упускать суть. Сила SD — в окружающей экосистеме.

Civitai
Хаб распространения моделей
100 000+ чекпоинтов, LoRA, эмбеддингов. Аниме, фотореализм, конкретные персонажи, конкретные позы — что угодно
LoRA
Файл-надстройка для дообучения
Маленькие файлы по 50–300 МБ, которые добавляют к базовой модели стиль или персонажа. Накладывайте их слоями, чтобы комбинировать эффекты
ComfyUI
Нодовый интерфейс
Выбор профессионалов. Стройте сложные пайплайны визуально (цепочки ControlNet → апскейл → Inpaint и т. д.)
A1111
Дружелюбный WebUI для новичков
Проект AUTOMATIC1111. Форма с полями, интуитивно понятный. Через него большинство пользователей SD впервые в него попали
ControlNet
Контроль композиции
Задавайте композицию через изображение позы, линейный рисунок или карту глубины. У Midjourney нет эквивалента такой точности
IP-Adapter
Референсное изображение
Переносите стиль, лицо или костюм с референсного изображения на новое. Незаменим для консистентности персонажа

Одна оговорка. LoRA для SD 1.5 не загружаются в SDXL; LoRA для SDXL не загружаются в FLUX. Каждая базовая модель — это отдельная экосистема. Если все любимые LoRA на Civitai у вас под SD 1.5, переход на SDXL означает от них отказаться. При поиске на Civitai всегда проверяйте фильтр «Base Model».

7. Midjourney против Stable Diffusion — что выбрать

Часто спрашивают: «что лучше — SD или Midjourney/DALL·E?» — но это неправильная ось. Берите Midjourney за качество, берите SD за свободу и владение. Это совсем разные роли.

Аспект Midjourney V8 Stable Diffusion (SDXL/FLUX)
Простота использования Отлично — просто напишите промпт Средне — нужна настройка
Качество «из коробки» Отлично — лучшая художественная подача в индустрии Хорошо — зависит от модели (FLUX наравне)
Контроль композиции Слабо — только через промпт Отлично — полный контроль через ControlNet
Консистентность персонажа Хорошо — Character Reference Отлично — обучите LoRA, повторяйте идеально
Ежемесячная стоимость 10–120 $ 0 $ (локально) или оплата по факту
Коммерческое использование Разрешено на платных тарифах SDXL без ограничений; SD3.5/FLUX — потолок 1 млн $
Конфиденциальность данных Нет — привязано к облаку Отлично — всё может оставаться локально
Кривая обучения Часы От дней до недель

Чистая раскладка: для «сделать одну красивую картинку» — Midjourney. 10 $ в месяц и без ада настройки. Для «нужно 100 изображений одного и того же персонажа», «хочу подмешать собственные данные», «нужен коммерческий безлимит по объёму» или «хочу воспроизвести конкретный стиль аниме» — Stable Diffusion. Ни тот, ни другой не «лучше». Многие профи используют оба (знакомый иллюстратор накидывает композицию в MJ и финиширует в SD).

8. Три ловушки — авторские права, NSFW, совместимость

Три вещи, с которыми вы столкнётесь при работе с SD, — о них стоит знать заранее.

Ловушка 1: риск нарушения авторских прав в тренировочных данных

Базовые модели SD обучены на LAION-5B (5,8 млрд изображений, выкачанных из интернета). Неизбежно туда попало большое количество защищённых авторским правом работ. Getty Images сейчас судится со Stability AI (иск подан в 2023 году, разбирательство идёт и в США, и в Великобритании), а LoRA с «стилем конкретного художника» на Civitai с 2025 года заметно посерели. Для коммерческой работы минимальная гигиена: не подсказывайте именами конкретных художников и даже среди LoRA на Civitai избегайте публичных персон или работ, имитирующих узнаваемых правообладателей. Если «коммерческая безопасность» — это не обсуждается, альтернатива — Adobe Firefly.

Ловушка 2: NSFW-генерация делается тривиально легко

Поскольку у SD открытые веса, отключение SafetyChecker означает, что сексуальные или жестокие изображения генерируются на раз. Civitai открыто хостит много NSFW-моделей. Сама технология нейтральна, но создание или распространение сгенерированного контента с участием несовершеннолетних незаконно во многих странах (в Японии сейчас обсуждается законопроект). Никогда не делайте этого на рабочем ПК в рабочее время — логи и сетевой трафик делают такое легко обнаружимым. Даже на домашнем ПК отдельные категории нелегально создавать и даже хранить. Самосознание здесь обязательно.

Ловушка 3: разрывы совместимости между поколениями

Как было сказано выше, SD1.5 / SDXL / SD3.5 / FLUX — каждая из них самостоятельная экосистема. LoRA, эмбеддинги и модели ControlNet между ними не переносятся. «Дай-ка я обновлюсь до SDXL» может означать обнаружение 50 LoRA для SD1.5, которыми вы больше не сможете пользоваться. Если вы только стартуете, выберите одну (SDXL или FLUX) и держитесь её экосистемы — на длинной дистанции это на самом деле эффективнее.

Итог

Суть
Революция, которая превратила ИИ для изображений в «программу, которой может владеть и которую может модифицировать частный человек». Даёт свободы, которых MJ/DALL·E не дают
Точка входа
RTX 3060 12GB + SDXL + A1111 — реалистичный старт. Нет GPU? Используйте Runpod от 0,001 $ за изображение
Что выбрать
Большинству — Midjourney. Выбирайте SD, только если нужны «100 одного и того же персонажа», «приватные данные» или «расходы только на электричество»
Осторожно
Авторские права, NSFW и разрывы совместимости — три вещи, о которых стоит знать заранее. Коммерческую работу начинайте на SDXL (без потолка по выручке)

В 2022 году Stable Diffusion изменил мир. Но в 2026 году «просто берите SD» больше не ответ по умолчанию — Midjourney V8 выигрывает по сырому качеству, Adobe Firefly выигрывает по коммерческой безопасности. Причина, по которой SD не умер — и наоборот, набрал инерцию благодаря FLUX, — в том, что он остаётся единственным вариантом для тех, кто хочет «использовать ИИ для изображений на своём ПК, со своими данными, ровно так, как хочет, не завися ни от какой облачной компании». Midjourney может выкинуть вас из Discord; OpenAI может изменить условия сервиса; файл весов SD на вашем SSD принадлежит вам. Для людей, которым так спокойнее, SD ещё долго будет особым инструментом.

FAQ

Stable Diffusion бесплатный?

Сама модель (файлы весов) скачивается и используется бесплатно. Чтобы её запустить, нужна GPU — как минимум RTX 3060 12GB (около 200 $) — либо облачный сервис инференса (Runpod стоит примерно 0,4 $/час). Stability AI вы не должны никакой ежемесячной платы.

Можно ли использовать его коммерчески?

Зависит от версии. SD 1.5 и SDXL полностью открыты (CreativeML Open RAIL-M, без потолка по выручке). SD 3, SD 3.5 и FLUX.1 dev — бесплатно для коммерческого использования при годовой выручке до 1 млн $; выше — нужен контракт со Stability AI или Black Forest Labs. Продажа самих сгенерированных изображений не ограничена ни в одной версии.

Что лучше — Midjourney или SD?

Зависит от задачи. Если вам просто нужна одна красивая картинка по промпту, Midjourney намного проще и качество отличное. Если нужно массово выпускать одного и того же персонажа, подмешивать собственные данные, свести расходы до электричества или воспроизвести конкретный стиль аниме — работает только Stable Diffusion. Многие профи используют оба.

С какой версии начинать?

SDXL 1.0 — самый безопасный старт сегодня. Запускается на 8–12 ГБ VRAM, имеет огромную библиотеку LoRA на Civitai, не имеет коммерческого потолка по выручке, экосистема зрелая. Для топового качества переходите на FLUX.1 dev (рекомендуется 16+ ГБ VRAM). SD 1.5 лёгкая, но отстаёт на поколение по качеству — новичкам, скорее всего, её будет мало.

FLUX — это что-то другое, чем Stable Diffusion?

Технически родственная вещь, но от другой компании. FLUX — от Black Forest Labs, основанной бывшими инженерами Stability AI, которые и создали SD. Позиционируется не столько как преемник, сколько как «более качественный открытый ИИ для изображений». Экосистемы отдельные (LoRA для FLUX не работают в SD). Но в категории «открытый по весам, локально запускаемый ИИ для изображений» это один и тот же лагерь, и обе модели — первоклассные граждане Civitai и ComfyUI.

Покупать GPU или арендовать облако?

Облако (Runpod / Replicate / on-demand от Civitai) дешевле, если вы генерируете меньше 50 изображений в месяц. Около 0,001–0,01 $ за изображение. Если вы генерируете сотни в месяц, обучаете собственные LoRA или отказываетесь отправлять данные с машины — покупка GPU окупится. Сладкая точка по соотношению цена/качество для серьёзных пользователей — б/у RTX 3090 (24 ГБ, около 500 $).