Содержание
- 1. 22 августа 2022 года — день, когда ИИ-генерацию изображений стало можно скачать
- 2. Что такое Stable Diffusion — в трёх строках
- 3. Линейка версий — SD1.5 / SDXL / SD3.5 и развилка FLUX
- 4. Реальность локального запуска — по уровням VRAM
- 5. Лицензионная ловушка — уроки скандала вокруг SD3
- 6. Civitai / LoRA / ComfyUI — экосистема больше самой модели
- 7. Midjourney против Stable Diffusion — что выбрать
- 8. Три ловушки — авторские права, NSFW, совместимость
- Итог
- FAQ
22 августа 2022 года лондонский стартап Stability AI выложил файл весов модели генерации изображений под названием Stable Diffusion v1.4. Один файл `.ckpt` размером 4 ГБ. В тот момент, когда он появился на GitHub и Hugging Face, «ИИ для генерации изображений» перестал быть чем-то спрятанным за облаком и стал программой, которую можно скачать на свой компьютер. Ни Midjourney, ни DALL·E 2 в то время этого не делали.
Почти четыре года спустя Stable Diffusion дорос до SD 3.5 Large (8,1 млрд параметров), а на Civitai размещено больше 100 000 пользовательских моделей и LoRA. Параллельно лицензионный скандал вокруг выпуска SD3 спровоцировал исход разработчиков, что породило FLUX — модель новой компании оригинальной команды SD, Black Forest Labs, — и FLUX обошёл «родителя» по качеству. Картина больше не выглядит простой.
Сразу моя позиция. Если вам подходит «Midjourney и хватит» — не заставляйте себя осваивать Stable Diffusion. Но если хотя бы что-то из этого про вас — «нужно держать одного персонажа одинаковым на 100 изображениях», «хочу подмешивать свои конфиденциальные данные локально», «хочу, чтобы ежемесячные расходы были 0 $», «нужна открытая модель, которую можно показать заказчику для коммерческой работы», — тогда без SD не обойтись. В статье разобрано, как работает SD, история версий, требования к железу, лицензирование, экосистема и как выбирать — по состоянию на май 2026 года.
Четыре отличия, делающие его особенным
— То, чего Midjourney, DALL·E и Firefly никогда не дадут
Иными словами, это ИИ для изображений для тех, кто хочет свободы от облачной зависимости, чёрных ящиков и ежемесячных подписок.
Цена за это: GPU, время на настройку и эксперименты с промптами.
1. 22 августа 2022 года — день, когда ИИ-генерацию изображений стало можно скачать
На тот момент сцена ИИ-генерации изображений сводилась к двум игрокам: DALL·E 2 от OpenAI (закрытая бета по приглашениям) и Midjourney V3 (только в Discord). Обе работали только в облаке, веса были полностью закрыты. Чему училась их модель, как она запускалась, что могла и не могла генерировать — всё это оставалось на усмотрении вендора.
Затем Stability AI приняла решение, которого никто не ждал: выложить сам файл весов. Диффузионная модель, обученная на LAION-5B (5,8 млрд пар изображение–текст), код инференса под MIT, веса под CreativeML Open RAIL-M (коммерческое использование разрешено, практически без ограничений). За неделю инженеры по всему миру запустили её в Google Colab, родился локальный WebUI (позже AUTOMATIC1111), стартовал Civitai — и персонализация ИИ-арта пошла в рост.
Самым важным был не технологический скачок, а сам прецедент: «ИИ для генерации изображений — это то, чем человек может владеть и что может модифицировать». Если проводить аналогию с LLM, шок был сравним с выходом Llama 2 и Llama 3 под лицензией «коммерческое использование разрешено». С тех пор индустрия ИИ для изображений идёт по двум параллельным колеям: «закрытое и высокого качества» (MJ/DALL·E) и «открытое и свободно настраиваемое» (семейство SD).
2. Что такое Stable Diffusion — в трёх строках
Stable Diffusion — это открытая по весам ИИ-модель генерации изображений на основе диффузионной модели, выпущенная Stability AI. Разбор в трёх строках:
Что, на мой взгляд, действительно важно — это что означает «диффузионная модель» на простом языке. В эпоху GAN (StyleGAN и компания) генератор и дискриминатор сражались друг с другом, чтобы получить изображение. Диффузионные модели пошли другим путём: «начать с зашумлённой картинки и постепенно вычитать шум». Идея проще — но оказалось, что она даёт гораздо более стабильный и высокого разрешения вывод, чем GAN. Это озарение и есть ядро успеха SD, и почти все последующие ИИ для изображений (Imagen, DALL·E 3, FLUX) — тоже диффузионные модели.
3. Линейка версий — SD1.5 / SDXL / SD3.5 и развилка FLUX
Самое запутанное в истории SD — это «какую версию мне на самом деле использовать?». Каждое поколение отличается по производительности, лицензии, рекомендуемой GPU и экосистеме LoRA. Разложим по полочкам.
| Версия | Выход | Параметры | Рекомендуемая VRAM | Особенности |
|---|---|---|---|---|
| SD 1.5 | Окт 2022 | 0,9 млрд | 4–8 ГБ | Самая лёгкая, больше всего LoRA, сильнейшая в аниме. До сих пор мейнстрим на Civitai |
| SD 2.x | Ноя 2022 | 0,9 млрд | 6–8 ГБ | Фактически пропускаем. Сокращённые тренировочные данные, плохой приём, так и не прижилась |
| SDXL 1.0 | Июл 2023 | 3,5 млрд | 8–12 ГБ | Стандарт 1024×1024. Главный выбор для фотореализма и коммерческого дизайна. Второй по объёму пул LoRA |
| SD 3 Medium | Июн 2024 | 2 млрд | 8–12 ГБ | Лицензионный скандал спровоцировал исход разработчиков. Широко считается провалом |
| SD 3.5 Medium | Окт 2024 | 2,5 млрд | 9,9 ГБ | Реабилитация SD3. Архитектура MMDiT-X, рассчитана на пользовательские ПК |
| SD 3.5 Large | Окт 2024 | 8,1 млрд | 18 ГБ (11 ГБ в FP8) | Флагманское качество. Ориентир — класс RTX 4090 |
| FLUX.1 dev | Авг 2024 | 12 млрд | 12–24 ГБ | От Black Forest Labs, основанной бывшими разработчиками SD. Многие ставят выше самого SD |
Суть: если вы стартуете сегодня, реальный выбор — между SDXL и FLUX.1 dev. SD 1.5 лёгкая и имеет больше всего LoRA, но отстаёт на поколение по качеству. SD 3.5 Large тяжёлая и при этом теснится FLUX. Практическая раскладка: SDXL для коммерческого дизайна, FLUX для топового качества, SD 3.5 Medium для самой лёгкой жизнеспособной локальной установки.
У появления FLUX ироничная подоплёка. После лицензионного фиаско SD3 (подробнее ниже) значительная часть оригинальной команды SD ушла из Stability AI, основала в Германии Black Forest Labs и выпустила FLUX.1. «Более качественный преемник SD» — от тех людей, которые в первую очередь и сделали SD. С точки зрения сообщества, многие теперь видят в FLUX законного наследника, а не в «родителе».
4. Реальность локального запуска — по уровням VRAM
«Работает локально» — это одно; что на самом деле может ваш конкретный ПК — это другое. Вот что я видел на практике.
Примечание: также нужны 16+ ГБ системной RAM и 100+ ГБ свободного места на SSD. Mac запускается через MPS Apple Silicon, но в 3–5 раз медленнее NVIDIA
Без прикрас: если вы хотите всерьёз заняться SD сегодня, реалистичные точки входа — RTX 3060 12GB (около 200 $ б/у) или RTX 4070 (около 600 $ новая). 8-гигабайтные GPU работают, но вы попадёте в болото из флагов оптимизации и квантования — не то, что я порекомендую новичку. Если не хочется покупать GPU, правильный ход — облачные сервисы инференса (Runpod / Replicate / собственный хостинг Civitai) примерно по 0,001–0,01 $ за изображение.
5. Лицензионная ловушка — уроки скандала вокруг SD3
«Это open source, поэтому коммерческое использование разрешено» — для SD это не такое простое утверждение, каким хочется его видеть. Лицензия зависит от версии.
Индивидуальные блогеры, фрилансеры и ранние стартапы — все в зелёной зоне. Коммерческое соглашение нужно только когда крупное предприятие встраивает модель в продукт. Продажа самих сгенерированных изображений не ограничена — сколько бы вы ни сгенерировали и ни продали, Stability AI вы ничего не должны
Когда в июне 2024 года вышла SD 3, её лицензия оказалась настолько жёсткой — плата за каждое сгенерированное изображение, запрет на распространение производных моделей на Civitai, — что Civitai публично отказался хостить производные SD3. Сообщество объявило «SD умер», многие разработчики ушли в Black Forest Labs и выпустили FLUX. В октябре, при запуске SD 3.5, Stability AI существенно смягчила условия (нынешняя версия с потолком в 1 млн $ выручки), но по состоянию на май 2026 года доверие сообщества полностью так и не восстановилось.
Практический совет: «Просто используйте SDXL» — это версия, которая кусается меньше всего. CreativeML Open RAIL-M означает отсутствие потолка по выручке, пул LoRA огромный, экосистема зрелая. Переходите на SD 3.5 или FLUX, только когда SDXL перестанет хватать.
6. Civitai / LoRA / ComfyUI — экосистема больше самой модели
Говорить о Stable Diffusion «только как о модели» — значит упускать суть. Сила SD — в окружающей экосистеме.
Одна оговорка. LoRA для SD 1.5 не загружаются в SDXL; LoRA для SDXL не загружаются в FLUX. Каждая базовая модель — это отдельная экосистема. Если все любимые LoRA на Civitai у вас под SD 1.5, переход на SDXL означает от них отказаться. При поиске на Civitai всегда проверяйте фильтр «Base Model».
7. Midjourney против Stable Diffusion — что выбрать
Часто спрашивают: «что лучше — SD или Midjourney/DALL·E?» — но это неправильная ось. Берите Midjourney за качество, берите SD за свободу и владение. Это совсем разные роли.
| Аспект | Midjourney V8 | Stable Diffusion (SDXL/FLUX) |
|---|---|---|
| Простота использования | Отлично — просто напишите промпт | Средне — нужна настройка |
| Качество «из коробки» | Отлично — лучшая художественная подача в индустрии | Хорошо — зависит от модели (FLUX наравне) |
| Контроль композиции | Слабо — только через промпт | Отлично — полный контроль через ControlNet |
| Консистентность персонажа | Хорошо — Character Reference | Отлично — обучите LoRA, повторяйте идеально |
| Ежемесячная стоимость | 10–120 $ | 0 $ (локально) или оплата по факту |
| Коммерческое использование | Разрешено на платных тарифах | SDXL без ограничений; SD3.5/FLUX — потолок 1 млн $ |
| Конфиденциальность данных | Нет — привязано к облаку | Отлично — всё может оставаться локально |
| Кривая обучения | Часы | От дней до недель |
Чистая раскладка: для «сделать одну красивую картинку» — Midjourney. 10 $ в месяц и без ада настройки. Для «нужно 100 изображений одного и того же персонажа», «хочу подмешать собственные данные», «нужен коммерческий безлимит по объёму» или «хочу воспроизвести конкретный стиль аниме» — Stable Diffusion. Ни тот, ни другой не «лучше». Многие профи используют оба (знакомый иллюстратор накидывает композицию в MJ и финиширует в SD).
8. Три ловушки — авторские права, NSFW, совместимость
Три вещи, с которыми вы столкнётесь при работе с SD, — о них стоит знать заранее.
Ловушка 1: риск нарушения авторских прав в тренировочных данных
Базовые модели SD обучены на LAION-5B (5,8 млрд изображений, выкачанных из интернета). Неизбежно туда попало большое количество защищённых авторским правом работ. Getty Images сейчас судится со Stability AI (иск подан в 2023 году, разбирательство идёт и в США, и в Великобритании), а LoRA с «стилем конкретного художника» на Civitai с 2025 года заметно посерели. Для коммерческой работы минимальная гигиена: не подсказывайте именами конкретных художников и даже среди LoRA на Civitai избегайте публичных персон или работ, имитирующих узнаваемых правообладателей. Если «коммерческая безопасность» — это не обсуждается, альтернатива — Adobe Firefly.
Ловушка 2: NSFW-генерация делается тривиально легко
Поскольку у SD открытые веса, отключение SafetyChecker означает, что сексуальные или жестокие изображения генерируются на раз. Civitai открыто хостит много NSFW-моделей. Сама технология нейтральна, но создание или распространение сгенерированного контента с участием несовершеннолетних незаконно во многих странах (в Японии сейчас обсуждается законопроект). Никогда не делайте этого на рабочем ПК в рабочее время — логи и сетевой трафик делают такое легко обнаружимым. Даже на домашнем ПК отдельные категории нелегально создавать и даже хранить. Самосознание здесь обязательно.
Ловушка 3: разрывы совместимости между поколениями
Как было сказано выше, SD1.5 / SDXL / SD3.5 / FLUX — каждая из них самостоятельная экосистема. LoRA, эмбеддинги и модели ControlNet между ними не переносятся. «Дай-ка я обновлюсь до SDXL» может означать обнаружение 50 LoRA для SD1.5, которыми вы больше не сможете пользоваться. Если вы только стартуете, выберите одну (SDXL или FLUX) и держитесь её экосистемы — на длинной дистанции это на самом деле эффективнее.
Итог
В 2022 году Stable Diffusion изменил мир. Но в 2026 году «просто берите SD» больше не ответ по умолчанию — Midjourney V8 выигрывает по сырому качеству, Adobe Firefly выигрывает по коммерческой безопасности. Причина, по которой SD не умер — и наоборот, набрал инерцию благодаря FLUX, — в том, что он остаётся единственным вариантом для тех, кто хочет «использовать ИИ для изображений на своём ПК, со своими данными, ровно так, как хочет, не завися ни от какой облачной компании». Midjourney может выкинуть вас из Discord; OpenAI может изменить условия сервиса; файл весов SD на вашем SSD принадлежит вам. Для людей, которым так спокойнее, SD ещё долго будет особым инструментом.
FAQ
Stable Diffusion бесплатный?
Сама модель (файлы весов) скачивается и используется бесплатно. Чтобы её запустить, нужна GPU — как минимум RTX 3060 12GB (около 200 $) — либо облачный сервис инференса (Runpod стоит примерно 0,4 $/час). Stability AI вы не должны никакой ежемесячной платы.
Можно ли использовать его коммерчески?
Зависит от версии. SD 1.5 и SDXL полностью открыты (CreativeML Open RAIL-M, без потолка по выручке). SD 3, SD 3.5 и FLUX.1 dev — бесплатно для коммерческого использования при годовой выручке до 1 млн $; выше — нужен контракт со Stability AI или Black Forest Labs. Продажа самих сгенерированных изображений не ограничена ни в одной версии.
Что лучше — Midjourney или SD?
Зависит от задачи. Если вам просто нужна одна красивая картинка по промпту, Midjourney намного проще и качество отличное. Если нужно массово выпускать одного и того же персонажа, подмешивать собственные данные, свести расходы до электричества или воспроизвести конкретный стиль аниме — работает только Stable Diffusion. Многие профи используют оба.
С какой версии начинать?
SDXL 1.0 — самый безопасный старт сегодня. Запускается на 8–12 ГБ VRAM, имеет огромную библиотеку LoRA на Civitai, не имеет коммерческого потолка по выручке, экосистема зрелая. Для топового качества переходите на FLUX.1 dev (рекомендуется 16+ ГБ VRAM). SD 1.5 лёгкая, но отстаёт на поколение по качеству — новичкам, скорее всего, её будет мало.
FLUX — это что-то другое, чем Stable Diffusion?
Технически родственная вещь, но от другой компании. FLUX — от Black Forest Labs, основанной бывшими инженерами Stability AI, которые и создали SD. Позиционируется не столько как преемник, сколько как «более качественный открытый ИИ для изображений». Экосистемы отдельные (LoRA для FLUX не работают в SD). Но в категории «открытый по весам, локально запускаемый ИИ для изображений» это один и тот же лагерь, и обе модели — первоклассные граждане Civitai и ComfyUI.
Покупать GPU или арендовать облако?
Облако (Runpod / Replicate / on-demand от Civitai) дешевле, если вы генерируете меньше 50 изображений в месяц. Около 0,001–0,01 $ за изображение. Если вы генерируете сотни в месяц, обучаете собственные LoRA или отказываетесь отправлять данные с машины — покупка GPU окупится. Сладкая точка по соотношению цена/качество для серьёзных пользователей — б/у RTX 3090 (24 ГБ, около 500 $).