Содержание
- 1. Главный вывод: единого победителя нет — выбирайте по задаче × размеру (+ происхождению)
- 2. Основные семейства моделей (с разработчиком и страной)
- 3. Что меняется в зависимости от страны происхождения?
- 4. Русскоязычные и локальные модели
- 5. Рекомендации по размеру (конкретные модели)
- 6. Рекомендации по сценарию использования
- 7. Лицензии (коммерческое использование): на что обратить внимание
- 8. Алгоритм выбора и первый запуск
- Итоги
- FAQ
Когда у вас уже есть среда для запуска локальной LLM, возникает следующий вопрос: «Какую модель вообще ставить?» Llama, Qwen, Gemma, DeepSeek — названий много, и компании и страны за ними тоже разные. В этой статье основные модели 2026 года разложены по разработчику, стране происхождения, сценарию, размеру и лицензии, чтобы вы могли выбрать «первую» модель под свой ПК и цели.
Сначала одна важная оговорка. Открытые модели обновляются очень быстро (версии под одним и тем же именем растут одна за другой). Поэтому статья построена вокруг «семейств (линеек) + выбора по сценарию». Так логика остаётся верной даже после выхода новой версии. Всегда проверяйте актуальную версию и лицензию у поставщика (Ollama / Hugging Face).
Не «самая сильная», а «подходящая именно вам»
— Разработчик, страна, сценарий и размер сужают выбор
США
Llama / Gemma / Phi
Китай
Qwen / DeepSeek / GLM
Европа
Mistral / Teuken
и другие
ОАЭ / Индия / Япония
1. Главный вывод: единого победителя нет — выбирайте по задаче × размеру (+ происхождению)
Вывод сразу: универсальной модели, которую «просто поставил — и готово», не существует. Для локального запуска сужайте выбор по трём пунктам.
💡 Три оси выбора: ① Размер (потолок, который влезает в ваш VRAM) = ограничение круга кандидатов. ② Сценарий (общий, программирование, ваш язык, рассуждения) = какая линейка подходит. ③ Страна происхождения / разработчик (лицензия, политика закупок, сильные стороны по языкам) = это нельзя игнорировать, если используете на работе.
2. Основные семейства моделей (с разработчиком и страной)
Сцена локальных LLM в 2026 году сводится к нескольким крупным семействам (линейкам). Если знать, кто их делает и в какой стране, выбирать становится намного проще. Сначала два термина, которые встретятся в карточках ниже.
📖 Краткий словарь
B (число параметров) = единица масштаба модели. «B» означает «миллиард», то есть 7B = 7 миллиардов, 70B = 70 миллиардов параметров. Чем больше, тем умнее, но и тяжелее (больше расход VRAM).
MoE (Mixture of Experts, смесь экспертов) = вместо того чтобы каждый раз задействовать всё, на каждый вход активируются только некоторые «эксперты». Поэтому общий размер может быть огромным, а реально работающая часть остаётся лёгкой и эффективной.
Qwen
🇨🇳 Разработчик: Alibaba (Китай) / в основном Apache 2.0
Высокая универсальность и сильная поддержка многих языков, включая русский. Размеры от 3B до сотен B (MoE), есть варианты для программирования. Первый выбор для многих. Пример: серия Qwen3.
Llama
🇺🇸 Разработчик: Meta (США) / собственная лицензия (проверьте)
Самая распространённая и хорошо документированная классика. Много примеров и наработок, поэтому легко гуглить. Стабильный универсал. Пример: серии Llama 3.x / 4.
Gemma
🇺🇸 Разработчик: Google (США) / лицензия Gemma
Лёгкая и эффективная, с высоким качеством даже на малых и средних размерах. Есть мультимодальные варианты. Хороший выбор для слабых ПК. Пример: серия Gemma 3.
DeepSeek
🇨🇳 Разработчик: DeepSeek (Китай) / R1 под MIT и др.
Силён в рассуждениях и программировании. Есть дистиллированные малые версии, так что «ум» можно получить и на скромном VRAM. Пример: серии DeepSeek-R1 / V3.
Mistral
🇫🇷 Разработчик: Mistral AI (Франция / Европа)
Среднего размера, шустрая и хорошо сбалансированная. Флагман европейского «суверенного ИИ». Меньшие модели часто под Apache 2.0. Пример: Mistral Small и др.
Phi
🇺🇸 Разработчик: Microsoft (США) / MIT
Специалист по малым моделям (SLM), фишка которого — быть умным несмотря на крошечный размер. Легко запускается на слабых ПК/ноутбуках класса 8 ГБ — идеально для старта. Пример: серия Phi-4.
Помимо них есть GLM (🇨🇳 Zhipu AI, из Университета Цинхуа — высоко оценивается за программирование), Falcon (🇦🇪 TII из ОАЭ) и Command (🇨🇦 Cohere — хорош для RAG). Начинайте с той крупной линейки, что ближе к вашему сценарию.
3. Что меняется в зависимости от страны происхождения?
«Модель какой страны» создаёт практические различия, которые не видны по одной лишь производительности. Чтобы избежать частого заблуждения, начнём с ключевой предпосылки.
✅ Ключевая предпосылка: пока вы запускаете модель локально, ваши входные данные никуда не отправляются (в страну разработчика). Это главное преимущество локальной LLM. То есть утверждение «китайская модель = ваш ввод уходит в Китай» неверно (это отличается от облачного API). Происхождение важно главным образом по трём пунктам ниже.
Лицензия и коммерческие условия
Условия отличаются у разных разработчиков. Apache 2.0 / MIT — разрешительные; собственные лицензии могут ограничивать масштаб, использование или требовать указания авторства. Проверяйте перед использованием в продукте.
Политика организации / государства
У госорганов и крупных компаний могут быть правила насчёт того, «допустим ли ИИ из конкретной страны». Рассматривайте это как вопрос закупок / комплаенса, который нужно уточнить.
Сильные стороны по языку и культуре
Состав обучающих данных определяет, в каких языках модель сильна. Китайские модели сильны в CJK; модели, созданные локально, часто выигрывают в нюансах своего языка.
Грубый «национальный характер»: 🇺🇸 США = крупнейшая экосистема, много информации, в целом удобно работать. 🇨🇳 Китай = впереди по производительности и эффективности, многие лицензии разрешительные, но некоторым организациям нужно проверить политику внедрения. 🇪🇺 Европа = ориентация на регулирование и «суверенный ИИ», сбалансированность. Другие регионы = модели, настроенные под свой язык (следующий раздел).
4. Русскоязычные и локальные модели
Если вы работаете в основном на русском, стоит присмотреться к моделям с хорошей поддержкой русского языка или дообучением под него. Они выигрывают в естественности русского, а организациям с предпочтением «суверенного ИИ» их проще внедрять. Ниже — заметные открытые варианты для русскоязычной аудитории.
🌐 Мультиязычные с сильным русским
Qwen (особенно) и Llama хорошо справляются с русским «из коробки». Для многих это самый простой старт: широкий выбор размеров и универсальность. Проверяйте версию и лицензию у поставщика.
🇷🇺 Открытые русскоязычные проекты
Saiga (дообучения от сообщества), Vikhr, а также T-lite / T-pro (от Т-Банка) — открытые модели и дообучения, ориентированные на русский язык. Уточняйте версию и условия лицензии у поставщика.
☁️ В основном облачные (не локальные)
YandexGPT и GigaChat (Сбер) — это прежде всего облачные API, а не локальные модели с открытыми весами. Для запуска на своём железе ориентируйтесь на варианты выше.
💡 Практическое правило: ради чистой универсальной мощи — глобальное семейство вроде Qwen; если приоритет — естественность русского, требования суверенности или объяснимость для госсектора/бизнеса, то локальный/русскоязычный проект. Сравните оба на одном и том же промпте (проверяйте версию и коммерческие условия у каждого поставщика).
5. Рекомендации по размеру (конкретные модели)
Ваш VRAM определяет диапазон, который вы можете запустить. Вот «золотые середины» по размерным группам с конкретными примерами (всё в расчёте на квантизацию Q4).
~4B (крошечные)
VRAM ~6 ГБ / начальный уровень и ноутбуки
Phi-4 mini, Gemma 3 4B, Qwen3 4B, Llama 3.2 3B и др. Для чата, резюмирования, лёгких задач. Начните отсюда.
7B–14B (стандарт)
VRAM 8–12 ГБ / повседневная рабочая лошадка
Qwen3 7B/14B, Llama 8B, Gemma 12B и др. Лучший баланс качества и лёгкости. Отличная первая модель на каждый день.
класс 32B (старший)
VRAM 24 ГБ / уверенное практическое применение
Qwen Coder 32B, средний Mistral, дистилляты DeepSeek и др. Надёжное качество для программирования и сложных задач.
70B+ (серьёзный уровень)
VRAM 40 ГБ+ / Mac с большой памятью · мульти-GPU
Llama 70B, крупный DeepSeek и др. Качество, приближающееся к облаку среднего уровня.
6. Рекомендации по сценарию использования
Выбирайте линейку по тому, «для чего она вам нужна». Вот линейки, подходящие под типичные сценарии.
🧩 Общее / на всё подряд
Qwen (🇨🇳) или Llama (🇺🇸). Если сомневаетесь, начните с подходящего по размеру варианта этих двух. Много информации, трудно ошибиться.
💻 Программирование
Qwen Coder, DeepSeek, GLM (всё это сильные стороны 🇨🇳). Качество заметно растёт, если влезает класс 32B.
🌐 Ваш язык / многоязычность
Qwen (сильная многоязычность) или локальная/русскоязычная модель, дообученная под ваш язык (см. раздел 4). Для естественности часто выигрывает региональный выбор.
🧠 Рассуждения / мышление
Модели рассуждений DeepSeek или варианты каждой линейки с включённым «мышлением». Сильны в трудных задачах и планировании.
🪶 Слабое железо / лёгкие модели
Малые Phi (🇺🇸) или Gemma (🇺🇸), либо Qwen/Llama на 3–4B. Шустро работают даже на классе 8 ГБ.
📚 Длинные документы
Линейка с большой длиной контекста (например, варианты Llama с длинным контекстом). Но следите за расходом памяти.
💡 Что работает у большинства: начать с «самого крупного Qwen, который влезает в ваш VRAM» — или с русскоязычной модели под ваш язык — почти всегда удачно. Если не хватает, переходите к специализированному варианту (coder и т. п.) или к большему размеру.
7. Лицензии (коммерческое использование): на что обратить внимание
Если используете на работе или в продукте, лицензию нельзя упускать. Даже «открытость» бывает с разными условиями. Всегда проверяйте возможность коммерческого использования и условия у поставщика.
✅ Разрешительные (удобны для коммерции)
Семейство Apache 2.0 / MIT (например, Qwen, Gemma※, Phi, значительная часть DeepSeek). Лёгкое коммерческое использование, высокая свобода встраивания в продукты.
⚠️ Особые условия
У некоторых — собственные лицензии (ограничения масштаба, использования, требование указания авторства). У лицензии Llama и лицензии Gemma есть пункты, которые надо проверить. Прочтите их до коммерческого применения.
8. Алгоритм выбора и первый запуск
Сводя всё воедино, выбор — это три шага.
- Определите размер: исходя из потолка VRAM, выберите самый крупный размер, который влезает (см. статью о требованиях к железу).
- Выберите линейку по сценарию + происхождению: общее = Qwen/Llama, программирование = Qwen Coder/DeepSeek/GLM, ваш язык = Qwen/русскоязычные модели, лёгкие = Phi/Gemma. Для коммерческого использования дополнительно сверьте лицензию и политику закупок.
- Скачайте одну и протестируйте: если не хватает, поднимитесь на размер выше или к специализированному варианту. Сравнить несколько на одном промпте — самый быстрый путь.
💡 Начать легко: с Ollama или LM Studio достаточно выбрать имя модели и скачать (например, ollama pull qwen3 — пара минут). Поставьте несколько и сравните их на одном и том же вопросе, чтобы быстро найти подходящую.
Итоги
Выбор модели локальной LLM сводится к трём пунктам.
- Универсала нет; выбирайте по трём осям: размер (потолок VRAM) × сценарий × страна происхождения (лицензия, закупки, язык).
- Запоминайте по линейке + стране: Qwen/DeepSeek/GLM (🇨🇳), Llama/Gemma/Phi (🇺🇸), Mistral (🇫🇷), плюс русскоязычные/региональные модели под ваш язык (🇪🇺🇦🇪🇮🇳🇯🇵…). Версии меняются быстро, поэтому ориентируйтесь на линейку.
- Локально — значит, ввод не уходит наружу: происхождение важно главным образом для лицензии, политики закупок и сильных сторон по языку. Для коммерческого использования проверка лицензии обязательна.
Если сомневаетесь, начните с «самого крупного Qwen, который влезает в ваш VRAM» — или с русскоязычной модели под ваш язык. Затем запустите её, прочувствуйте разницу с облаком и постепенно сойдитесь на той, что лучше всего подходит вашим задачам. Шаги по настройке — в статье как запустить локальную LLM.
FAQ
В. Так какую же поставить первой?
О. «Самый крупный Qwen (Китай, Alibaba), который влезает в ваш VRAM», либо модель, дообученная под ваш язык, — безопасный старт: хороший баланс универсальности, многоязычности и диапазона размеров. Если приоритет — лёгкость, малые Phi (Microsoft, США) или Gemma (Google, США) тоже хорошо подойдут.
В. Если я использую китайскую модель, мой ввод уходит в Китай?
О. Нет. Пока вы запускаете модель локально, ваш ввод никуда не отправляется (он остаётся на вашем ПК). Это решающее отличие от облачного API. Происхождение связано в основном с лицензией (коммерческие условия), политикой закупок организации и сильными сторонами по языку — а не с тем, куда уходят данные.
В. Какая локальная модель хороша для моего языка?
О. Qwen (сильная многоязычность) — безопасный вариант по умолчанию. Для более естественного вывода на вашем языке — нюансы, вежливые формы, культурный контекст — сильным выбором будет региональная/суверенная модель, созданная под него (см. раздел 4). Попробуйте оба варианта на своих задачах и сравните.
В. А малые модели вообще пригодны?
О. Вполне, в зависимости от задачи. Для повседневной работы — чат, резюмирование, черновики, классификация — класс 3–7B работает комфортно. Чем сложнее рассуждения или длиннее контекст, тем больше помогает размер побольше.
В. На что обратить внимание при использовании на работе?
О. Лицензия и политика закупок — главные приоритеты. Apache 2.0 и MIT удобны для коммерции, тогда как собственные лицензии (лицензия Llama, лицензия Gemma и др.) могут нести условия по масштабу, использованию или указанию авторства. Некоторые организации также ограничивают ИИ по стране происхождения, поэтому перед встраиванием в продукт проверьте и условия поставщика, и внутренние правила.