Когда у вас уже есть среда для запуска локальной LLM, возникает следующий вопрос: «Какую модель вообще ставить?» Llama, Qwen, Gemma, DeepSeek — названий много, и компании и страны за ними тоже разные. В этой статье основные модели 2026 года разложены по разработчику, стране происхождения, сценарию, размеру и лицензии, чтобы вы могли выбрать «первую» модель под свой ПК и цели.

Сначала одна важная оговорка. Открытые модели обновляются очень быстро (версии под одним и тем же именем растут одна за другой). Поэтому статья построена вокруг «семейств (линеек) + выбора по сценарию». Так логика остаётся верной даже после выхода новой версии. Всегда проверяйте актуальную версию и лицензию у поставщика (Ollama / Hugging Face).

LOCAL LLM · MODELS

Не «самая сильная», а «подходящая именно вам»

— Разработчик, страна, сценарий и размер сужают выбор

🇺🇸

США

Llama / Gemma / Phi

🇨🇳

Китай

Qwen / DeepSeek / GLM

🇪🇺

Европа

Mistral / Teuken

🌍

и другие

ОАЭ / Индия / Япония

1. Главный вывод: единого победителя нет — выбирайте по задаче × размеру (+ происхождению)

Вывод сразу: универсальной модели, которую «просто поставил — и готово», не существует. Для локального запуска сужайте выбор по трём пунктам.

💡 Три оси выбора: ① Размер (потолок, который влезает в ваш VRAM) = ограничение круга кандидатов. ② Сценарий (общий, программирование, ваш язык, рассуждения) = какая линейка подходит. ③ Страна происхождения / разработчик (лицензия, политика закупок, сильные стороны по языкам) = это нельзя игнорировать, если используете на работе.

2. Основные семейства моделей (с разработчиком и страной)

Сцена локальных LLM в 2026 году сводится к нескольким крупным семействам (линейкам). Если знать, кто их делает и в какой стране, выбирать становится намного проще. Сначала два термина, которые встретятся в карточках ниже.

📖 Краткий словарь

B (число параметров) = единица масштаба модели. «B» означает «миллиард», то есть 7B = 7 миллиардов, 70B = 70 миллиардов параметров. Чем больше, тем умнее, но и тяжелее (больше расход VRAM).

MoE (Mixture of Experts, смесь экспертов) = вместо того чтобы каждый раз задействовать всё, на каждый вход активируются только некоторые «эксперты». Поэтому общий размер может быть огромным, а реально работающая часть остаётся лёгкой и эффективной.

Qwen

🇨🇳 Разработчик: Alibaba (Китай) / в основном Apache 2.0

Высокая универсальность и сильная поддержка многих языков, включая русский. Размеры от 3B до сотен B (MoE), есть варианты для программирования. Первый выбор для многих. Пример: серия Qwen3.

Llama

🇺🇸 Разработчик: Meta (США) / собственная лицензия (проверьте)

Самая распространённая и хорошо документированная классика. Много примеров и наработок, поэтому легко гуглить. Стабильный универсал. Пример: серии Llama 3.x / 4.

Gemma

🇺🇸 Разработчик: Google (США) / лицензия Gemma

Лёгкая и эффективная, с высоким качеством даже на малых и средних размерах. Есть мультимодальные варианты. Хороший выбор для слабых ПК. Пример: серия Gemma 3.

DeepSeek

🇨🇳 Разработчик: DeepSeek (Китай) / R1 под MIT и др.

Силён в рассуждениях и программировании. Есть дистиллированные малые версии, так что «ум» можно получить и на скромном VRAM. Пример: серии DeepSeek-R1 / V3.

Mistral

🇫🇷 Разработчик: Mistral AI (Франция / Европа)

Среднего размера, шустрая и хорошо сбалансированная. Флагман европейского «суверенного ИИ». Меньшие модели часто под Apache 2.0. Пример: Mistral Small и др.

Phi

🇺🇸 Разработчик: Microsoft (США) / MIT

Специалист по малым моделям (SLM), фишка которого — быть умным несмотря на крошечный размер. Легко запускается на слабых ПК/ноутбуках класса 8 ГБ — идеально для старта. Пример: серия Phi-4.

Помимо них есть GLM (🇨🇳 Zhipu AI, из Университета Цинхуа — высоко оценивается за программирование), Falcon (🇦🇪 TII из ОАЭ) и Command (🇨🇦 Cohere — хорош для RAG). Начинайте с той крупной линейки, что ближе к вашему сценарию.

3. Что меняется в зависимости от страны происхождения?

«Модель какой страны» создаёт практические различия, которые не видны по одной лишь производительности. Чтобы избежать частого заблуждения, начнём с ключевой предпосылки.

Ключевая предпосылка: пока вы запускаете модель локально, ваши входные данные никуда не отправляются (в страну разработчика). Это главное преимущество локальной LLM. То есть утверждение «китайская модель = ваш ввод уходит в Китай» неверно (это отличается от облачного API). Происхождение важно главным образом по трём пунктам ниже.

⚖️

Лицензия и коммерческие условия

Условия отличаются у разных разработчиков. Apache 2.0 / MIT — разрешительные; собственные лицензии могут ограничивать масштаб, использование или требовать указания авторства. Проверяйте перед использованием в продукте.

🏛️

Политика организации / государства

У госорганов и крупных компаний могут быть правила насчёт того, «допустим ли ИИ из конкретной страны». Рассматривайте это как вопрос закупок / комплаенса, который нужно уточнить.

🗣️

Сильные стороны по языку и культуре

Состав обучающих данных определяет, в каких языках модель сильна. Китайские модели сильны в CJK; модели, созданные локально, часто выигрывают в нюансах своего языка.

Грубый «национальный характер»: 🇺🇸 США = крупнейшая экосистема, много информации, в целом удобно работать. 🇨🇳 Китай = впереди по производительности и эффективности, многие лицензии разрешительные, но некоторым организациям нужно проверить политику внедрения. 🇪🇺 Европа = ориентация на регулирование и «суверенный ИИ», сбалансированность. Другие регионы = модели, настроенные под свой язык (следующий раздел).

4. Русскоязычные и локальные модели

Если вы работаете в основном на русском, стоит присмотреться к моделям с хорошей поддержкой русского языка или дообучением под него. Они выигрывают в естественности русского, а организациям с предпочтением «суверенного ИИ» их проще внедрять. Ниже — заметные открытые варианты для русскоязычной аудитории.

🌐 Мультиязычные с сильным русским

Qwen (особенно) и Llama хорошо справляются с русским «из коробки». Для многих это самый простой старт: широкий выбор размеров и универсальность. Проверяйте версию и лицензию у поставщика.

🇷🇺 Открытые русскоязычные проекты

Saiga (дообучения от сообщества), Vikhr, а также T-lite / T-pro (от Т-Банка) — открытые модели и дообучения, ориентированные на русский язык. Уточняйте версию и условия лицензии у поставщика.

☁️ В основном облачные (не локальные)

YandexGPT и GigaChat (Сбер) — это прежде всего облачные API, а не локальные модели с открытыми весами. Для запуска на своём железе ориентируйтесь на варианты выше.

💡 Практическое правило: ради чистой универсальной мощи — глобальное семейство вроде Qwen; если приоритет — естественность русского, требования суверенности или объяснимость для госсектора/бизнеса, то локальный/русскоязычный проект. Сравните оба на одном и том же промпте (проверяйте версию и коммерческие условия у каждого поставщика).

5. Рекомендации по размеру (конкретные модели)

Ваш VRAM определяет диапазон, который вы можете запустить. Вот «золотые середины» по размерным группам с конкретными примерами (всё в расчёте на квантизацию Q4).

~4B (крошечные)

VRAM ~6 ГБ / начальный уровень и ноутбуки

Phi-4 mini, Gemma 3 4B, Qwen3 4B, Llama 3.2 3B и др. Для чата, резюмирования, лёгких задач. Начните отсюда.

7B–14B (стандарт)

VRAM 8–12 ГБ / повседневная рабочая лошадка

Qwen3 7B/14B, Llama 8B, Gemma 12B и др. Лучший баланс качества и лёгкости. Отличная первая модель на каждый день.

класс 32B (старший)

VRAM 24 ГБ / уверенное практическое применение

Qwen Coder 32B, средний Mistral, дистилляты DeepSeek и др. Надёжное качество для программирования и сложных задач.

70B+ (серьёзный уровень)

VRAM 40 ГБ+ / Mac с большой памятью · мульти-GPU

Llama 70B, крупный DeepSeek и др. Качество, приближающееся к облаку среднего уровня.

6. Рекомендации по сценарию использования

Выбирайте линейку по тому, «для чего она вам нужна». Вот линейки, подходящие под типичные сценарии.

🧩 Общее / на всё подряд

Qwen (🇨🇳) или Llama (🇺🇸). Если сомневаетесь, начните с подходящего по размеру варианта этих двух. Много информации, трудно ошибиться.

💻 Программирование

Qwen Coder, DeepSeek, GLM (всё это сильные стороны 🇨🇳). Качество заметно растёт, если влезает класс 32B.

🌐 Ваш язык / многоязычность

Qwen (сильная многоязычность) или локальная/русскоязычная модель, дообученная под ваш язык (см. раздел 4). Для естественности часто выигрывает региональный выбор.

🧠 Рассуждения / мышление

Модели рассуждений DeepSeek или варианты каждой линейки с включённым «мышлением». Сильны в трудных задачах и планировании.

🪶 Слабое железо / лёгкие модели

Малые Phi (🇺🇸) или Gemma (🇺🇸), либо Qwen/Llama на 3–4B. Шустро работают даже на классе 8 ГБ.

📚 Длинные документы

Линейка с большой длиной контекста (например, варианты Llama с длинным контекстом). Но следите за расходом памяти.

💡 Что работает у большинства: начать с «самого крупного Qwen, который влезает в ваш VRAM» — или с русскоязычной модели под ваш язык — почти всегда удачно. Если не хватает, переходите к специализированному варианту (coder и т. п.) или к большему размеру.

7. Лицензии (коммерческое использование): на что обратить внимание

Если используете на работе или в продукте, лицензию нельзя упускать. Даже «открытость» бывает с разными условиями. Всегда проверяйте возможность коммерческого использования и условия у поставщика.

✅ Разрешительные (удобны для коммерции)

Семейство Apache 2.0 / MIT (например, Qwen, Gemma※, Phi, значительная часть DeepSeek). Лёгкое коммерческое использование, высокая свобода встраивания в продукты.

⚠️ Особые условия

У некоторых — собственные лицензии (ограничения масштаба, использования, требование указания авторства). У лицензии Llama и лицензии Gemma есть пункты, которые надо проверить. Прочтите их до коммерческого применения.

8. Алгоритм выбора и первый запуск

Сводя всё воедино, выбор — это три шага.

  1. Определите размер: исходя из потолка VRAM, выберите самый крупный размер, который влезает (см. статью о требованиях к железу).
  2. Выберите линейку по сценарию + происхождению: общее = Qwen/Llama, программирование = Qwen Coder/DeepSeek/GLM, ваш язык = Qwen/русскоязычные модели, лёгкие = Phi/Gemma. Для коммерческого использования дополнительно сверьте лицензию и политику закупок.
  3. Скачайте одну и протестируйте: если не хватает, поднимитесь на размер выше или к специализированному варианту. Сравнить несколько на одном промпте — самый быстрый путь.

💡 Начать легко: с Ollama или LM Studio достаточно выбрать имя модели и скачать (например, ollama pull qwen3 — пара минут). Поставьте несколько и сравните их на одном и том же вопросе, чтобы быстро найти подходящую.

Итоги

Выбор модели локальной LLM сводится к трём пунктам.

  • Универсала нет; выбирайте по трём осям: размер (потолок VRAM) × сценарий × страна происхождения (лицензия, закупки, язык).
  • Запоминайте по линейке + стране: Qwen/DeepSeek/GLM (🇨🇳), Llama/Gemma/Phi (🇺🇸), Mistral (🇫🇷), плюс русскоязычные/региональные модели под ваш язык (🇪🇺🇦🇪🇮🇳🇯🇵…). Версии меняются быстро, поэтому ориентируйтесь на линейку.
  • Локально — значит, ввод не уходит наружу: происхождение важно главным образом для лицензии, политики закупок и сильных сторон по языку. Для коммерческого использования проверка лицензии обязательна.

Если сомневаетесь, начните с «самого крупного Qwen, который влезает в ваш VRAM» — или с русскоязычной модели под ваш язык. Затем запустите её, прочувствуйте разницу с облаком и постепенно сойдитесь на той, что лучше всего подходит вашим задачам. Шаги по настройке — в статье как запустить локальную LLM.

FAQ

В. Так какую же поставить первой?

О. «Самый крупный Qwen (Китай, Alibaba), который влезает в ваш VRAM», либо модель, дообученная под ваш язык, — безопасный старт: хороший баланс универсальности, многоязычности и диапазона размеров. Если приоритет — лёгкость, малые Phi (Microsoft, США) или Gemma (Google, США) тоже хорошо подойдут.

В. Если я использую китайскую модель, мой ввод уходит в Китай?

О. Нет. Пока вы запускаете модель локально, ваш ввод никуда не отправляется (он остаётся на вашем ПК). Это решающее отличие от облачного API. Происхождение связано в основном с лицензией (коммерческие условия), политикой закупок организации и сильными сторонами по языку — а не с тем, куда уходят данные.

В. Какая локальная модель хороша для моего языка?

О. Qwen (сильная многоязычность) — безопасный вариант по умолчанию. Для более естественного вывода на вашем языке — нюансы, вежливые формы, культурный контекст — сильным выбором будет региональная/суверенная модель, созданная под него (см. раздел 4). Попробуйте оба варианта на своих задачах и сравните.

В. А малые модели вообще пригодны?

О. Вполне, в зависимости от задачи. Для повседневной работы — чат, резюмирование, черновики, классификация — класс 3–7B работает комфортно. Чем сложнее рассуждения или длиннее контекст, тем больше помогает размер побольше.

В. На что обратить внимание при использовании на работе?

О. Лицензия и политика закупок — главные приоритеты. Apache 2.0 и MIT удобны для коммерции, тогда как собственные лицензии (лицензия Llama, лицензия Gemma и др.) могут нести условия по масштабу, использованию или указанию авторства. Некоторые организации также ограничивают ИИ по стране происхождения, поэтому перед встраиванием в продукт проверьте и условия поставщика, и внутренние правила.