Когда начинаешь работать с локальной LLM, первым делом стоит установить именно Ollama. Этот инструмент берёт на себя почти всю утомительную настройку, так что вы можете скачать модель и начать диалог одной командой. В этой статье мы пройдём весь путь — установку, основные команды, выбор моделей, GUI, работу с API, настройку и решение проблем — от начала до конца, для новичков.

Сразу к сути: Ollama — это что-то вроде «Docker для LLM». Достаточно набрать ollama run, и инструмент скачает, запустит и даст вам пообщаться с квантованной моделью. Сначала запустите её, а затем — когда освоитесь — встройте в собственные приложения через API. Именно в таком порядке мы и будем разбираться.

LOCAL LLM RUNTIME

Одна команда — и локальная LLM

— Берёт почти все хлопоты по настройке на себя

$ ollama pull qwen3
$ ollama run qwen3
>>> Привет! Что ты умеешь?

✅ Бесплатно / OSS

🖥️ Win/Mac/Linux

🔌 Локальный API

⏱️ Настройка за минуты

1. Что такое Ollama? Стандарт для запуска локальных LLM

Ollama — это бесплатный инструмент с открытым исходным кодом для простого запуска локальных LLM на собственном ПК. Он берёт на себя все хлопоты — скачивание моделей, работу с форматами квантования, настройку использования GPU, — а вам остаётся лишь «указать модель и запустить её».

💡 Если коротко: Ollama — это «Docker для LLM». Скачиваете модель командой ollama pull, общаетесь через ollama run. Кроме того, он поднимает локальный API-сервер, так что к нему могут обращаться и ваши собственные приложения, и чат-интерфейсы.

Похожий инструмент — LM Studio. Грубо говоря: Ollama = ориентирован на CLI, подходит разработчикам, для API и автоматизации; LM Studio = ориентирован на GUI, для не-инженеров на старте. Оба бесплатны и устанавливаются за пару минут. Эта статья сосредоточена на Ollama (который также охватывает API и встраивание); если вам нужен GUI, переходите к разделу 5.

2. Установка (Win / Mac / Linux)

Достаточно взять установщик с официального сайта ollama.com. Вот порядок действий для каждой ОС.

🪟 Windows / 🍎 Mac

Просто скачайте приложение с официального сайта и запустите его. При запуске приложения в фоне также стартует API-сервер. После этого команда ollama станет доступна в терминале (PowerShell / Terminal).

🐧 Linux

Устанавливается официальным однострочным скриптом. Хорошо подходит и для серверного использования, и для развёртывания в Docker (есть официальный Docker-образ).

🔌 Проверка работоспособности: после установки команда ollama --version должна вывести номер версии. Первая модель — это одна строка: ollama run qwen3 (при первом запуске начнётся скачивание).

3. Основные команды кратко

Команд, которые нужно запомнить, совсем немного. Вот они, начиная с самых востребованных.

ollama run <model>

Запускает модель и открывает диалог. Если модели нет, сначала скачивает её. Выход — /bye.

ollama pull <model>

Только скачивает модель (без диалога). Удобно для загрузки заранее.

ollama list

Показывает скачанные модели и их размеры (ollama ls тоже работает).

ollama ps

Показывает модели, запущенные в данный момент (загруженные в память).

ollama rm <model>

Удаляет модель, чтобы освободить место на диске.

ollama serve

Запускает API-сервер (по умолчанию localhost:11434). На Win/Mac стартует автоматически при запуске приложения.

4. Где брать модели и как их выбирать

Модель указывается через имя + тег размера. Например, llama3.2 — это стандартный размер, а llama3.2:3b — версия на 3B. Главное правило: выбирайте размер, который помещается в ваш VRAM.

# Попробовать лёгкую модель (для старта)
ollama run gemma3:4b
# Надёжный универсал, силён в многоязычии
ollama run qwen3
# Для программирования
ollama run qwen3-coder

💡 Какую модель выбрать? Решайте по сценарию (общие задачи / программирование / ваш язык) и размеру. Подбор по семействам и сценариям смотрите в нашем подробном сравнении лучших локальных LLM; сколько VRAM требует каждый размер — в статье о системных требованиях. Если сомневаетесь, начните с малого (класс 7B).

5. Работа через GUI (Open WebUI и другие)

Не любите терминал? Не проблема — поверх Ollama можно поставить чат-интерфейс (GUI).

Open WebUI

Популярный интерфейс в стиле ChatGPT, который вы подключаете к локальной Ollama. Поддерживает историю чатов, переключение моделей и нескольких пользователей.

Нужен GUI с самого начала? LM Studio

Одно приложение, в котором есть поиск моделей, скачивание и чат. Идеально для не-инженеров на старте. На Apple Silicon может работать быстро благодаря формату MLX.

6. Использование API (встраивание в приложения)

Настоящая сила Ollama — в локальном API. Сервер работает по адресу localhost:11434, и, отправляя ему запросы, ваши собственные приложения, скрипты и инструменты могут использовать локальную LLM.

Нативный API

POST localhost:11434
 /api/chat
 /api/generate

Собственный простой формат Ollama.

API, совместимый с OpenAI

POST localhost:11434
 /v1/chat/completions

Переиспользуйте существующий код для OpenAI, просто сменив эндпоинт.

🔌 Совместимость с OpenAI — мощная вещь: множество библиотек и инструментов поддерживают API OpenAI. Направьте их на эндпоинт /v1 в Ollama — и вы сможете использовать локальную модель вместо облака, что станет удобным запасным вариантом на случай сбоя облака.

7. Настройка (Modelfile, переменные окружения)

Из коробки инструмент уже вполне полезен, но если хочется пойти дальше, стоит знать о двух вещах.

📝 Modelfile

Файл конфигурации, похожий на Dockerfile. Добавьте к базовой модели системный промпт и параметры, чтобы создать «свою собственную модель» (например, ту, что всегда отвечает вежливо).

⚙️ Переменные окружения

Тонкая настройка работы через OLLAMA_HOST (смена адреса прослушивания, чтобы обращаться с других устройств в локальной сети), OLLAMA_MODELS (путь хранения моделей, например перенос на другой диск) и другие.

8. Решение проблем

Заранее разберём частые загвоздки и способы их устранения.

Медленно или зависает

Скорее всего, модель не помещается целиком в VRAM. Возьмите модель на размер меньше или версию с более сильным квантованием.

Падает из-за нехватки памяти

Рассчитывайте минимум на 8 ГБ RAM для 7B и 16 ГБ для 13B и выше. Длинные входные данные требуют ещё больше, поэтому сократите длину контекста.

API не подключается

Проверьте, что ollama serve запущен, а порт 11434 свободен. Если приложение не запущено, то и API не работает.

Модель не найдена

Обычно дело в опечатке в имени или теге размера. Проверьте правильное имя в официальном списке моделей.

Итоги

Ollama — самый быстрый способ войти в мир локальных LLM. Три главных вывода:

  • Настройка за минуты: установите с официального сайта, а дальше просто ollama run <model>. Команд для запоминания совсем немного.
  • Выбирайте модели по размеру: оставайтесь в пределах своего VRAM. Если сомневаетесь, начните с класса 7B и выберите семейство под сценарий.
  • API — вот настоящая ценность: совместимый с OpenAI API по адресу localhost:11434 позволяет встроить модель в собственные приложения и чат-интерфейсы, а также служить запасным вариантом для облака.

Начните с команды ollama run qwen3. Лучший способ научиться — запустить её и параллельно разобраться в отличиях от облака и в том, как выбрать модель.

FAQ

В. Ollama бесплатна? Можно ли использовать её в коммерческих целях?

О. Сама Ollama бесплатна и имеет открытый исходный код. Однако у каждой запускаемой модели своя лицензия, и возможность коммерческого использования зависит от модели. Перед применением в продукте проверьте условия каждой модели (см. раздел о лицензиях в нашем сравнении моделей).

В. Ollama или LM Studio — что лучше?

О. Для команд, API, автоматизации и встраивания в собственные приложения — Ollama; если хочется легко начать с GUI — LM Studio. Оба бесплатны, так что, если сомневаетесь, установите оба и сравните.

В. Отправляются ли мои данные наружу?

О. Инференс в Ollama полностью остаётся на вашем ПК; ваш ввод не отправляется наружу (кроме первоначального скачивания модели). Это большое преимущество локальных LLM.

В. Можно ли использовать с существующим кодом для OpenAI?

О. Да. Ollama предоставляет совместимый с OpenAI API по адресу localhost:11434/v1, поэтому в большинстве случаев достаточно изменить URL эндпоинта и имя модели. Удобно для перехода с облака на локальную модель или в качестве запасного варианта.

В. Какой ПК для этого нужен?

О. Ориентир: минимум 8 ГБ RAM для моделей 7B и 16 ГБ и более для 13B и выше. Для комфортной работы помогут поддерживаемый GPU (8 ГБ+ VRAM) или Mac с большим объёмом единой памяти. Подробности — в статье о системных требованиях.