Когда хочется начать с локальной LLM, первое, что обычно беспокоит: «А она вообще запустится на моём ПК?» Короткий ответ: 90% требуемых характеристик сводятся к VRAM (памяти вашего GPU). Разберитесь с этим — и сразу поймёте, что запустится, а что нет.

В этой статье собраны быстрая таблица VRAM по размеру модели, простая формула, ловушка с памятью, которая растёт вместе с длиной контекста, реалистичные скорости для каждого GPU/Mac и, наконец, рекомендуемые сборки по бюджету. Терминов по минимуму, чтобы даже новичок понял, «что же мне купить».

LOCAL LLM · HARDWARE

Почти всё решает VRAM

— Всё сводится к тому, помещается ли модель в память

ENTRY

VRAM 8–12 GB

Класс 7B–14B. Повседневный чат, суммаризация, лёгкий код. Самая простая отправная точка.

STANDARD

VRAM 24 GB

Вплоть до класса 32B. Практичная планка с отличным балансом качества и скорости.

SERIOUS

40–64 GB+

Класс 70B. Качество, приближающееся к среднему уровню облака. Затраты тоже растут.

1. Главный вывод: почти всё решает VRAM

В выборе ПК участвует множество комплектующих — CPU, GPU, память, — но для локальных LLM самое важное — это VRAM (видеопамять, память на GPU). Причина проста: если вся модель помещается в VRAM, она работает быстро и плавно; если нет — она становится мучительно медленной или вообще не запускается.

💡 В двух словах: выбор характеристик для локальной LLM идёт в таком порядке: «размер модели, которую вы хотите запустить» → «нужный для неё VRAM» → «GPU/Mac, который этому соответствует». CPU и объём RAM вторичны.

Чипы Apple серии M (Mac) — особый случай: благодаря «унифицированной памяти» установленный RAM можно напрямую использовать как VRAM. Поэтому Mac с большим объёмом памяти может запускать крупные модели даже без выделенного GPU — об этом дальше.

2. Сначала разберитесь с квантизацией — она меняет всё

Прежде чем говорить о требуемом VRAM, не обойтись без квантизации. Это приём, который сжимает модель, делая её легче, и от степени сжатия потребность в памяти меняется в несколько раз.

FP16 (без сжатия)

~2 байта на параметр. Высшее качество, но память съедает больше всего. Частные пользователи применяют редко.

Q8 (8 бит)

~1 байт на параметр. Примерно вдвое меньше FP16. Потеря качества крошечная — выбор «с уклоном в качество».

Q4 (4 бита)

~0,5–0,7 байта на параметр. Примерно 1/4 от FP16. Отличный баланс качества и лёгкости — выбор по умолчанию для личного использования.

🔑 Примерная формула: требуемый VRAM ≈ число параметров (B) × байты на параметр. Пример: чтобы запустить модель 7B на Q4, 7 × ~0,6 ≈ ~4–5 GB. Для надёжности добавьте +10–20% на KV-кэш (контекст, о нём дальше).

3. Сколько VRAM нужно по размеру модели (быстрая таблица)

Исходя из самой практичной квантизации Q4, вот примерные ориентиры по VRAM в зависимости от размера (с запасом под контекст). Сравните с «VRAM вашего GPU» — и сразу увидите свой предел.

Класс 7B–8B

VRAM ~6–8 GB

Идеально для старта. Чат, суммаризация, перевод, лёгкий код. Достижимо на многих ноутбуках.

Класс 13B–14B

VRAM ~8–12 GB

Ответы чуть умнее. «Лакомая» зона для GPU среднего класса вроде RTX 3060 (12 GB).

Класс 32B

VRAM ~20–24 GB

Верхняя практичная планка. Классическая цель для одной карты RTX 4090 (24 GB).

Класс 70B

VRAM ~40–48 GB+

Серьёзный уровень. Реалистичны Mac с большим объёмом памяти или несколько GPU.

Если подниматься выше, к 100B+ (очень крупные модели), нужно 128 GB и больше — это уже за пределами частного диапазона. И наоборот, крошечная модель 1–3B работает примерно в 4 GB, так что даже скромный ПК может начать.

4. Ловушка длины контекста и KV-кэша

Легко упустить: память растёт вместе с длиной контекста. LLM держит историю диалога и ввода в VRAM в виде KV-кэша. Чем длиннее текст, с которым вы работаете, тем больше памяти он занимает сверх самой модели.

4k

~+0,3 GB на 7B. Для коротких вопросов несущественно.

32k

~+2,5 GB на 7B. Начинает играть роль при длинных суммаризациях и диалогах.

128k

~+10 GB на 7B. Может превысить саму модель. Зона осторожности.

📌 Практический совет: «работало впритык к пределу VRAM, а потом упало, когда я скормил длинный документ» — вот почему. Оценивайте потребность по той длине контекста, которую вы реально используете. Если длинные документы вам не нужны, достаточно задать меньшую длину контекста — и память освободится.

5. GPU и Mac на практике (ориентир по скорости)

Даже для одной и той же модели железо сильно меняет скорость (число генерируемых токенов в секунду = tok/s). Вот основные варианты с примерным ощущением (цифры — ориентиры, они зависят от конфигурации и модели).

RTX 3060 (12 GB)

Легко найти на вторичке — классика для старта. 7B–14B работают комфортно. Если приоритет — стоимость, начните отсюда.

RTX 4090 (24 GB)

До класса 32B на одной карте. 7B может выдавать более 100 токенов/с. Топовый выбор для личного использования. Для 70B приходится частично выгружать на CPU, и она сильно замедляется.

RTX 5090 (32 GB)

Больше VRAM позволяет запускать 32B на Q8 или 70B с агрессивной квантизацией на одной карте. Скорость тоже топового класса.

Apple Mac (M4/M5 Max)

С 64 GB унифицированной памяти возможен даже класс 70B (скорость скромная — около 20–30 токенов/с на 70B). Тихо и энергоэффективно.

Только CPU (без GPU)

Небольшие модели всё же запускаются, но медленно. Подходит, чтобы «просто попробовать». Для ежедневной работы реально нужен GPU/Mac.

6. Что нужно помимо VRAM

VRAM — главный герой, но и поддерживающий состав важен. Минимум три вещи, которые стоит обеспечить.

🧠

Системный RAM

Резерв для всего, что не влезло в VRAM. 16 GB и больше, в идеале 32 GB. На Mac унифицированная память засчитывается напрямую.

💾

Накопитель (SSD)

Одна модель — это от нескольких до десятков GB. Если будете пробовать несколько, держите много свободного места на SSD. Рекомендуется NVMe.

Питание и охлаждение

Топовые GPU потребляют много энергии и сильно греются. Оставляйте запас по блоку питания и охлаждению.

7. Рекомендуемые сборки по бюджету (3 уровня)

Три варианта, отвечающие на вопрос «так что же мне на самом деле купить?» Выбирайте по сценарию использования и бюджету.

ENTRY

Просто попробовать: VRAM 8–12 GB

Карта класса RTX 3060 (12 GB) или Mac с 16–24 GB унифицированной памяти. Класс 7B–14B работает, для повседневных задач этого с лихвой. Подержанный GPU — самый дешёвый способ начать.

STD

Использовать всерьёз: VRAM 24 GB

RTX 4090 (24 GB) или Mac с 32–48 GB унифицированной памяти. Класс 32B работает комфортно, с лучшим балансом качества и скорости. Выбор «в самый раз».

PRO

Замахнуться на максимум: 40–64 GB+

RTX 5090 или несколько GPU, либо топовый Mac с 64 GB+ унифицированной памяти. Класс 70B приближается к среднему уровню облака. Будьте готовы к расходам и энергопотреблению.

8. Как понять, какую модель вы потянете

Не знаете, какую модель выбрать? Смотрите сравнение лучших локальных LLM — выбор по задаче, размеру и происхождению.

Проверьте в три шага до покупки или загрузки — и не ошибётесь.

  1. Узнайте свой VRAM (или унифицированную память вашего Mac). Это ваш потолок.
  2. Прикиньте примерную потребность по формуле размер модели (B) × ~0,6 (Q4). Добавьте +10–20% на контекст.
  3. Убедитесь, что итог укладывается в ваш VRAM. Если нет — возьмите «на размер меньше» или «более сильную квантизацию (Q4 → ещё ниже по битам)».

💡 Если сомневаетесь, начните с малого: с Ollama или LM Studio вы просто выбираете модель и скачиваете. Сначала попробуйте класс 7B, и поднимайтесь выше, если покажется маловато — этот порядок безопасен и надёжен.

Итоги

Характеристики, нужные для локальной LLM, сводятся к трём пунктам.

  • VRAM — главный герой: помещается ли модель в память — это всё. Mac может целиться в большой объём через унифицированную память.
  • Квантизация и контекст сдвигают число: на Q4 ориентир — «размер (B) × ~0,6» плюс контекст (+10–20%). 7B ≈ 6–8 GB, 32B ≈ 24 GB, 70B ≈ 40 GB+.
  • Три уровня по бюджету: начальный (8–12 GB) / стандартный (24 GB) / серьёзный (40–64 GB+). Если сомневаетесь, начните с малого и поднимайтесь постепенно.

Как только характеристики ясны, локальная LLM становится куда доступнее. Дальше, взвесив отличия от облака, запустите её на своей машине. Шаги по установке разобраны в материале как запустить локальную LLM.

FAQ

В. Может ли обычный ноутбук (без GPU) запустить локальную LLM?

О. Небольшие модели (1–3B или облегчённая 7B) запустятся, но медленно. Чтобы «попробовать», этого достаточно, но для комфортной ежедневной работы реалистичны GPU с VRAM 8 GB+ или Mac с достаточным объёмом унифицированной памяти.

В. Мне немного не хватает VRAM. Как всё-таки запустить?

О. Есть три варианта: ① выбрать более сильную квантизацию (сборку с меньшим числом бит), ② перейти на модель на размер меньше, ③ задать меньшую длину контекста. Обычно этого хватает, чтобы уложиться. Можно ещё частично выгрузить на CPU, но скорость упадёт.

В. GeForce или Mac — что лучше?

О. Ради скорости и расширяемости — GeForce (GPU NVIDIA). Ради тихой и энергоэффективной работы, где большой объём памяти позволяет запускать крупные модели, — Mac (унифицированная память). Если хотите работать с классом 70B на одной машине, Mac с 64 GB+ — сильный вариант.

В. Сколько системного RAM нужно?

О. 16 GB и больше для системного RAM, в идеале 32 GB. Учтите, что на Mac унифицированная память играет роль VRAM, поэтому объём памяти напрямую определяет размер модели, которую вы сможете запустить.

В. Так какой же машиной начать?

О. По соотношению цены и качества — подержанная RTX 3060 (12 GB) для 7B–14B. Если позволяет бюджет, RTX 4090 (24 GB) тянет до класса 32B на одной карте и прослужит долго. Поклонникам Apple проще взять Mac с достаточным объёмом унифицированной памяти. Начните с малого и поднимайтесь по мере необходимости — так избежите ошибок.