«Огромная модель на 70B (70 миллиардов параметров) работает на одном домашнем игровом ПК, а не на стойке дата-центровых GPU». Возможным это делает квантизация — техника, которая снижает числовую точность весов модели, чтобы резко уменьшить её размер и потребность в памяти.

Если в прошлый раз дистилляция модели «переносила знания в отдельную, меньшую модель», то квантизация «делает ту же самую модель легче». В этой статье мы объясняем её через аналогию со сжатием фотографии, разбираем, насколько легче она становится (цифры по памяти), компромисс по точности, основные методы (GPTQ / AWQ / GGUF / QLoRA) и как запустить её локально — всё для новичков.

КВАНТИЗАЦИЯ · СЖАТИЕ ЗА СЧЁТ СНИЖЕНИЯ ТОЧНОСТИ

Снизьте разрядность — и VRAM резко падает

— Пример: память, нужная для модели 70B

FP16
~140GB
INT8
~70GB
INT4
~35GB
~в 4 раза меньше памяти при 4-bit Работает на потребительском GPU Небольшая потеря точности

* Ориентиры по памяти и цифры в этой статье взяты из публичных материалов (по состоянию на июнь 2026). Реальные потребности зависят от модели, формата и длины контекста — воспринимайте их как ориентир.

1. Что такое квантизация? Как сжатие фотографии

Квантизация означает снижение числовой точности весов (параметров) модели. Веса ИИ обычно хранятся как FP16/FP32 (16/32-битные дробные числа), а квантизация заменяет их целыми числами вроде INT8 (8-бит) или INT4 (4-бит). Тогда каждый вес занимает меньше места, и вся модель становится гораздо легче.

Представьте это как «сжатие фотографии высокого разрешения»: исходное RAW-фото (FP16) красивое, но огромное. Сожмите его в JPEG (INT8/INT4) — и файл уменьшится в несколько раз, выглядя почти так же. Квантизация устроена так же: жертвуем малой долей точности ради большого выигрыша в весе. Удивляет не то, что это работает, а как мало вы при этом теряете.

Число и роль весов не меняются — сосуд (модель) остаётся прежним; грубее становится лишь детализация представления. Поэтому полезно понимать устройство модели (см. как работают веса LLM).

2. Насколько легче? (цифры по памяти)

Эффект очевиден в цифрах. На один вес: FP32 = 4 байта, INT8 = 1 байт, INT4 = 0,5 байта. То есть переход на 4-bit использует примерно четверть памяти по сравнению с FP16.

Точность На один вес Модель 70B (прибл.) Модель 8B (прибл.)
FP16 (без квантизации) 2 байта ~140GB ~16GB
INT8 1 байт ~70GB ~8GB
INT4 0,5 байта ~35GB ~4.5-5GB

* Ориентировочно. Реальные значения зависят от формата, накладных расходов и длины контекста.

Влияние огромно. Если модель 70B переходит со 140GB на 35GB, она работает на реалистичной конфигурации, а не на нескольких A100. Квантизуйте модель 8B до 4-bit — и это около 5GB, что комфортно умещается в среднем GPU (8GB VRAM), так что вы можете запустить её локально на своём ПК. Именно поэтому квантизацию называют «демократизацией LLM».

3. Сколько точности теряется?

Беспокоит вопрос: «не поглупеет ли модель, став легче?» Ответ: «меньше, чем вы думаете, — но это зависит от разрядности и задачи».

🟢 INT8: почти без потерь

Для большинства LLM падение качества минимально. Безопасный выбор, когда нужно вдвое сократить память, сохранив качество.

🟡 INT4: практичен при умных методах

Для обычных вопросов-ответов и задач на здравый смысл деградация, по сообщениям, менее 4%. Но для математики, генерации кода и сложных рассуждений потеря заметнее, поэтому будьте осторожны.

Технически потеря точности проявляется как «небольшой рост перплексии». Главное — «выбрать разрядность под задачу»: для чата или резюмирования часто хватает INT4, но для генерации кода или точной математики стоит рассмотреть INT8 или вовсе отказ от квантизации. В конечном счёте оцените на своей задаче, чтобы убедиться, что укладываетесь в допустимые рамки.

4. Основные методы: GPTQ / AWQ / GGUF / QLoRA

Есть несколько характерных методов и форматов квантизации. Знание названий помогает без путаницы выбирать модели и инструменты.

Метод / формат Особенности Лучше всего для
GPTQ Первопроходец, достигший 4-bit-сжатия с сохранением точности. Инференс на GPU
AWQ Определяет и защищает ~1% самых важных весов. Часто на 1-2% точнее и быстрее, чем GPTQ. Быстрый, эффективный продакшен-инференс
GGUF Формат llama.cpp / Ollama. Выбирайте уровни Q2_K-Q8_0; поддерживает гибрид CPU+GPU. Локальный запуск на ПК
QLoRA Сочетает 4-bit базовую модель с LoRA, позволяя файнтюнить на потребительском GPU. Недорогой файнтюнинг

Для новичка, который пробует локально, проще всего использовать модель GGUF с Ollama. Чтобы оптимизировать продакшен-инференс на GPU, сильный выбор — AWQ. Чтобы дёшево файнтюнить большую модель — QLoRA; запомнить достаточно только этого.

5. Отличие от дистилляции и файнтюнинга

Квантизация — это техника «эффективности/оптимизации модели» наряду с дистилляцией и файнтюнингом. Их легко перепутать, поэтому отметьте разницу в целях.

⚖️ Квантизация

Облегчает веса той же самой модели. Модель внутри та же, просто более грубое представление.

🧑‍🏫 Дистилляция

Переносит знания в отдельную, меньшую модель. Сосуд пересобирается меньшим.

🎯 Файнтюнинг

Доучивает под конкретное применение. Размер примерно тот же; добавляются доменные знания.

Эти три приёма не исключают друг друга — обычно их комбинируют. Например, «квантизовать модель-ученика, уменьшенную дистилляцией, чтобы уместить её на телефоне», или, как в QLoRA, «файнтюнить на квантизованной базе». Они складываются друг с другом.

6. С чего начать и как выбрать разрядность

Никакой сложной реализации не нужно. Распространяется множество уже квантизованных моделей, так что вы можете просто скачать и использовать их. Если сомневаетесь, выбирайте по этому ориентиру.

1

Чтобы сначала попробовать локально, используйте GGUF (Ollama)

Запустите квантизованную модель с Ollama одной командой. Просто потрогать её руками — самый быстрый способ разобраться.

2

Выбирайте разрядность по своей VRAM

Мало VRAM? INT4 (Q4). Есть запас и нужно качество? INT8 (Q8). Для общих задач часто достаточно Q4.

3

Оценивайте точность по сценарию использования

Для генерации кода или точной математики избегайте INT4 и берите INT8+. Для чата и резюмирования INT4 комфортен.

Итоги

Квантизация — ключевой фактор, который превращает гигантский ИИ в нечто достаточно лёгкое, чтобы работать на вашей собственной машине. Давайте подытожим.

Ключевые выводы

  • ⚖️ Снижаем точность весов ради сжатия (FP16→INT8→INT4). Та же идея, что и при сжатии фотографии.
  • 📉 ~в 4 раза меньше памяти при 4-bit. 70B со 140GB→35GB; 8B ~5GB на потребительском GPU.
  • 🎯 Небольшая потеря точности. INT8 почти без потерь; INT4 менее 4% для общих задач (учитывайте математику/код).
  • 🛠️ Методы: GPTQ / AWQ / GGUF (Ollama) / QLoRA. Локально проще всего GGUF.
  • 🔀 Отличается от дистилляции/FT: облегчить тот же сосуд / перенести в меньший сосуд / добавить доменные знания.

«Сохраняем ум, убираем только вес». Квантизация — самый практичный единичный шаг, чтобы сделать ИИ доступным. Начните с запуска модели Q4 на локальной LLM. О смежной технике см. дистилляцию модели; об основах — веса LLM.

FAQ

В. Делает ли квантизация модель глупее?

О. Меньше, чем вы думаете. INT8 почти без потерь, и даже INT4, по сообщениям, деградирует менее чем на 4% на обычных вопросах-ответах и задачах на здравый смысл. Но разрыв заметнее для математики, генерации кода и сложных рассуждений, поэтому выбирайте разрядность под сценарий использования.

В. Что такое Q4 / Q8 и что выбрать?

О. Это уровни квантизации GGUF — меньшие числа легче (грубее). Мало VRAM — берите Q4; для качества с запасом — Q8. Для общих задач вроде чата или резюмирования Q4 часто комфортен.

В. Что использовать — квантизацию или дистилляцию?

О. Цели разные. Чтобы облегчить уже имеющуюся модель, квантизуйте её; чтобы создать совершенно новую меньшую специализированную модель, используйте дистилляцию. Их часто комбинируют — нередко дистиллированную малую модель дополнительно квантизуют.

В. Нужно ли квантизовать модели самому?

О. Обычно нет. Крупные модели уже распространяются в квантизованном виде и сразу доступны для скачивания и использования через инструменты вроде Ollama. Квантизовать самостоятельно нужно лишь для кастомных моделей или особых требований.