Что такое квантизация? Уменьшение моделей ИИ

Что такое квантизация? Уменьшаем модели ИИ, чтобы запускать их на своей машине

Содержание

1. Что такое квантизация? Как сжатие фотографии
2. Насколько легче? (цифры по памяти)
3. Сколько точности теряется?
4. Основные методы: GPTQ / AWQ / GGUF / QLoRA
5. Отличие от дистилляции и файнтюнинга
6. С чего начать и как выбрать разрядность
Итоги
FAQ

«Огромная модель на 70B (70 миллиардов параметров) работает на одном домашнем игровом ПК, а не на стойке дата-центровых GPU». Возможным это делает квантизация — техника, которая снижает числовую точность весов модели, чтобы резко уменьшить её размер и потребность в памяти.

Если в прошлый раз дистилляция модели «переносила знания в отдельную, меньшую модель», то квантизация «делает ту же самую модель легче». В этой статье мы объясняем её через аналогию со сжатием фотографии, разбираем, насколько легче она становится (цифры по памяти), компромисс по точности, основные методы (GPTQ / AWQ / GGUF / QLoRA) и как запустить её локально — всё для новичков.

КВАНТИЗАЦИЯ · СЖАТИЕ ЗА СЧЁТ СНИЖЕНИЯ ТОЧНОСТИ

Снизьте разрядность — и VRAM резко падает

— Пример: память, нужная для модели 70B

FP16

~140GB

INT8

~70GB

INT4

~35GB

~в 4 раза меньше памяти при 4-bit Работает на потребительском GPU Небольшая потеря точности

* Ориентиры по памяти и цифры в этой статье взяты из публичных материалов (по состоянию на июнь 2026). Реальные потребности зависят от модели, формата и длины контекста — воспринимайте их как ориентир.

1. Что такое квантизация? Как сжатие фотографии

Квантизация означает снижение числовой точности весов (параметров) модели. Веса ИИ обычно хранятся как FP16/FP32 (16/32-битные дробные числа), а квантизация заменяет их целыми числами вроде INT8 (8-бит) или INT4 (4-бит). Тогда каждый вес занимает меньше места, и вся модель становится гораздо легче.

Представьте это как «сжатие фотографии высокого разрешения»: исходное RAW-фото (FP16) красивое, но огромное. Сожмите его в JPEG (INT8/INT4) — и файл уменьшится в несколько раз, выглядя почти так же. Квантизация устроена так же: жертвуем малой долей точности ради большого выигрыша в весе. Удивляет не то, что это работает, а как мало вы при этом теряете.

Число и роль весов не меняются — сосуд (модель) остаётся прежним; грубее становится лишь детализация представления. Поэтому полезно понимать устройство модели (см. как работают веса LLM).

2. Насколько легче? (цифры по памяти)

Эффект очевиден в цифрах. На один вес: FP32 = 4 байта, INT8 = 1 байт, INT4 = 0,5 байта. То есть переход на 4-bit использует примерно четверть памяти по сравнению с FP16.

Точность	На один вес	Модель 70B (прибл.)	Модель 8B (прибл.)
FP16 (без квантизации)	2 байта	~140GB	~16GB
INT8	1 байт	~70GB	~8GB
INT4	0,5 байта	~35GB	~4.5-5GB

* Ориентировочно. Реальные значения зависят от формата, накладных расходов и длины контекста.

Влияние огромно. Если модель 70B переходит со 140GB на 35GB, она работает на реалистичной конфигурации, а не на нескольких A100. Квантизуйте модель 8B до 4-bit — и это около 5GB, что комфортно умещается в среднем GPU (8GB VRAM), так что вы можете запустить её локально на своём ПК. Именно поэтому квантизацию называют «демократизацией LLM».

3. Сколько точности теряется?

Беспокоит вопрос: «не поглупеет ли модель, став легче?» Ответ: «меньше, чем вы думаете, — но это зависит от разрядности и задачи».

🟢 INT8: почти без потерь

Для большинства LLM падение качества минимально. Безопасный выбор, когда нужно вдвое сократить память, сохранив качество.

🟡 INT4: практичен при умных методах

Для обычных вопросов-ответов и задач на здравый смысл деградация, по сообщениям, менее 4%. Но для математики, генерации кода и сложных рассуждений потеря заметнее, поэтому будьте осторожны.

Технически потеря точности проявляется как «небольшой рост перплексии». Главное — «выбрать разрядность под задачу»: для чата или резюмирования часто хватает INT4, но для генерации кода или точной математики стоит рассмотреть INT8 или вовсе отказ от квантизации. В конечном счёте оцените на своей задаче, чтобы убедиться, что укладываетесь в допустимые рамки.

4. Основные методы: GPTQ / AWQ / GGUF / QLoRA

Есть несколько характерных методов и форматов квантизации. Знание названий помогает без путаницы выбирать модели и инструменты.

Метод / формат	Особенности	Лучше всего для
GPTQ	Первопроходец, достигший 4-bit-сжатия с сохранением точности.	Инференс на GPU
AWQ	Определяет и защищает ~1% самых важных весов. Часто на 1-2% точнее и быстрее, чем GPTQ.	Быстрый, эффективный продакшен-инференс
GGUF	Формат llama.cpp / Ollama. Выбирайте уровни Q2_K-Q8_0; поддерживает гибрид CPU+GPU.	Локальный запуск на ПК
QLoRA	Сочетает 4-bit базовую модель с LoRA, позволяя файнтюнить на потребительском GPU.	Недорогой файнтюнинг

Для новичка, который пробует локально, проще всего использовать модель GGUF с Ollama. Чтобы оптимизировать продакшен-инференс на GPU, сильный выбор — AWQ. Чтобы дёшево файнтюнить большую модель — QLoRA; запомнить достаточно только этого.

5. Отличие от дистилляции и файнтюнинга

Квантизация — это техника «эффективности/оптимизации модели» наряду с дистилляцией и файнтюнингом. Их легко перепутать, поэтому отметьте разницу в целях.

⚖️ Квантизация

Облегчает веса той же самой модели. Модель внутри та же, просто более грубое представление.

🧑‍🏫 Дистилляция

Переносит знания в отдельную, меньшую модель. Сосуд пересобирается меньшим.

🎯 Файнтюнинг

Доучивает под конкретное применение. Размер примерно тот же; добавляются доменные знания.

Эти три приёма не исключают друг друга — обычно их комбинируют. Например, «квантизовать модель-ученика, уменьшенную дистилляцией, чтобы уместить её на телефоне», или, как в QLoRA, «файнтюнить на квантизованной базе». Они складываются друг с другом.

6. С чего начать и как выбрать разрядность

Никакой сложной реализации не нужно. Распространяется множество уже квантизованных моделей, так что вы можете просто скачать и использовать их. Если сомневаетесь, выбирайте по этому ориентиру.

Чтобы сначала попробовать локально, используйте GGUF (Ollama)

Запустите квантизованную модель с Ollama одной командой. Просто потрогать её руками — самый быстрый способ разобраться.

Выбирайте разрядность по своей VRAM

Мало VRAM? INT4 (Q4). Есть запас и нужно качество? INT8 (Q8). Для общих задач часто достаточно Q4.

Оценивайте точность по сценарию использования

Для генерации кода или точной математики избегайте INT4 и берите INT8+. Для чата и резюмирования INT4 комфортен.

Итоги

Квантизация — ключевой фактор, который превращает гигантский ИИ в нечто достаточно лёгкое, чтобы работать на вашей собственной машине. Давайте подытожим.

Ключевые выводы

⚖️ Снижаем точность весов ради сжатия (FP16→INT8→INT4). Та же идея, что и при сжатии фотографии.
📉 ~в 4 раза меньше памяти при 4-bit. 70B со 140GB→35GB; 8B ~5GB на потребительском GPU.
🎯 Небольшая потеря точности. INT8 почти без потерь; INT4 менее 4% для общих задач (учитывайте математику/код).
🛠️ Методы: GPTQ / AWQ / GGUF (Ollama) / QLoRA. Локально проще всего GGUF.
🔀 Отличается от дистилляции/FT: облегчить тот же сосуд / перенести в меньший сосуд / добавить доменные знания.

«Сохраняем ум, убираем только вес». Квантизация — самый практичный единичный шаг, чтобы сделать ИИ доступным. Начните с запуска модели Q4 на локальной LLM. О смежной технике см. дистилляцию модели; об основах — веса LLM.

FAQ

В. Делает ли квантизация модель глупее?

О. Меньше, чем вы думаете. INT8 почти без потерь, и даже INT4, по сообщениям, деградирует менее чем на 4% на обычных вопросах-ответах и задачах на здравый смысл. Но разрыв заметнее для математики, генерации кода и сложных рассуждений, поэтому выбирайте разрядность под сценарий использования.

В. Что такое Q4 / Q8 и что выбрать?

О. Это уровни квантизации GGUF — меньшие числа легче (грубее). Мало VRAM — берите Q4; для качества с запасом — Q8. Для общих задач вроде чата или резюмирования Q4 часто комфортен.

В. Что использовать — квантизацию или дистилляцию?

О. Цели разные. Чтобы облегчить уже имеющуюся модель, квантизуйте её; чтобы создать совершенно новую меньшую специализированную модель, используйте дистилляцию. Их часто комбинируют — нередко дистиллированную малую модель дополнительно квантизуют.

В. Нужно ли квантизовать модели самому?

О. Обычно нет. Крупные модели уже распространяются в квантизованном виде и сразу доступны для скачивания и использования через инструменты вроде Ollama. Квантизовать самостоятельно нужно лишь для кастомных моделей или особых требований.

Что такое квантизация? Уменьшаем модели ИИ, чтобы запускать их на своей машине

Снизьте разрядность — и VRAM резко падает

1. Что такое квантизация? Как сжатие фотографии

2. Насколько легче? (цифры по памяти)

3. Сколько точности теряется?

4. Основные методы: GPTQ / AWQ / GGUF / QLoRA

5. Отличие от дистилляции и файнтюнинга

6. С чего начать и как выбрать разрядность

Итоги

FAQ

Похожие статьи

Даты отсечки знаний генеративного ИИ: сравнение ChatGPT, Claude, Gemini и других

Что такое генеративный ИИ? Чем он отличается от традиционного ИИ

Сильные и слабые стороны генеративного ИИ — что он может и чего не может, с примерами

Что такое LLM? Как работают большие языковые модели, топ моделей и кейсы

Комментарии

Оставить комментарий