O que é quantização? Encolher modelos de IA, explicado

O que é quantização? Encolher modelos de IA para rodá-los na sua própria máquina

Conteúdo

1. O que é quantização? Como comprimir uma foto
2. Quanto mais leve fica? (os números de memória)
3. Quanta precisão se perde?
4. Principais métodos: GPTQ / AWQ / GGUF / QLoRA
5. vs destilação e fine-tuning
6. Como começar e escolher a precisão em bits
Resumo
FAQ

"Um enorme modelo de 70B (70 bilhões de parâmetros) roda em um único PC gamer caseiro, e não em um rack de GPUs de data center." O que torna isso possível é a quantização — uma técnica que reduz a precisão numérica dos pesos de um modelo para encolher drasticamente seu tamanho e sua necessidade de memória.

Enquanto a destilação de modelos da vez anterior "transferia conhecimento para um modelo separado e menor", a quantização "deixa o mesmo modelo mais leve." Este artigo explica isso com uma analogia de compressão de fotos, mostra quanto mais leve ele fica (os números de memória), o trade-off de precisão, os principais métodos (GPTQ / AWQ / GGUF / QLoRA) e como rodá-lo localmente — tudo para iniciantes.

QUANTIZAÇÃO · ENCOLHER REDUZINDO A PRECISÃO

Reduza a precisão em bits e a VRAM cai bruscamente

— Exemplo: memória necessária para um modelo de 70B

FP16

~140GB

INT8

~70GB

INT4

~35GB

~4x menos memória em 4-bit Roda em uma GPU de consumidor Uma pequena queda de precisão

* As estimativas de memória e os números deste artigo são citados de materiais públicos (referência de junho de 2026). As necessidades reais variam conforme o modelo, o formato e o comprimento do contexto — leia-os como indicativos.

1. O que é quantização? Como comprimir uma foto

Quantização significa reduzir a precisão numérica dos pesos (parâmetros) de um modelo. Os pesos de uma IA costumam ser armazenados como FP16/FP32 (decimais de 16/32 bits), e a quantização os substitui por inteiros como INT8 (8 bits) ou INT4 (4 bits). Cada peso passa a ocupar menos espaço, e o modelo inteiro fica muito mais leve.

Pense nisso como "comprimir uma foto de alta resolução": a foto RAW original (FP16) é linda, mas enorme. Comprima-a para JPEG (INT8/INT4) e o arquivo encolhe para uma fração do tamanho, parecendo quase idêntico. A quantização é a mesma coisa — sacrifique um pouco de precisão por uma grande redução de peso. A surpresa não é que funcione, mas o quão pouco você abre mão.

O número e o papel dos pesos não mudam — o recipiente (modelo) continua o mesmo; apenas a finura da representação fica mais grosseira. Por isso, conhecer a estrutura do modelo ajuda (veja como funcionam os pesos de um LLM).

2. Quanto mais leve fica? (os números de memória)

O efeito fica evidente nos números. Por peso: FP32 = 4 bytes, INT8 = 1 byte, INT4 = 0,5 byte. Então usar 4-bit consome cerca de um quarto da memória do FP16.

Precisão	Por peso	Modelo 70B (aprox.)	Modelo 8B (aprox.)
FP16 (sem quantização)	2 bytes	~140GB	~16GB
INT8	1 byte	~70GB	~8GB
INT4	0,5 byte	~35GB	~4.5-5GB

* Estimativas. Os valores reais variam conforme o formato, o overhead e o comprimento do contexto.

O impacto é enorme. Se um modelo de 70B cai de 140GB para 35GB, ele roda em uma configuração realista em vez de várias A100. Quantize um modelo de 8B para 4-bit e ele fica em torno de 5GB — cabendo confortavelmente em uma GPU intermediária (8GB de VRAM), de modo que você pode rodá-lo localmente no seu próprio PC. É por isso que a quantização é chamada de "democratização dos LLMs."

3. Quanta precisão se perde?

A preocupação é: "ele não vai ficar mais burro depois de ficar mais leve?" A resposta é "menos do que você imagina — mas depende da precisão em bits e da tarefa."

🟢 INT8: praticamente sem perdas

Para a maioria dos LLMs, a queda de desempenho é mínima. Uma escolha segura quando você quer reduzir a memória pela metade mantendo a qualidade.

🟡 INT4: prático com métodos inteligentes

Para perguntas e respostas gerais e tarefas de senso comum, a degradação fica, segundo relatos, abaixo de 4%. Mas para matemática, geração de código e raciocínio difícil, a perda é mais perceptível, então tenha cuidado.

A perda de precisão aparece tecnicamente como "um pequeno aumento na perplexidade." O segredo é "escolher a precisão em bits que se adequa à tarefa" — INT4 muitas vezes é mais do que suficiente para chat ou resumo, mas para geração de código ou matemática exata, considere INT8 ou nenhuma quantização. No fim das contas, avalie na sua própria tarefa para confirmar que está dentro da tolerância.

4. Principais métodos: GPTQ / AWQ / GGUF / QLoRA

Existem vários métodos e formatos de quantização representativos. Conhecer os nomes ajuda a escolher modelos e ferramentas sem confusão.

Método / formato	Características	Melhor para
GPTQ	O pioneiro que alcançou a compressão de 4-bit mantendo a precisão.	Inferência em GPU
AWQ	Identifica e protege os ~1% pesos mais importantes. Frequentemente 1-2% mais preciso e mais rápido que o GPTQ.	Inferência de produção rápida e eficiente
GGUF	O formato do llama.cpp / Ollama. Escolha os níveis Q2_K-Q8_0; suporta híbrido CPU+GPU.	Rodar localmente no seu PC
QLoRA	Combina um modelo base de 4-bit com LoRA, viabilizando o fine-tuning em uma GPU de consumidor.	Fine-tuning de baixo custo

Para um iniciante que quer experimentar localmente, usar um modelo GGUF com o Ollama é o caminho mais fácil. Para otimizar a inferência de produção em GPU, AWQ é uma escolha forte. Para fazer fine-tuning de um modelo grande de forma barata, QLoRA — lembrar disso já é suficiente.

5. vs destilação e fine-tuning

A quantização é uma técnica de "eficiência/otimização de modelos" ao lado da destilação e do fine-tuning. É fácil confundi-las, então observe a diferença de objetivos.

⚖️ Quantização

Deixar mais leves os pesos do mesmo modelo. O mesmo modelo por dentro, apenas com uma representação mais grosseira.

🧑‍🏫 Destilação

Transferir conhecimento para um modelo separado e menor. Reconstruir o recipiente em tamanho menor.

🎯 Fine-tuning

Treinar mais para um uso específico. Tamanho aproximadamente igual; adiciona conhecimento de domínio.

As três não são excludentes — geralmente são combinadas. Por exemplo, "quantizar um modelo aluno que foi destilado para ficar menor, para que caiba em um celular," ou, como no QLoRA, "fazer fine-tuning sobre uma base quantizada." Elas se somam.

6. Como começar e escolher a precisão em bits

Não é preciso nenhuma implementação complicada. Muitos modelos já quantizados são distribuídos, então você pode apenas baixar e usar. Na dúvida, escolha por este guia.

Para experimentar localmente primeiro, use GGUF (Ollama)

Rode um modelo quantizado com o Ollama em um único comando. Só de colocar a mão, você aprende mais rápido.

Escolha a precisão em bits pela sua VRAM

Pouca VRAM? INT4 (Q4). Tem folga e quer qualidade? INT8 (Q8). Para uso geral, Q4 costuma ser suficiente.

Avalie a precisão pelo caso de uso

Para geração de código ou matemática exata, evite INT4 e use INT8+. Para chat e resumo, INT4 é confortável.

Resumo

A quantização é o facilitador-chave que transforma uma IA gigante em algo leve o bastante para rodar na sua própria máquina. Vamos recapitular.

Pontos principais

⚖️ Reduza a precisão dos pesos para encolher (FP16→INT8→INT4). Mesma ideia da compressão de fotos.
📉 ~4x menos memória em 4-bit. 70B de 140GB→35GB; 8B ~5GB em uma GPU de consumidor.
🎯 Pequena perda de precisão. INT8 praticamente sem perdas; INT4 abaixo de 4% para uso geral (atenção a matemática/código).
🛠️ Métodos: GPTQ / AWQ / GGUF (Ollama) / QLoRA. GGUF é o mais fácil localmente.
🔀 Diferente de destilação/FT: aliviar o mesmo recipiente / mudar para um recipiente menor / adicionar conhecimento de domínio.

"Mantenha a inteligência, tire apenas o peso." A quantização é o passo único mais prático para tornar a IA acessível. Comece rodando um modelo Q4 em um LLM local. Para uma técnica relacionada, veja a destilação de modelos; para a base, os pesos de LLM.

FAQ

P. A quantização deixa o modelo mais burro?

R. Menos do que você imagina. INT8 é praticamente sem perdas, e mesmo INT4, segundo relatos, degrada abaixo de 4% em perguntas e respostas gerais e tarefas de senso comum. Mas a diferença é mais perceptível em matemática, geração de código e raciocínio difícil, então escolha a precisão em bits de acordo com o caso de uso.

P. O que são Q4 / Q8, e qual devo escolher?

R. São níveis de quantização do GGUF — números menores são mais leves (mais grosseiros). Pouca VRAM, escolha Q4; para qualidade com folga, Q8. Para uso geral, como chat ou resumo, Q4 costuma ser confortável.

P. Devo usar quantização ou destilação?

R. Objetivos diferentes. Para aliviar um modelo que você já tem, quantize-o; para criar um modelo dedicado novinho em folha e menor, use a destilação. Elas costumam ser combinadas — quantizar ainda mais um modelo pequeno destilado é comum.

P. Preciso quantizar os modelos eu mesmo?

R. Geralmente não. Os principais modelos já são distribuídos em forma quantizada e podem ser baixados e usados imediatamente por meio de ferramentas como o Ollama. Quantizar você mesmo só vale para modelos personalizados ou requisitos especiais.

O que é quantização? Encolher modelos de IA para rodá-los na sua própria máquina

Reduza a precisão em bits e a VRAM cai bruscamente

1. O que é quantização? Como comprimir uma foto

2. Quanto mais leve fica? (os números de memória)

3. Quanta precisão se perde?

4. Principais métodos: GPTQ / AWQ / GGUF / QLoRA

5. vs destilação e fine-tuning

6. Como começar e escolher a precisão em bits

Resumo

FAQ

Artigos relacionados

Datas de corte de conhecimento das principais IAs generativas: ChatGPT, Claude, Gemini e mais

O que é IA Generativa? Como se diferencia da IA tradicional

Pontos fortes e fracos da IA generativa — O que consegue e não consegue fazer com exemplos reais

O que é um LLM? Como Funcionam os Modelos de Linguagem, Principais Modelos e Usos

Comentários

Deixe um comentário