Contenido
"Un enorme modelo de 70B (70 000 millones de parámetros) corre en un solo PC gaming en casa, no en un rack de GPU de centro de datos." Lo que hace esto posible es la cuantización, una técnica que reduce la precisión numérica de los pesos de un modelo para encoger drásticamente su tamaño y sus necesidades de memoria.
Mientras que la destilación de modelos de la vez anterior "traslada el conocimiento a otro modelo más pequeño", la cuantización "hace más ligero el mismo modelo". Este artículo lo explica con una analogía de compresión de fotos, cubre cuánto más ligero queda (los números de memoria), el compromiso de precisión, los métodos principales (GPTQ / AWQ / GGUF / QLoRA) y cómo ejecutarlo en local, todo para principiantes.
Baja el número de bits y la VRAM cae en picado
— Ejemplo: memoria necesaria para un modelo de 70B
* Las estimaciones de memoria y las cifras de este artículo se citan de materiales públicos (a junio de 2026). Las necesidades reales varían según el modelo, el formato y la longitud del contexto; tómalas como orientativas.
1. ¿Qué es la cuantización? Como comprimir una foto
La cuantización significa reducir la precisión numérica de los pesos (parámetros) de un modelo. Los pesos de la IA se suelen almacenar como FP16/FP32 (decimales de 16/32 bits), y la cuantización los reemplaza por enteros como INT8 (8 bits) o INT4 (4 bits). Así, cada peso ocupa menos espacio y todo el modelo queda mucho más ligero.
Piénsalo como "comprimir una foto de alta resolución": la foto RAW original (FP16) es preciosa pero enorme. Comprímela a JPEG (INT8/INT4) y el archivo se reduce a una fracción del tamaño mientras se ve casi idéntico. La cuantización es lo mismo: sacrificar un poco de precisión a cambio de una gran reducción de peso. Lo sorprendente no es que funcione, sino lo poco que se renuncia.
El número y el papel de los pesos no cambian: el recipiente (el modelo) sigue siendo el mismo; solo se vuelve más tosca la finura de la representación. Por eso ayuda conocer la estructura del modelo (consulta cómo funcionan los pesos de un LLM).
2. ¿Cuánto más ligero? (los números de memoria)
El efecto se ve claro en números. Por peso: FP32 = 4 bytes, INT8 = 1 byte, INT4 = 0,5 bytes. Así que pasar a 4-bit usa alrededor de una cuarta parte de la memoria de FP16.
| Precisión | Por peso | Modelo de 70B (aprox.) | Modelo de 8B (aprox.) |
|---|---|---|---|
| FP16 (sin cuantización) | 2 bytes | ~140GB | ~16GB |
| INT8 | 1 byte | ~70GB | ~8GB |
| INT4 | 0,5 bytes | ~35GB | ~4.5-5GB |
* Estimaciones. Los valores reales varían según el formato, la sobrecarga y la longitud del contexto.
El impacto es enorme. Si un modelo de 70B pasa de 140GB a 35GB, corre en una configuración realista en lugar de varias A100. Cuantiza un modelo de 8B a 4-bit y son unos 5GB, que caben cómodamente en una GPU de gama media (8GB de VRAM), así que puedes ejecutarlo en local en tu propio PC. Por eso a la cuantización se la llama la "democratización de los LLM".
3. ¿Cuánta precisión se pierde?
La preocupación es: "¿no se volverá más tonto al hacerse más ligero?" La respuesta es "menos de lo que crees, pero depende del número de bits y de la tarea".
🟢 INT8: casi sin pérdidas
Para la mayoría de los LLM, la caída de rendimiento es mínima. Una opción segura cuando quieres reducir la memoria a la mitad sin perder calidad.
🟡 INT4: práctico con métodos inteligentes
Para preguntas y respuestas generales y tareas de sentido común, la degradación es, según se informa, inferior al 4%. Pero en matemáticas, generación de código y razonamiento difícil la pérdida es más notable, así que ten cuidado.
La pérdida de precisión se manifiesta técnicamente como "un pequeño aumento de la perplejidad". La clave es "elegir el número de bits que encaje con la tarea": INT4 suele bastar de sobra para chat o resúmenes, pero para generación de código o cálculos exactos, considera INT8 o no cuantizar. Al final, evalúa en tu propia tarea para confirmar que está dentro de lo tolerable.
4. Métodos principales: GPTQ / AWQ / GGUF / QLoRA
Hay varios métodos y formatos de cuantización representativos. Conocer los nombres te ayuda a elegir modelos y herramientas sin confusión.
| Método / formato | Características | Ideal para |
|---|---|---|
| GPTQ | El pionero que logró la compresión a 4-bit conservando la precisión. | Inferencia en GPU |
| AWQ | Identifica y protege el ~1% de los pesos más importantes. A menudo es un 1-2% más preciso y más rápido que GPTQ. | Inferencia en producción rápida y eficiente |
| GGUF | El formato de llama.cpp / Ollama. Elige entre niveles Q2_K-Q8_0; admite híbrido CPU+GPU. | Ejecutar en local en tu PC |
| QLoRA | Combina un modelo base de 4-bit con LoRA, lo que permite hacer fine-tuning en una GPU de consumo. | Fine-tuning de bajo coste |
Para un principiante que lo prueba en local, usar un modelo GGUF con Ollama es el camino más fácil. Para optimizar la inferencia de producción en GPU, AWQ es una opción sólida. Para hacer fine-tuning barato de un modelo grande, QLoRA: recordar solo eso es suficiente.
5. vs destilación y fine-tuning
La cuantización es una técnica de "eficiencia/optimización de modelos" junto a la destilación y el fine-tuning. Son fáciles de confundir, así que fíjate en la diferencia de objetivos.
⚖️ Cuantización
Aligerar los pesos del mismo modelo. El mismo modelo por dentro, solo una representación más tosca.
🧑🏫 Destilación
Trasladar el conocimiento a otro modelo más pequeño. Reconstruir el recipiente más pequeño.
🎯 Fine-tuning
Entrenar más para un uso específico. Aproximadamente el mismo tamaño; añade conocimiento de dominio.
Las tres no son excluyentes: lo normal es combinarlas. Por ejemplo, "cuantizar un modelo estudiante que se destiló más pequeño para que quepa en un teléfono", o, como con QLoRA, "hacer fine-tuning sobre una base cuantizada". Se acumulan.
6. Cómo empezar y elegir el número de bits
No hace falta ninguna implementación complicada. Se distribuyen muchos modelos ya cuantizados, así que puedes simplemente descargarlos y usarlos. Si tienes dudas, elige con esta guía.
Para probar primero en local, usa GGUF (Ollama)
Ejecuta un modelo cuantizado con Ollama en un solo comando. Solo con tocarlo es la forma más rápida de aprender.
Elige el número de bits según tu VRAM
¿Vas justo de VRAM? INT4 (Q4). ¿Tienes margen y quieres calidad? INT8 (Q8). El uso general suele ir bien con Q4.
Juzga la precisión según el caso de uso
Para generación de código o cálculos exactos, evita INT4 y usa INT8 o más. Para chat y resúmenes, INT4 es cómodo.
Resumen
La cuantización es la pieza clave que convierte una IA gigante en algo lo bastante ligero como para correr en tu propia máquina. Recapitulemos.
Puntos clave
- ⚖️ Baja la precisión de los pesos para encoger (FP16→INT8→INT4). La misma idea que comprimir una foto.
- 📉 ~4x menos memoria a 4-bit. 70B de 140GB→35GB; 8B ~5GB en una GPU de consumo.
- 🎯 Pequeña pérdida de precisión. INT8 casi sin pérdidas; INT4 por debajo del 4% en uso general (ojo con matemáticas/código).
- 🛠️ Métodos: GPTQ / AWQ / GGUF (Ollama) / QLoRA. GGUF es lo más fácil en local.
- 🔀 Distinto de la destilación/FT: aligerar el mismo recipiente / trasladarlo a uno más pequeño / añadir conocimiento de dominio.
"Conserva la inteligencia, suelta solo el peso." La cuantización es el paso único más práctico para hacer la IA accesible. Empieza ejecutando un modelo Q4 en un LLM local. Para una técnica relacionada, consulta la destilación de modelos; para los fundamentos, los pesos de un LLM.
FAQ
P. ¿La cuantización vuelve más tonto al modelo?
R. Menos de lo que crees. INT8 es casi sin pérdidas, e incluso INT4 se degrada, según se informa, por debajo del 4% en preguntas y respuestas generales y tareas de sentido común. Pero la diferencia es más notable en matemáticas, generación de código y razonamiento difícil, así que elige el número de bits según el caso de uso.
P. ¿Qué son Q4 / Q8 y cuál debería elegir?
R. Son niveles de cuantización de GGUF: los números más pequeños son más ligeros (más toscos). Si vas justo de VRAM, elige Q4; para calidad con margen de sobra, Q8. Para uso general como chat o resúmenes, Q4 suele resultar cómodo.
P. ¿Debería usar cuantización o destilación?
R. Tienen objetivos distintos. Para aligerar un modelo que ya tienes, cuantízalo; para crear un nuevo modelo dedicado más pequeño, usa la destilación. A menudo se combinan: cuantizar todavía más un modelo pequeño destilado es habitual.
P. ¿Tengo que cuantizar los modelos yo mismo?
R. Normalmente no. Los modelos principales ya se distribuyen en forma cuantizada y se pueden descargar y usar de inmediato con herramientas como Ollama. Cuantizar tú mismo solo es para modelos propios o requisitos especiales.