Índice
- 1. La conclusión: casi todo se reduce a la VRAM
- 2. Entiende primero la cuantización: lo cambia todo
- 3. VRAM necesaria según el tamaño del modelo (tabla rápida)
- 4. La trampa de la longitud de contexto / caché KV
- 5. GPUs y Macs en la práctica (guía de velocidad)
- 6. Qué necesitas además de la VRAM
- 7. Configuraciones recomendadas por presupuesto (3 niveles)
- 8. Cómo saber qué modelo puedes ejecutar
- Resumen
- Preguntas frecuentes
Cuando quieres empezar con un LLM local, la primera duda suele ser: "¿Funcionará siquiera en mi PC?" La respuesta corta: el 90 % de los requisitos se reduce a la VRAM (la memoria de tu GPU). Si aciertas con eso, sabrás al instante qué funcionará y qué no.
Este artículo presenta una tabla rápida de VRAM según el tamaño del modelo, una fórmula sencilla, la trampa de memoria que crece con la longitud de contexto, las velocidades reales por GPU/Mac y, por último, configuraciones recomendadas por presupuesto. La jerga se ha reducido al mínimo para que hasta un principiante pueda decidir "cuál debería comprar".
Casi todo se reduce a la VRAM
— Depende de si el modelo cabe en la memoria
VRAM 8–12 GB
Clase 7B–14B. Chat diario, resúmenes, código ligero. El punto de partida más fácil.
VRAM 24 GB
Hasta la clase 32B. La línea práctica con un gran equilibrio entre calidad y velocidad.
40–64 GB+
Clase 70B. Calidad que se acerca a la nube de gama media. Los costes también suben.
1. La conclusión: casi todo se reduce a la VRAM
Comprar un PC implica muchas piezas —CPU, GPU, memoria—, pero para los LLM locales lo más importante con diferencia es la VRAM (la memoria de vídeo, la memoria que lleva la GPU). La razón es sencilla: si el modelo completo cabe en la VRAM, funciona rápido y con fluidez; si no cabe, se vuelve dolorosamente lento o no funciona en absoluto.
💡 En pocas palabras: elegir las especificaciones para un LLM local sigue este orden: "el tamaño del modelo que quieres ejecutar" → "la VRAM que necesita" → "una GPU/Mac que la cumpla". La capacidad de CPU y RAM es secundaria.
Los chips de la serie M de Apple (Mac) son un caso especial: gracias a la "memoria unificada", la RAM instalada puede usarse directamente como VRAM. Por eso un Mac con mucha memoria puede ejecutar modelos grandes incluso sin una GPU dedicada; más sobre esto después.
2. Entiende primero la cuantización: lo cambia todo
Antes de hablar de la VRAM necesaria, no hay forma de evitar la cuantización. Es una técnica que comprime el modelo para hacerlo más ligero, y cuánto comprimas cambia la necesidad de memoria varias veces.
FP16 (sin comprimir)
~2 bytes por parámetro. Máxima calidad, pero es lo que más memoria consume. Los particulares casi nunca la usan.
Q8 (8 bits)
~1 byte por parámetro. Aproximadamente la mitad de FP16. La pérdida de calidad es mínima: la opción "orientada a la calidad".
Q4 (4 bits)
~0,5–0,7 bytes por parámetro. Aproximadamente 1/4 de FP16. Un gran equilibrio entre calidad y ligereza: la opción habitual para uso personal.
🔑 Fórmula aproximada: VRAM necesaria ≈ número de parámetros (B) × bytes por parámetro. Ejemplo: para ejecutar un modelo 7B en Q4, 7 × ~0,6 ≈ ~4–5 GB. Añade +10–20 % para la caché KV (el contexto, que veremos a continuación) por seguridad.
3. VRAM necesaria según el tamaño del modelo (tabla rápida)
Asumiendo la cuantización Q4, la más práctica, aquí tienes objetivos aproximados de VRAM por tamaño (incluyendo margen para el contexto). Compáralos con "la VRAM de tu GPU" y verás al instante tu límite máximo.
Clase 7B–8B
VRAM ~6–8 GB
Ideal para empezar. Chat, resúmenes, traducción, código ligero. Alcanzable en muchos portátiles.
Clase 13B–14B
VRAM ~8–12 GB
Respuestas algo más inteligentes. El "punto dulce" para GPUs de gama media como la RTX 3060 (12 GB).
Clase 32B
VRAM ~20–24 GB
La línea práctica superior. El objetivo clásico de una sola tarjeta para una RTX 4090 (24 GB).
Clase 70B
VRAM ~40–48 GB+
Nivel serio. Lo realista es un Mac con mucha memoria o varias GPUs.
Subir aún más, a 100B+ (modelos muy grandes), requiere 128 GB o más, fuera del alcance personal. Por el contrario, un modelo diminuto de 1–3B funciona con unos 4 GB, así que incluso un PC modesto puede empezar.
4. La trampa de la longitud de contexto / caché KV
Fácil de pasar por alto: la memoria crece con la longitud del contexto. Un LLM mantiene en la VRAM el historial de la conversación y la entrada como una caché KV. Cuanto más largo sea el texto que manejas, más memoria consume además del propio modelo.
4k
~+0,3 GB en un 7B. Insignificante para preguntas cortas.
32k
~+2,5 GB en un 7B. Empieza a importar para resúmenes largos y chats.
128k
~+10 GB en un 7B. Puede superar al propio modelo. Una zona de precaución.
📌 Consejo práctico: "funcionaba justo al límite de la VRAM y luego se cayó al darle un documento largo": esta es la causa. Estima tu necesidad con la longitud de contexto que realmente usas. Si no manejas documentos largos, basta con configurar una longitud de contexto menor para liberar memoria.
5. GPUs y Macs en la práctica (guía de velocidad)
Incluso con el mismo modelo, el hardware cambia mucho la velocidad (tokens generados por segundo = tok/s). Aquí están las principales opciones con una idea aproximada (los números son orientativos y varían según la configuración y el modelo).
RTX 3060 (12 GB)
Fácil de encontrar de segunda mano: el clásico de entrada. Los 7B–14B funcionan cómodamente. Si lo prioritario es el coste, empieza aquí.
RTX 4090 (24 GB)
Hasta la clase 32B en una sola tarjeta. Un 7B puede superar los 100 tokens/segundo. La gama alta personal de referencia. Un 70B necesita descargar parte a la CPU y se ralentiza mucho.
RTX 5090 (32 GB)
Más VRAM te permite ejecutar 32B en Q8, o un 70B con cuantización agresiva en una sola tarjeta. La velocidad también es de primera clase.
Apple Mac (M4/M5 Max)
Con 64 GB de memoria unificada, incluso la clase 70B es posible (la velocidad es modesta: en torno a 20–30 tokens/segundo en un 70B). Silencioso y eficiente en energía.
Solo CPU (sin GPU)
Los modelos pequeños sí funcionan, pero lentamente. Bien para "solo probarlo". El uso diario realmente pide una GPU/Mac.
6. Qué necesitas además de la VRAM
La VRAM es la protagonista, pero el reparto secundario también importa. Tres cosas que cubrir como mínimo.
RAM del sistema
El comodín para lo que no cabe en la VRAM. 16 GB o más, idealmente 32 GB. En un Mac, la memoria unificada cuenta directamente.
Almacenamiento (SSD)
Un solo modelo ocupa de varios a decenas de GB. Si vas a probar varios, mantén bastante espacio libre en el SSD. Se recomienda NVMe.
Alimentación y refrigeración
Las GPUs de gama alta consumen mucha energía y se calientan. Deja margen en la fuente de alimentación y la refrigeración.
7. Configuraciones recomendadas por presupuesto (3 niveles)
Tres patrones que responden a "entonces, ¿qué debería comprar realmente?" Elige según el uso y el presupuesto.
Solo probarlo: VRAM 8–12 GB
Una tarjeta de la clase RTX 3060 (12 GB), o un Mac con 16–24 GB de memoria unificada. La clase 7B–14B funciona, de sobra para el uso diario. Una GPU de segunda mano es la forma más barata de empezar.
Usarlo en serio: VRAM 24 GB
Una RTX 4090 (24 GB), o un Mac con 32–48 GB de memoria unificada. La clase 32B va cómoda, con el mejor equilibrio entre calidad y velocidad. La opción "en su justa medida".
Apuntar a lo más grande: 40–64 GB+
Una RTX 5090 o varias GPUs, o un Mac de gama alta con 64 GB+ de memoria unificada. La clase 70B se acerca a la nube de gama media. Prepárate para el coste y el consumo de energía.
8. Cómo saber qué modelo puedes ejecutar
¿No sabes qué modelo elegir? Mira la comparativa de los mejores LLM locales para escoger por uso, tamaño y origen.
Comprueba en tres pasos antes de comprar o descargar y no te equivocarás.
- Comprueba tu VRAM (o la memoria unificada de tu Mac). Este es tu techo.
- Estima la necesidad aproximada con el tamaño del modelo (B) × ~0,6 (Q4). Añade +10–20 % para el contexto.
- Confirma que el total cabe dentro de tu VRAM. Si no, elige "una talla más pequeña" o "una cuantización más fuerte (Q4 → aún menos bits)".
💡 Si dudas, empieza por algo pequeño: con Ollama o LM Studio, solo eliges un modelo y lo descargas. Prueba primero la clase 7B y sube de nivel si te parece insuficiente; ese orden es seguro y fiable.
Resumen
La especificación que necesitas para un LLM local se reduce a tres puntos.
- La VRAM es la protagonista: que el modelo quepa en la memoria lo es todo. Un Mac puede apuntar a mucha memoria mediante la memoria unificada.
- La cuantización y el contexto mueven la cifra: en Q4, "tamaño (B) × ~0,6" más el contexto (+10–20 %) es la guía. 7B ≈ 6–8 GB, 32B ≈ 24 GB, 70B ≈ 40 GB+.
- Tres niveles por presupuesto: entrada (8–12 GB) / estándar (24 GB) / serio (40–64 GB+). Si dudas, empieza por algo pequeño y sube poco a poco.
Una vez que conoces las especificaciones, un LLM local se vuelve mucho más accesible. A continuación, sopesando las diferencias con la nube, ejecuta uno en tu propia máquina. Los pasos de instalación se cubren en cómo ejecutar un LLM local.
Preguntas frecuentes
P. ¿Puede un portátil normal (sin GPU) ejecutar un LLM local?
R. Los modelos pequeños (1–3B, o un 7B ligero) funcionarán, pero lentamente. Está bien para "probarlo", pero para un uso diario cómodo lo realista es una GPU con 8 GB+ de VRAM o un Mac con amplia memoria unificada.
P. Me falta un poco de VRAM. ¿Cómo puedo ejecutarlo aun así?
R. Tres opciones: ① elegir una cuantización más fuerte (una versión con menos bits), ② bajar a un modelo una talla más pequeño, ③ configurar una longitud de contexto más corta. Normalmente con eso basta para que quepa. También puedes descargar parte a la CPU, pero la velocidad cae.
P. GeForce o Mac, ¿cuál es mejor?
R. Para velocidad y ampliabilidad, GeForce (GPU de NVIDIA). Para un funcionamiento silencioso y eficiente en energía que aproveche mucha memoria para ejecutar modelos grandes, un Mac (memoria unificada). Si quieres manejar una clase 70B en una sola máquina, un Mac de 64 GB+ es una opción potente.
P. ¿Cuánta RAM del sistema necesito?
R. 16 GB o más de RAM del sistema, idealmente 32 GB. Ten en cuenta que en un Mac la memoria unificada hace de VRAM, así que la capacidad de memoria determina directamente el tamaño de modelo que puedes ejecutar.
P. Entonces, ¿cuál es una buena primera máquina?
R. Por relación calidad-precio, una RTX 3060 (12 GB) de segunda mano para 7B–14B. Si el presupuesto lo permite, una RTX 4090 (24 GB) maneja hasta la clase 32B en una sola tarjeta y dura mucho tiempo. Para los fans de Apple, un Mac con amplia memoria unificada es la vía fácil. Empieza por algo pequeño y sube de nivel según lo necesites: así evitas errores.