Una vez que tienes un entorno para ejecutar un LLM local, la siguiente pregunta es: "¿Qué modelo debería instalar de verdad?" Llama, Qwen, Gemma, DeepSeek: hay muchos nombres, y las empresas y países que están detrás también difieren. Este artículo organiza los principales modelos de 2026 por desarrollador, país de origen, caso de uso, tamaño y licencia, para que puedas elegir el "primero" que encaje con tu PC y tus objetivos.

Primero, una premisa clave. Los modelos abiertos se actualizan muy rápido (las versiones siguen subiendo bajo el mismo nombre). Por eso este artículo se estructura en torno a "familias (linajes) + cómo elegir según el caso de uso." Así, el razonamiento se mantiene aunque salga una nueva versión. Confirma siempre la última versión y la licencia en el distribuidor (Ollama / Hugging Face).

LOCAL LLM · MODELS

No "el más potente", sino "el adecuado para ti"

— Desarrollador, país, caso de uso y tamaño lo acotan

🇺🇸

EE. UU.

Llama / Gemma / Phi

🇨🇳

China

Qwen / DeepSeek / GLM

🇪🇺

Europa

Mistral / Teuken

🌍

y más

EAU / India / Japón

1. La conclusión: no hay un único ganador; elige por uso × tamaño (+ origen)

La conclusión por delante: no existe un modelo todoterreno que "instalas y listo". Para lo local, acótalo con estos tres puntos.

💡 Tres ejes para elegir: ① Tamaño (el techo que cabe en tu VRAM) = el límite de candidatos. ② Caso de uso (general, programación, tu idioma, razonamiento) = qué linaje encaja. ③ País de origen / desarrollador (licencia, política de adquisiciones, fortalezas lingüísticas) = no se puede ignorar si lo usas en el trabajo.

2. Las principales familias de modelos (con desarrollador y país)

El panorama de los LLM locales en 2026 se reduce a unas pocas familias (linajes) principales. Saber quién las construye y en qué país hace que elegir sea mucho más fácil. Primero, dos términos que aparecen en las tarjetas de abajo.

📖 Mini glosario

B (número de parámetros) = la unidad de escala de un modelo. "B" significa "billion" (mil millones), así que 7B = 7 mil millones, 70B = 70 mil millones de parámetros. Cuanto más grande, tiende a ser más inteligente, pero más pesado (usa más VRAM).

MoE (Mezcla de Expertos) = en lugar de ejecutar todo cada vez, solo se activan algunos "expertos" por cada entrada. Así, el tamaño total puede ser enorme mientras que la parte que realmente se ejecuta se mantiene ligera y eficiente.

Qwen

🇨🇳 Desarrollador: Alibaba (China) / en su mayoría Apache 2.0

Gran capacidad polivalente y fuerte en CJK (chino/japonés/coreano). Tamaños desde 3B hasta cientos de B (MoE), con variantes especializadas en programación. La primera opción para muchos. Ejemplo: serie Qwen3.

Llama

🇺🇸 Desarrollador: Meta (EE. UU.) / licencia propia (revísala)

El estándar más adoptado y con más información. Abundan los ejemplos y el conocimiento, así que es fácil documentarse. Un generalista estable. Ejemplo: serie Llama 3.x / 4.

Gemma

🇺🇸 Desarrollador: Google (EE. UU.) / licencia Gemma

Ligero y eficiente, con alta calidad incluso en tamaños pequeños y medianos. Existen variantes multimodales. Una opción potente para PC de gama baja. Ejemplo: serie Gemma 3.

DeepSeek

🇨🇳 Desarrollador: DeepSeek (China) / R1 es MIT, etc.

Fuerte en razonamiento y programación. Existen versiones pequeñas destiladas, así que puedes buscar "inteligencia" con VRAM limitada. Ejemplo: serie DeepSeek-R1 / V3.

Mistral

🇫🇷 Desarrollador: Mistral AI (Francia / Europa)

De tamaño medio, ágil y bien equilibrado. Un abanderado de la "IA soberana" de Europa. Los más pequeños suelen ser Apache 2.0. Ejemplo: Mistral Small, etc.

Phi

🇺🇸 Desarrollador: Microsoft (EE. UU.) / MIT

Un especialista en modelos pequeños (SLM) cuyo punto fuerte es ser inteligente a pesar de ser diminuto. Fácil de ejecutar en PC/portátiles flojos de la clase 8 GB: ideal para empezar. Ejemplo: serie Phi-4.

Además de estos, está GLM (🇨🇳 Zhipu AI, de Tsinghua; muy valorado para programación), Falcon (🇦🇪 el TII de los EAU) y Command (🇨🇦 Cohere; bueno para RAG). Empieza por el linaje principal más cercano a tu caso de uso.

3. ¿Qué cambia según el país de origen?

"De qué país es el modelo" crea diferencias prácticas que no se ven solo desde el rendimiento. Para evitar un malentendido común, empecemos por la premisa clave.

La premisa clave: mientras lo ejecutes de forma local, tus datos de entrada no se envían fuera (al país del desarrollador). Ese es el mayor beneficio de un LLM local. Así que "un modelo chino = tu entrada va a China" no es cierto (es distinto de una API en la nube). El origen importa principalmente en los tres puntos de abajo.

⚖️

Licencia y condiciones comerciales

Las condiciones varían según el desarrollador. Apache 2.0 / MIT son permisivas; las licencias propias pueden restringir la escala, el uso o exigir atribución. Compruébalo antes de usarlo en un producto.

🏛️

Política organizativa / gubernamental

Los organismos públicos y las grandes empresas pueden tener reglas sobre "si se permite la IA de un país determinado". Trátalo como un punto de adquisición / cumplimiento a confirmar.

🗣️

Fortalezas lingüísticas y culturales

Las tendencias de los datos de entrenamiento determinan en qué idiomas es bueno un modelo. Los modelos chinos son fuertes en CJK; los modelos creados localmente suelen ganar en los matices de su propio idioma.

Un "carácter nacional" aproximado: 🇺🇸 EE. UU. = el mayor ecosistema, rico en información, en general fácil de manejar. 🇨🇳 China = por delante en rendimiento y eficiencia, muchas licencias permisivas, pero algunas organizaciones deben revisar su política de adopción. 🇪🇺 Europa = una postura de "IA soberana" atenta a la regulación, equilibrada. Otras regiones = modelos ajustados a su propio idioma (siguiente sección).

4. Modelos en español y modelos locales

Si trabajas principalmente en español, vale la pena fijarse en los modelos creados o ajustados para nuestro idioma y región. Suelen ganar en la naturalidad del español y son más fáciles de adoptar para organizaciones con preferencia por la "IA soberana". Aquí tienes las iniciativas abiertas más destacadas para el mundo hispanohablante.

🇪🇺 España: Salamandra y ALIA

Salamandra (2B/7B/40B) y ALIA (ALIA-40B), del Barcelona Supercomputing Center (BSC), entrenados desde cero en el superordenador MareNostrum 5 en español, catalán, gallego y euskera. Una apuesta pública por la IA soberana en nuestro idioma.

🌍 Latinoamérica

Muchos equipos parten de modelos multilingües potentes (Qwen, Llama) bien afinados para el español regional, mientras crecen las iniciativas de "IA soberana" en varios países.

🇫🇷 Vecino europeo: Mistral

Como opción local/regional cercana, Mistral (Francia) ofrece modelos de tamaño medio ágiles y equilibrados, con buen manejo del español y, en los más pequeños, licencia Apache 2.0.

💡 Regla práctica: para pura potencia polivalente, una familia global como Qwen; si priorizas la naturalidad del español, requisitos de soberanía o la explicabilidad para uso público/empresarial, un modelo local/regional como Salamandra o ALIA. Prueba ambos con el mismo prompt para comparar (verifica la versión y las condiciones comerciales en cada distribuidor).

5. Recomendaciones por tamaño (modelos concretos)

Tu VRAM decide el rango que puedes ejecutar. Aquí están los "puntos óptimos" por banda de tamaño, con ejemplos concretos (todos asumiendo cuantización Q4).

~4B (diminuto)

VRAM ~6 GB / iniciación y portátiles

Phi-4 mini, Gemma 3 4B, Qwen3 4B, Llama 3.2 3B, etc. Para chat, resúmenes y tareas ligeras. Empieza por aquí.

7B–14B (estándar)

VRAM 8–12 GB / uso diario

Qwen3 7B/14B, Llama 8B, Gemma 12B, etc. El mejor equilibrio entre calidad y ligereza. Un gran primer modelo de uso cotidiano.

clase 32B (superior)

VRAM 24 GB / uso real sólido

Qwen Coder 32B, Mistral de tamaño medio, destilados de DeepSeek, etc. Calidad fiable para programación y trabajo complejo.

70B+ (serio)

VRAM 40 GB+ / Mac con mucha memoria · multi-GPU

Llama 70B, DeepSeek grande, Qwen 72B, etc. Calidad que se acerca a la nube de gama media.

6. Recomendaciones por caso de uso

Elige el linaje según "para qué lo quieres". Aquí están los linajes que encajan con los casos de uso típicos.

🧩 General / cualquier cosa

Qwen (🇨🇳) o Llama (🇺🇸). Si tienes dudas, empieza por una variante de tamaño de estos dos. Mucha información, difícil equivocarse.

💻 Programación

Qwen Coder, DeepSeek, GLM (todos puntos fuertes de 🇨🇳). La calidad da un salto si te cabe la clase 32B.

🌐 Tu idioma / multilingüe

Qwen (fuerte en CJK) o un modelo local/regional ajustado a tu idioma (ver sección 4). Para naturalidad, la opción regional suele ganar.

🧠 Razonamiento / pensamiento

Modelos de razonamiento DeepSeek, o variantes con "thinking" activado de cada linaje. Fuertes en problemas difíciles y planificación.

🪶 Gama baja / ligero

Modelos pequeños de Phi (🇺🇸) o Gemma (🇺🇸), o Qwen/Llama 3–4B. Ágiles incluso en la clase 8 GB.

📚 Documentos largos

Un linaje con longitud de contexto larga (p. ej., variantes de Llama de contexto largo). Vigila el coste de memoria, eso sí.

💡 Lo que funciona para la mayoría: empezar por "el Qwen más grande que quepa en tu VRAM" —o un modelo regional en tu idioma— rara vez decepciona. Si se queda corto, pasa a una variante especializada (coder, etc.) o a un tamaño mayor.

7. Precauciones de licencia (uso comercial)

Si lo usas para trabajar o en un producto, la licencia no se puede pasar por alto. Incluso lo "abierto" viene con condiciones distintas. Confirma siempre el uso comercial y las condiciones en el distribuidor.

✅ Permisivas (fáciles para uso comercial)

La familia Apache 2.0 / MIT (p. ej., Qwen, Gemma※, Phi, gran parte de DeepSeek). Uso comercial sencillo, mucha libertad para integrar en productos.

⚠️ Condiciones propias

Algunos usan licencias propias (límites de escala, restricciones de uso, atribución). La licencia de Llama y la licencia Gemma tienen cláusulas a revisar. Léelas antes de un uso comercial.

8. Un flujo de selección y cómo empezar

Juntándolo todo, elegir son tres pasos.

  1. Decide el tamaño: a partir del techo de tu VRAM, elige el tamaño más grande que quepa (ver el artículo sobre requisitos de hardware).
  2. Elige el linaje según el caso de uso + origen: general = Qwen/Llama, programación = Qwen Coder/DeepSeek/GLM, tu idioma = Qwen/modelos regionales, ligero = Phi/Gemma. Para uso comercial, contrasta además la licencia y la política de adquisiciones.
  3. Descarga uno y pruébalo: si se queda corto, sube un tamaño o pasa a una variante especializada. Comparar varios con el mismo prompt es la forma más rápida.

💡 Empezar es fácil: con Ollama o LM Studio, solo eliges un nombre de modelo y lo descargas (p. ej., ollama pull qwen3: unos minutos). Instala varios y compáralos con la misma pregunta para encontrar rápido el que encaja contigo.

Resumen

Elegir un modelo de LLM local se reduce a tres puntos.

  • No hay todoterreno; elige según tres ejes: tamaño (techo de VRAM) × caso de uso × país de origen (licencia, adquisiciones, idioma).
  • Recuérdalo por linaje + país: Qwen/DeepSeek/GLM (🇨🇳), Llama/Gemma/Phi (🇺🇸), Mistral (🇫🇷), más modelos regionales para tu idioma (🇪🇺🇦🇪🇮🇳🇯🇵…). Las versiones avanzan rápido, así que sigue la pista por linaje.
  • Local significa que la entrada no sale: el origen importa sobre todo para la licencia, la política de adquisiciones y las fortalezas lingüísticas. Para uso comercial, revisar la licencia es imprescindible.

Si tienes dudas, empieza por "el Qwen más grande que quepa en tu VRAM" —o un modelo regional en tu idioma—. Luego ejecútalo, siente la diferencia con la nube y converge hacia el que mejor encaje con tu uso. Para los pasos de configuración, consulta cómo ejecutar un LLM local.

FAQ

Q. Entonces, ¿cuál instalo primero?

A. "El Qwen más grande (China, Alibaba) que quepa en tu VRAM", o un modelo ajustado a tu propio idioma, es un comienzo seguro: buen equilibrio entre capacidad polivalente, soporte multilingüe y rango de tamaños. Si la prioridad es la ligereza, el pequeño Phi (Microsoft, EE. UU.) o Gemma (Google, EE. UU.) también encajan bien.

Q. Si uso un modelo chino, ¿mi entrada se envía a China?

A. No. Mientras lo ejecutes de forma local, tu entrada nunca se envía a ningún sitio (se queda en tu PC). Esa es la diferencia decisiva frente a una API en la nube. El origen se relaciona principalmente con la licencia (condiciones comerciales), la política de adquisiciones de la organización y las fortalezas lingüísticas, no con adónde van tus datos.

Q. ¿Qué modelo local es bueno para mi idioma?

A. Qwen (fuerte en CJK) es un valor por defecto seguro. Para una salida más natural en tu propio idioma —matices, registro, contexto cultural—, un modelo regional/soberano creado para él (ver sección 4) es una opción potente. Prueba ambos para tu caso de uso y compáralos.

Q. ¿Los modelos pequeños son realmente útiles?

A. Bastante, según la tarea. Para el trabajo diario como chat, resúmenes, borradores y clasificación, una clase 3–7B funciona con holgura. Cuanto más complejo sea el razonamiento o más largo el contexto, más ayuda un tamaño mayor.

Q. ¿Qué debo tener en cuenta al usarlo en el trabajo?

A. La licencia y la política de adquisiciones son las máximas prioridades. Apache 2.0 y MIT son fáciles para uso comercial, mientras que las licencias propias (licencia de Llama, licencia Gemma, etc.) pueden conllevar condiciones de escala, uso o atribución. Algunas organizaciones también restringen la IA según el país de origen, así que confirma tanto las condiciones del distribuidor como tus normas internas antes de integrarlo en un producto.