Al empezar con un LLM local, la herramienta de referencia que conviene instalar primero es Ollama. Se encarga por ti de casi toda la configuración engorrosa, de modo que puedes descargar un modelo y empezar a chatear con un solo comando. Este artículo recorre la instalación, los comandos principales, la elección de modelos, las interfaces gráficas, el uso de la API, la personalización y la resolución de problemas: de principio a fin, para principiantes.

La conclusión primero: Ollama es como "Docker para LLM". Basta con escribir ollama run y descarga, arranca y te deja chatear con un modelo cuantizado. Primero hazlo funcionar y, una vez que te sientas cómodo, intégralo en tus propias apps a través de la API. Lo veremos en ese orden.

LOCAL LLM RUNTIME

Un comando, un LLM local

— Se encarga por ti de casi toda la complejidad de la configuración

$ ollama pull qwen3
$ ollama run qwen3
>>> ¡Hola! ¿Qué puedes hacer?

✅ Gratis / OSS

🖥️ Win/Mac/Linux

🔌 API local

⏱️ Minutos para configurar

1. ¿Qué es Ollama? El runtime de referencia para LLM locales

Ollama es una herramienta gratuita y de código abierto para ejecutar LLM locales con facilidad en tu propio PC. Se ocupa entre bastidores de lo engorroso —descargar modelos, gestionar los formatos de cuantización, configurar el uso de la GPU—, de modo que tú solo tienes que "indicar un modelo y ejecutarlo".

💡 En pocas palabras: Ollama es "Docker para LLM". Descarga un modelo con ollama pull y chatea con ollama run. Además levanta un servidor de API local, así que tus propias apps e interfaces de chat también pueden invocarlo.

Una herramienta parecida es LM Studio. A grandes rasgos: Ollama = orientada a la línea de comandos, para desarrolladores, APIs y automatización; LM Studio = orientada a la interfaz gráfica, para personas sin perfil técnico que empiezan. Ambas son gratuitas y se instalan en minutos. Este artículo se centra en Ollama (que abarca también las APIs y la integración); si quieres una interfaz gráfica, salta a la Sección 5.

2. Instalación (Win / Mac / Linux)

Solo tienes que descargar el instalador del sitio oficial, ollama.com. Este es el procedimiento por sistema operativo.

🪟 Windows / 🍎 Mac

Solo descarga la aplicación del sitio oficial y ejecútala. Al iniciar la aplicación también se arranca el servidor de API en segundo plano. Después, el comando ollama queda disponible en tu terminal (PowerShell / Terminal).

🐧 Linux

Instálalo con el script oficial de una sola línea. También es muy adecuado para uso en servidores y despliegues con Docker (hay una imagen oficial de Docker disponible).

🔌 Comprueba que funciona: tras la instalación, ollama --version debería mostrar una versión. Tu primer modelo es solo una línea: ollama run qwen3 (la primera ejecución dispara una descarga).

3. Comandos esenciales de un vistazo

Hay muy pocos comandos que aprender. Aquí los tienes, empezando por los más usados.

ollama run <model>

Arranca un modelo y chatea. Lo descarga primero si no está presente. Sal con /bye.

ollama pull <model>

Solo descarga un modelo (sin chatear). Práctico para descargarlo por adelantado.

ollama list

Muestra los modelos descargados y sus tamaños (ollama ls también funciona).

ollama ps

Muestra los modelos en ejecución actualmente (cargados en memoria).

ollama rm <model>

Elimina un modelo para liberar espacio en disco.

ollama serve

Inicia el servidor de API (por defecto localhost:11434). Automático en Win/Mac al iniciar la aplicación.

4. Obtener y elegir modelos

Indica un modelo por nombre + etiqueta de tamaño. Por ejemplo, llama3.2 es el tamaño estándar y llama3.2:3b es la versión de 3B. La regla general: elige un tamaño que quepa en tu VRAM.

# Prueba un modelo ligero (para empezar)
ollama run gemma3:4b
# Un todoterreno sólido, fuerte en multilingüe
ollama run qwen3
# Para programar
ollama run qwen3-coder

💡 ¿Qué modelo? Decídelo según el caso de uso (general / programación / tu idioma) y el tamaño. Para recomendaciones por familia y caso de uso, consulta nuestra comparativa de los mejores modelos LLM locales; para la VRAM que necesita cada tamaño, mira el artículo de requisitos de hardware. Si dudas, empieza por algo pequeño (clase 7B).

5. Usar una interfaz gráfica (Open WebUI y más)

¿No te gusta la terminal? No hay problema: puedes poner una pantalla de chat (interfaz gráfica) encima de Ollama.

Open WebUI

Una popular pantalla al estilo de ChatGPT que conectas a tu Ollama local. Admite historial de conversaciones, cambio de modelo y varios usuarios.

¿Quieres una interfaz gráfica desde el principio? LM Studio

Una sola aplicación que gestiona la búsqueda, la descarga y el chat de modelos. Ideal para personas sin perfil técnico que empiezan. En Apple Silicon puede ser rápido gracias al formato MLX.

6. Usar la API (intégrala en tus apps)

La verdadera fortaleza de Ollama es su API local. El servidor se ejecuta en localhost:11434 y, al enviarle peticiones, tus propias apps, scripts y herramientas pueden usar un LLM local.

API nativa

POST localhost:11434
 /api/chat
 /api/generate

El formato simple y propio de Ollama.

API compatible con OpenAI

POST localhost:11434
 /v1/chat/completions

Reutiliza código existente de OpenAI solo cambiando el endpoint.

🔌 La compatibilidad con OpenAI es potente: muchas bibliotecas y herramientas admiten la API de OpenAI. Apúntalas al endpoint /v1 de Ollama y podrás usar local en lugar de la nube: un práctico recurso de respaldo cuando la nube se cae.

7. Personalización (Modelfile, variables de entorno)

Es de sobra útil tal cual viene, pero hay dos cosas que conviene conocer si quieres ir más allá.

📝 Modelfile

Un archivo de configuración parecido a un Dockerfile. Añade un system prompt y parámetros a un modelo base para crear "tu propio modelo" (por ejemplo, uno que siempre responda en un español cortés).

⚙️ Variables de entorno

Ajusta el funcionamiento con OLLAMA_HOST (cambia la dirección de escucha para usarlo desde otros dispositivos de tu red local), OLLAMA_MODELS (ruta de almacenamiento de modelos, por ejemplo para moverlos a otra unidad) y más.

8. Resolución de problemas

Aquí tienes, de antemano, los tropiezos habituales y sus soluciones.

Va lento o se queda colgado

Probablemente el modelo no quepa por completo en la VRAM. Baja un tamaño o usa una versión cuantizada de forma más agresiva.

Se cierra por falta de memoria

Reserva al menos 8 GB de RAM para 7B y 16 GB para 13B en adelante. Las entradas largas consumen aún más, así que acorta la longitud de contexto.

La API no conecta

Comprueba que ollama serve esté en ejecución y que el puerto 11434 esté libre. Si la aplicación no está abierta, la API también está caída.

No se encuentra el modelo

Suele ser un error tipográfico en el nombre o la etiqueta de tamaño. Comprueba el nombre correcto en la lista oficial de modelos.

Resumen

Ollama es la vía más rápida para iniciarse en los LLM locales. Tres ideas clave:

  • Configúralo en minutos: instálalo desde el sitio oficial y luego solo ollama run <model>. Muy pocos comandos que aprender.
  • Elige modelos por tamaño: mantente dentro de tu VRAM. Si dudas, empieza por la clase 7B y elige una familia según el caso de uso.
  • La API es el verdadero valor: la API compatible con OpenAI en localhost:11434 te permite integrarlo en tus propias apps e interfaces de chat, y servir como respaldo de la nube.

Empieza escribiendo ollama run qwen3. La mejor forma de aprender es ejecutarlo mientras consultas las diferencias con la nube y cómo elegir un modelo.

FAQ

Q. ¿Ollama es gratis? ¿Puedo usarlo comercialmente?

A. Ollama en sí es gratuito y de código abierto. Sin embargo, cada modelo que ejecutas tiene su propia licencia y el uso comercial depende del modelo. Revisa los términos de cada modelo antes de usarlo en un producto (consulta la sección de licencias de nuestra comparativa de modelos).

Q. Ollama o LM Studio, ¿cuál es mejor?

A. Para comandos, APIs, automatización e integración en tus propias apps, Ollama; si quieres empezar fácil con una interfaz gráfica, LM Studio. Ambos son gratuitos, así que si dudas, instala los dos y compáralos.

Q. ¿Se envían mis datos al exterior?

A. La inferencia en Ollama se mantiene por completo en tu PC; tu entrada no se envía fuera (salvo la descarga inicial del modelo). Esa es una gran ventaja de los LLM locales.

Q. ¿Puedo usarlo con código existente de OpenAI?

A. Sí. Ollama expone una API compatible con OpenAI en localhost:11434/v1, así que en la mayoría de los casos solo cambias la URL del endpoint y el nombre del modelo. Práctico para pasar de la nube a local, o como respaldo.

Q. ¿Qué tipo de PC necesito?

A. Como orientación, al menos 8 GB de RAM para modelos 7B y 16 GB o más para 13B en adelante. Para mayor comodidad, ayuda una GPU compatible (8 GB o más de VRAM) o un Mac con abundante memoria unificada. Consulta el artículo de requisitos de hardware para más detalles.