Índice
- 1. ¿Qué es Ollama? El runtime de referencia para LLM locales
- 2. Instalación (Win / Mac / Linux)
- 3. Comandos esenciales de un vistazo
- 4. Obtener y elegir modelos
- 5. Usar una interfaz gráfica (Open WebUI y más)
- 6. Usar la API (intégrala en tus apps)
- 7. Personalización (Modelfile, variables de entorno)
- 8. Resolución de problemas
- Resumen
- FAQ
Al empezar con un LLM local, la herramienta de referencia que conviene instalar primero es Ollama. Se encarga por ti de casi toda la configuración engorrosa, de modo que puedes descargar un modelo y empezar a chatear con un solo comando. Este artículo recorre la instalación, los comandos principales, la elección de modelos, las interfaces gráficas, el uso de la API, la personalización y la resolución de problemas: de principio a fin, para principiantes.
La conclusión primero: Ollama es como "Docker para LLM". Basta con escribir ollama run y descarga, arranca y te deja chatear con un modelo cuantizado. Primero hazlo funcionar y, una vez que te sientas cómodo, intégralo en tus propias apps a través de la API. Lo veremos en ese orden.
Un comando, un LLM local
— Se encarga por ti de casi toda la complejidad de la configuración
✅ Gratis / OSS
🖥️ Win/Mac/Linux
🔌 API local
⏱️ Minutos para configurar
1. ¿Qué es Ollama? El runtime de referencia para LLM locales
Ollama es una herramienta gratuita y de código abierto para ejecutar LLM locales con facilidad en tu propio PC. Se ocupa entre bastidores de lo engorroso —descargar modelos, gestionar los formatos de cuantización, configurar el uso de la GPU—, de modo que tú solo tienes que "indicar un modelo y ejecutarlo".
💡 En pocas palabras: Ollama es "Docker para LLM". Descarga un modelo con ollama pull y chatea con ollama run. Además levanta un servidor de API local, así que tus propias apps e interfaces de chat también pueden invocarlo.
Una herramienta parecida es LM Studio. A grandes rasgos: Ollama = orientada a la línea de comandos, para desarrolladores, APIs y automatización; LM Studio = orientada a la interfaz gráfica, para personas sin perfil técnico que empiezan. Ambas son gratuitas y se instalan en minutos. Este artículo se centra en Ollama (que abarca también las APIs y la integración); si quieres una interfaz gráfica, salta a la Sección 5.
2. Instalación (Win / Mac / Linux)
Solo tienes que descargar el instalador del sitio oficial, ollama.com. Este es el procedimiento por sistema operativo.
🪟 Windows / 🍎 Mac
Solo descarga la aplicación del sitio oficial y ejecútala. Al iniciar la aplicación también se arranca el servidor de API en segundo plano. Después, el comando ollama queda disponible en tu terminal (PowerShell / Terminal).
🐧 Linux
Instálalo con el script oficial de una sola línea. También es muy adecuado para uso en servidores y despliegues con Docker (hay una imagen oficial de Docker disponible).
🔌 Comprueba que funciona: tras la instalación, ollama --version debería mostrar una versión. Tu primer modelo es solo una línea: ollama run qwen3 (la primera ejecución dispara una descarga).
3. Comandos esenciales de un vistazo
Hay muy pocos comandos que aprender. Aquí los tienes, empezando por los más usados.
ollama run <model>
Arranca un modelo y chatea. Lo descarga primero si no está presente. Sal con /bye.
ollama pull <model>
Solo descarga un modelo (sin chatear). Práctico para descargarlo por adelantado.
ollama list
Muestra los modelos descargados y sus tamaños (ollama ls también funciona).
ollama ps
Muestra los modelos en ejecución actualmente (cargados en memoria).
ollama rm <model>
Elimina un modelo para liberar espacio en disco.
ollama serve
Inicia el servidor de API (por defecto localhost:11434). Automático en Win/Mac al iniciar la aplicación.
4. Obtener y elegir modelos
Indica un modelo por nombre + etiqueta de tamaño. Por ejemplo, llama3.2 es el tamaño estándar y llama3.2:3b es la versión de 3B. La regla general: elige un tamaño que quepa en tu VRAM.
💡 ¿Qué modelo? Decídelo según el caso de uso (general / programación / tu idioma) y el tamaño. Para recomendaciones por familia y caso de uso, consulta nuestra comparativa de los mejores modelos LLM locales; para la VRAM que necesita cada tamaño, mira el artículo de requisitos de hardware. Si dudas, empieza por algo pequeño (clase 7B).
5. Usar una interfaz gráfica (Open WebUI y más)
¿No te gusta la terminal? No hay problema: puedes poner una pantalla de chat (interfaz gráfica) encima de Ollama.
Una popular pantalla al estilo de ChatGPT que conectas a tu Ollama local. Admite historial de conversaciones, cambio de modelo y varios usuarios.
¿Quieres una interfaz gráfica desde el principio? LM Studio
Una sola aplicación que gestiona la búsqueda, la descarga y el chat de modelos. Ideal para personas sin perfil técnico que empiezan. En Apple Silicon puede ser rápido gracias al formato MLX.
6. Usar la API (intégrala en tus apps)
La verdadera fortaleza de Ollama es su API local. El servidor se ejecuta en localhost:11434 y, al enviarle peticiones, tus propias apps, scripts y herramientas pueden usar un LLM local.
API nativa
POST localhost:11434
/api/chat
/api/generate
El formato simple y propio de Ollama.
API compatible con OpenAI
POST localhost:11434
/v1/chat/completions
Reutiliza código existente de OpenAI solo cambiando el endpoint.
🔌 La compatibilidad con OpenAI es potente: muchas bibliotecas y herramientas admiten la API de OpenAI. Apúntalas al endpoint /v1 de Ollama y podrás usar local en lugar de la nube: un práctico recurso de respaldo cuando la nube se cae.
7. Personalización (Modelfile, variables de entorno)
Es de sobra útil tal cual viene, pero hay dos cosas que conviene conocer si quieres ir más allá.
📝 Modelfile
Un archivo de configuración parecido a un Dockerfile. Añade un system prompt y parámetros a un modelo base para crear "tu propio modelo" (por ejemplo, uno que siempre responda en un español cortés).
⚙️ Variables de entorno
Ajusta el funcionamiento con OLLAMA_HOST (cambia la dirección de escucha para usarlo desde otros dispositivos de tu red local), OLLAMA_MODELS (ruta de almacenamiento de modelos, por ejemplo para moverlos a otra unidad) y más.
8. Resolución de problemas
Aquí tienes, de antemano, los tropiezos habituales y sus soluciones.
Va lento o se queda colgado
Probablemente el modelo no quepa por completo en la VRAM. Baja un tamaño o usa una versión cuantizada de forma más agresiva.
Se cierra por falta de memoria
Reserva al menos 8 GB de RAM para 7B y 16 GB para 13B en adelante. Las entradas largas consumen aún más, así que acorta la longitud de contexto.
La API no conecta
Comprueba que ollama serve esté en ejecución y que el puerto 11434 esté libre. Si la aplicación no está abierta, la API también está caída.
No se encuentra el modelo
Suele ser un error tipográfico en el nombre o la etiqueta de tamaño. Comprueba el nombre correcto en la lista oficial de modelos.
Resumen
Ollama es la vía más rápida para iniciarse en los LLM locales. Tres ideas clave:
- Configúralo en minutos: instálalo desde el sitio oficial y luego solo
ollama run <model>. Muy pocos comandos que aprender. - Elige modelos por tamaño: mantente dentro de tu VRAM. Si dudas, empieza por la clase 7B y elige una familia según el caso de uso.
- La API es el verdadero valor: la API compatible con OpenAI en
localhost:11434te permite integrarlo en tus propias apps e interfaces de chat, y servir como respaldo de la nube.
Empieza escribiendo ollama run qwen3. La mejor forma de aprender es ejecutarlo mientras consultas las diferencias con la nube y cómo elegir un modelo.
FAQ
Q. ¿Ollama es gratis? ¿Puedo usarlo comercialmente?
A. Ollama en sí es gratuito y de código abierto. Sin embargo, cada modelo que ejecutas tiene su propia licencia y el uso comercial depende del modelo. Revisa los términos de cada modelo antes de usarlo en un producto (consulta la sección de licencias de nuestra comparativa de modelos).
Q. Ollama o LM Studio, ¿cuál es mejor?
A. Para comandos, APIs, automatización e integración en tus propias apps, Ollama; si quieres empezar fácil con una interfaz gráfica, LM Studio. Ambos son gratuitos, así que si dudas, instala los dos y compáralos.
Q. ¿Se envían mis datos al exterior?
A. La inferencia en Ollama se mantiene por completo en tu PC; tu entrada no se envía fuera (salvo la descarga inicial del modelo). Esa es una gran ventaja de los LLM locales.
Q. ¿Puedo usarlo con código existente de OpenAI?
A. Sí. Ollama expone una API compatible con OpenAI en localhost:11434/v1, así que en la mayoría de los casos solo cambias la URL del endpoint y el nombre del modelo. Práctico para pasar de la nube a local, o como respaldo.
Q. ¿Qué tipo de PC necesito?
A. Como orientación, al menos 8 GB de RAM para modelos 7B y 16 GB o más para 13B en adelante. Para mayor comodidad, ayuda una GPU compatible (8 GB o más de VRAM) o un Mac con abundante memoria unificada. Consulta el artículo de requisitos de hardware para más detalles.