Quand on débute avec un LLM en local, l'outil de référence à installer en premier est Ollama. Il prend en charge à votre place presque toute la configuration fastidieuse : vous pouvez ainsi télécharger un modèle et commencer à discuter avec une seule commande. Cet article passe en revue l'installation, les commandes de base, le choix des modèles, les interfaces graphiques, l'utilisation de l'API, la personnalisation et le dépannage — de bout en bout, pour les débutants.

Pour aller à l'essentiel : Ollama, c'est un peu « Docker pour les LLM ». Tapez simplement ollama run et il récupère, lance et vous permet de discuter avec un modèle quantifié. Faites-le tourner d'abord, puis — une fois à l'aise — intégrez-le dans vos propres applications via l'API. Nous allons le voir dans cet ordre.

LOCAL LLM RUNTIME

Une commande, un LLM en local

— Il prend en charge à votre place presque toute la configuration

$ ollama pull qwen3
$ ollama run qwen3
>>> Bonjour ! Que sais-tu faire ?

✅ Gratuit / open source

🖥️ Win/Mac/Linux

🔌 API locale

⏱️ Quelques minutes pour démarrer

1. Qu'est-ce qu'Ollama ? Le runtime de référence pour LLM en local

Ollama est un outil gratuit et open source pour faire tourner facilement des LLM en local sur votre propre PC. Il prend en charge les tâches fastidieuses — téléchargement des modèles, gestion des formats de quantification, configuration de l'utilisation du GPU — en coulisses, de sorte qu'il vous suffit de « nommer un modèle et de le lancer ».

💡 En résumé : Ollama, c'est « Docker pour les LLM ». Récupérez un modèle avec ollama pull, discutez avec ollama run. Il lance aussi un serveur d'API local, pour que vos propres applications et interfaces de chat puissent l'appeler également.

Un outil similaire est LM Studio. En gros : Ollama = orienté ligne de commande, pour les développeurs, les API et l'automatisation ; LM Studio = orienté interface graphique, pour les non-techniciens qui débutent. Tous deux sont gratuits et s'installent en quelques minutes. Cet article se concentre sur Ollama (qui couvre aussi les API et l'intégration) ; si vous voulez une interface graphique, passez à la section 5.

2. Installation (Win / Mac / Linux)

Il suffit de récupérer l'installateur sur le site officiel, ollama.com. Voici la marche à suivre selon le système d'exploitation.

🪟 Windows / 🍎 Mac

Téléchargez simplement l'application depuis le site officiel et lancez-la. Le lancement de l'application démarre aussi le serveur d'API en arrière-plan. Ensuite, la commande ollama est disponible dans votre terminal (PowerShell / Terminal).

🐧 Linux

Installez-le avec le script officiel d'une seule ligne. Bien adapté également à un usage serveur et aux déploiements Docker (une image Docker officielle est disponible).

🔌 Vérifiez que ça marche : après l'installation, ollama --version doit afficher un numéro de version. Votre premier modèle tient en une seule ligne : ollama run qwen3 (le premier lancement déclenche un téléchargement).

3. Les commandes essentielles en un coup d'œil

Il y a très peu de commandes à apprendre. Les voici, les plus utilisées en premier.

ollama run <model>

Lance un modèle et ouvre le chat. Le télécharge d'abord s'il est absent. Quittez avec /bye.

ollama pull <model>

Télécharge un modèle uniquement (sans chat). Pratique pour le récupérer à l'avance.

ollama list

Affiche les modèles téléchargés et leur taille (ollama ls fonctionne aussi).

ollama ps

Affiche les modèles actuellement en cours d'exécution (chargés en mémoire).

ollama rm <model>

Supprime un modèle pour libérer de l'espace disque.

ollama serve

Démarre le serveur d'API (par défaut localhost:11434). Automatique sur Win/Mac au lancement de l'application.

4. Récupérer et choisir des modèles

On désigne un modèle par son nom + une étiquette de taille. Par exemple, llama3.2 correspond à la taille standard, et llama3.2:3b à la version 3B. La règle d'or : choisir une taille qui tient dans votre VRAM.

# Essayer un modèle léger (pour débuter)
ollama run gemma3:4b
# Un bon polyvalent, solide en multilingue
ollama run qwen3
# Pour le code
ollama run qwen3-coder

💡 Quel modèle choisir ? Décidez selon l'usage (généraliste / code / votre langue) et la taille. Pour des suggestions par famille et par cas d'usage, voir notre comparatif des meilleurs modèles de LLM en local ; pour la VRAM requise par taille, voir l'article sur la configuration matérielle. En cas de doute, commencez petit (catégorie 7B).

5. Utiliser une interface graphique (Open WebUI et autres)

Vous n'aimez pas le terminal ? Pas de souci — vous pouvez poser un écran de chat (interface graphique) par-dessus Ollama.

Open WebUI

Un écran populaire façon ChatGPT que vous connectez à votre Ollama local. Prend en charge l'historique des conversations, le changement de modèle et les utilisateurs multiples.

Vous voulez une interface graphique dès le départ ? LM Studio

Une seule application qui gère la recherche, le téléchargement et le chat des modèles. Idéal pour les non-techniciens qui débutent. Sur Apple Silicon, il peut être rapide grâce au format MLX.

6. Utiliser l'API (l'intégrer dans vos apps)

Le vrai atout d'Ollama, c'est son API locale. Le serveur tourne sur localhost:11434, et en lui envoyant des requêtes, vos propres applications, scripts et outils peuvent utiliser un LLM en local.

API native

POST localhost:11434
 /api/chat
 /api/generate

Le format simple, propre à Ollama.

API compatible OpenAI

POST localhost:11434
 /v1/chat/completions

Réutilisez du code OpenAI existant en changeant simplement le point de terminaison.

🔌 La compatibilité OpenAI est puissante : de nombreuses bibliothèques et outils prennent en charge l'API d'OpenAI. Pointez-les vers le point de terminaison /v1 d'Ollama et vous pouvez utiliser le local à la place du cloud — une solution de repli pratique en cas de panne du cloud.

7. Personnalisation (Modelfile, variables d'environnement)

C'est déjà très utile tel quel, mais deux choses méritent d'être connues si vous voulez aller plus loin.

📝 Modelfile

Un fichier de configuration comparable à un Dockerfile. Ajoutez un system prompt et des paramètres à un modèle de base pour créer « votre propre modèle » (par exemple, un modèle qui répond toujours dans un français soutenu).

⚙️ Variables d'environnement

Ajustez le fonctionnement avec OLLAMA_HOST (changer l'adresse d'écoute pour l'utiliser depuis d'autres appareils de votre réseau local), OLLAMA_MODELS (chemin de stockage des modèles, par exemple pour les déplacer vers un autre disque), et d'autres.

8. Dépannage

Voici, d'emblée, les écueils courants et leurs solutions.

Lent ou qui se bloque

Le modèle ne tient probablement pas entièrement dans la VRAM. Passez à une taille inférieure, ou utilisez une version plus fortement quantifiée.

Plantages par manque de mémoire

Prévoyez au moins 8 Go de RAM pour du 7B, 16 Go pour du 13B et plus. Les entrées longues en consomment encore davantage, alors réduisez la longueur de contexte.

L'API ne se connecte pas

Vérifiez que ollama serve tourne et que le port 11434 est libre. Si l'application n'est pas lancée, l'API est aussi hors service.

Modèle introuvable

En général une faute de frappe dans le nom ou l'étiquette de taille. Vérifiez le nom exact dans la liste officielle des modèles.

Conclusion

Ollama est le moyen le plus rapide de se lancer dans les LLM en local. Trois points à retenir :

  • Installation en quelques minutes : installez depuis le site officiel, puis tapez simplement ollama run <model>. Très peu de commandes à apprendre.
  • Choisissez les modèles par taille : restez dans les limites de votre VRAM. En cas de doute, partez de la catégorie 7B et choisissez une famille selon l'usage.
  • L'API, c'est la vraie valeur : l'API compatible OpenAI sur localhost:11434 vous permet de l'intégrer dans vos propres applications et interfaces de chat — et de servir de solution de repli au cloud.

Commencez par taper ollama run qwen3. La meilleure façon d'apprendre, c'est de le faire tourner tout en examinant les différences avec le cloud et la manière de choisir un modèle.

FAQ

Q. Ollama est-il gratuit ? Puis-je l'utiliser à des fins commerciales ?

R. Ollama lui-même est gratuit et open source. En revanche, chaque modèle que vous faites tourner a sa propre licence, et l'usage commercial dépend du modèle. Vérifiez les conditions de chaque modèle avant un usage produit (voir la section sur les licences de notre comparatif de modèles).

Q. Ollama ou LM Studio — lequel est le meilleur ?

R. Pour les commandes, les API, l'automatisation et l'intégration dans vos propres applications, Ollama ; si vous voulez démarrer facilement avec une interface graphique, LM Studio. Les deux sont gratuits, donc en cas de doute, installez-les tous les deux et comparez.

Q. Mes données sont-elles envoyées à l'extérieur ?

R. L'inférence dans Ollama reste entièrement sur votre PC ; vos entrées ne sont pas transmises (hormis le téléchargement initial du modèle). C'est un grand avantage des LLM en local.

Q. Puis-je l'utiliser avec du code OpenAI existant ?

R. Oui. Ollama expose une API compatible OpenAI sur localhost:11434/v1, donc dans la plupart des cas il suffit de changer l'URL du point de terminaison et le nom du modèle. Pratique pour passer du cloud au local, ou comme solution de repli.

Q. De quel type de PC ai-je besoin ?

R. À titre indicatif, au moins 8 Go de RAM pour les modèles 7B et 16 Go ou plus pour du 13B et au-delà. Pour plus de confort, un GPU compatible (8 Go de VRAM ou plus) ou un Mac doté d'une mémoire unifiée généreuse aide. Voir l'article sur la configuration matérielle pour les détails.