Sommaire
- 1. L'essentiel : pas de gagnant unique — choisir par usage × taille (+ origine)
- 2. Les principales familles de modèles (avec éditeur et pays)
- 3. Qu'est-ce qui change selon le pays d'origine ?
- 4. Modèles français et européens
- 5. Recommandations par taille (modèles concrets)
- 6. Recommandations par cas d'usage
- 7. Précautions de licence (usage commercial)
- 8. Un parcours de sélection et le démarrage
- Résumé
- FAQ
Une fois que vous disposez d'un environnement pour faire tourner un LLM local, la question suivante est : « Quel modèle dois-je réellement installer ? » Llama, Qwen, Gemma, DeepSeek — les noms sont nombreux, et les entreprises et les pays qui se cachent derrière diffèrent aussi. Cet article classe les principaux modèles de 2026 par éditeur, pays d'origine, cas d'usage, taille et licence, pour que vous puissiez choisir le « premier » qui convient à votre PC et à vos objectifs.
D'abord une prémisse clé. Les modèles ouverts évoluent très vite (les versions ne cessent de monter sous le même nom). Cet article s'articule donc autour des « familles (lignées) + comment choisir par cas d'usage ». Ainsi, le raisonnement tient même quand une nouvelle version sort. Vérifiez toujours la dernière version et la licence chez le distributeur (Ollama / Hugging Face).
Pas « le plus puissant », mais « celui qui vous convient »
— L'éditeur, le pays, l'usage et la taille permettent de cibler
États-Unis
Llama / Gemma / Phi
Chine
Qwen / DeepSeek / GLM
Europe
Mistral / Teuken
& bien plus
Émirats / Inde / Japon
1. L'essentiel : pas de gagnant unique — choisir par usage × taille (+ origine)
La conclusion d'emblée : il n'existe pas de modèle universel qu'« il suffit d'installer pour être tranquille ». En local, ciblez selon ces trois points.
💡 Trois axes de choix : ① La taille (le plafond qui tient dans votre VRAM) = la limite des candidats. ② Le cas d'usage (généraliste, code, votre langue, raisonnement) = la lignée adaptée. ③ Le pays d'origine / l'éditeur (licence, politique d'achat, points forts linguistiques) = à ne pas négliger pour un usage professionnel.
2. Les principales familles de modèles (avec éditeur et pays)
La scène des LLM locaux en 2026 se résume à quelques grandes familles (lignées). Savoir qui les conçoit, et dans quel pays, rend le choix bien plus simple. D'abord, deux termes qui reviennent dans les cartes ci-dessous.
📖 Mini-glossaire
B (nombre de paramètres) = l'unité d'échelle d'un modèle. « B » signifie « milliard », donc 7B = 7 milliards, 70B = 70 milliards de paramètres. Plus c'est grand, plus c'est souvent intelligent, mais aussi plus lourd (consomme plus de VRAM).
MoE (Mixture of Experts) = au lieu de tout exécuter à chaque fois, seuls certains « experts » s'activent selon l'entrée. La taille totale peut donc être énorme tandis que la partie réellement exécutée reste légère et efficace.
Qwen
🇨🇳 Éditeur : Alibaba (Chine) / la plupart en Apache 2.0
Très polyvalent et solide en CJK (chinois/japonais/coréen). Des tailles allant de 3B à plusieurs centaines de B (MoE), avec des variantes spécialisées dans le code. Un premier choix pour beaucoup. Exemple : série Qwen3.
Llama
🇺🇸 Éditeur : Meta (États-Unis) / licence propre (à vérifier)
L'incontournable le plus largement adopté et riche en informations. Beaucoup d'exemples et de savoir-faire, donc facile à documenter. Un généraliste stable. Exemple : séries Llama 3.x / 4.
Gemma
🇺🇸 Éditeur : Google (États-Unis) / licence Gemma
Léger et efficace, avec une grande qualité même en tailles petites à moyennes. Des variantes multimodales existent. Un choix solide pour les PC peu puissants. Exemple : série Gemma 3.
DeepSeek
🇨🇳 Éditeur : DeepSeek (Chine) / R1 sous MIT, etc.
Fort en raisonnement et en code. Des versions petites distillées existent, ce qui permet de viser l'« intelligence » avec une VRAM limitée. Exemple : séries DeepSeek-R1 / V3.
Mistral
🇫🇷 Éditeur : Mistral AI (France / Europe)
De taille moyenne, réactif et bien équilibré. Le porte-étendard de la « souveraineté IA » européenne. Les plus petits sont souvent en Apache 2.0. Exemple : Mistral Small, etc.
Phi
🇺🇸 Éditeur : Microsoft (États-Unis) / MIT
Un spécialiste des petits modèles (SLM) dont l'argument est d'être intelligent malgré sa petite taille. Facile à faire tourner sur des PC/portables faibles de la classe 8 Go — idéal pour débuter. Exemple : série Phi-4.
Au-delà de ceux-ci, il y a GLM (🇨🇳 Zhipu AI, issu de Tsinghua — très apprécié pour le code), Falcon (🇦🇪 TII des Émirats) et Command (🇨🇦 Cohere — adapté au RAG). Partez de la grande lignée la plus proche de votre cas d'usage.
3. Qu'est-ce qui change selon le pays d'origine ?
« Le modèle de quel pays » crée des différences pratiques que la seule performance ne révèle pas. Pour éviter un malentendu courant, commençons par la prémisse clé.
✅ La prémisse clé : tant que vous l'exécutez en local, vos données d'entrée ne sont pas envoyées à l'extérieur (vers le pays de l'éditeur). C'est le plus grand avantage d'un LLM local. Donc « un modèle chinois = vos entrées partent en Chine » est faux (c'est différent d'une API cloud). L'origine compte surtout sur les trois points ci-dessous.
Licence et conditions commerciales
Les conditions varient selon l'éditeur. Apache 2.0 / MIT sont permissives ; les licences propres peuvent restreindre l'échelle, l'usage ou exiger une attribution. À vérifier avant un usage produit.
Politique des organisations / de l'État
Les administrations et grandes entreprises peuvent avoir des règles sur « l'autorisation ou non d'une IA d'un pays donné ». Traitez cela comme un point de achat / conformité à confirmer.
Forces linguistiques et culturelles
Les tendances des données d'entraînement façonnent les langues dans lesquelles un modèle excelle. Les modèles chinois sont forts en CJK ; les modèles conçus localement gagnent souvent sur les nuances de leur propre langue.
Un « caractère national » sommaire : 🇺🇸 États-Unis = le plus grand écosystème, riche en informations, généralement facile à prendre en main. 🇨🇳 Chine = en avance sur la performance et l'efficacité, beaucoup de licences permissives, mais certaines organisations doivent vérifier leur politique d'adoption. 🇪🇺 Europe = une posture de « souveraineté IA » soucieuse de la régulation, équilibrée. Autres régions = des modèles ajustés à leur propre langue (section suivante).
4. Modèles français et européens
Si vous travaillez principalement en français, les modèles conçus ou ajustés pour le français et l'Europe méritent le détour. Ils tendent à gagner sur le naturel de la langue, et ils sont plus faciles à adopter pour les organisations attachées à la « souveraineté IA ». Voici les efforts ouverts les plus notables côté français et européen.
🇫🇷 France
Mistral, le porte-étendard de la « souveraineté IA » européenne, Lucie-7B (OpenLLM-France, projet ouvert) et CroissantLLM (bilingue français/anglais, pensé pour bien équilibrer les deux langues).
🇪🇺 Europe
Teuken-7B (projet OpenGPT-X, entraîné sur les 24 langues officielles de l'UE) et Aleph Alpha (Allemagne), orienté usages souverains et entreprises. Des bases pensées pour le multilinguisme européen.
💡 Règle pratique : pour la pure polyvalence, une famille mondiale comme Qwen ; si vous privilégiez le naturel du français, des exigences de souveraineté ou l'explicabilité pour un usage public/professionnel, un modèle français ou européen. Testez les deux sur la même requête pour comparer (vérifiez la version et la licence chez chaque distributeur).
5. Recommandations par taille (modèles concrets)
Votre VRAM décide de la plage que vous pouvez exécuter. Voici les « points doux » par tranche de taille, avec des exemples concrets (tous en supposant la quantification Q4).
~4B (minuscule)
VRAM ~6 Go / entrée de gamme et portables
Phi-4 mini, Gemma 3 4B, Qwen3 4B, Llama 3.2 3B, etc. Pour le chat, le résumé, les tâches légères. Commencez ici.
7B–14B (standard)
VRAM 8–12 Go / usage quotidien
Qwen3 7B/14B, Llama 8B, Gemma 12B, etc. Le meilleur équilibre entre qualité et légèreté. Un excellent premier modèle au quotidien.
classe 32B (supérieure)
VRAM 24 Go / usage réel solide
Qwen Coder 32B, Mistral de taille moyenne, distillations de DeepSeek, etc. Une qualité fiable pour le code et les tâches élaborées.
70B+ (sérieux)
VRAM 40 Go+ / Mac à grande mémoire · multi-GPU
Llama 70B, gros DeepSeek, Qwen 72B, etc. Une qualité qui approche le cloud de milieu de gamme.
6. Recommandations par cas d'usage
Choisissez la lignée selon « ce pour quoi vous la voulez ». Voici les lignées qui conviennent aux cas d'usage typiques.
🧩 Généraliste / tout-terrain
Qwen (🇨🇳) ou Llama (🇺🇸). En cas de doute, partez d'une variante de taille de ces deux-là. Beaucoup d'informations, difficile de se tromper.
💻 Code
Qwen Coder, DeepSeek, GLM (tous des points forts 🇨🇳). La qualité fait un bond si une classe 32B tient.
🌐 Votre langue / multilingue
Qwen (fort en CJK) ou un modèle français/européen ajusté à votre langue (voir section 4). Pour le naturel, le choix régional l'emporte souvent.
🧠 Raisonnement / réflexion
Les modèles de raisonnement DeepSeek, ou les variantes « thinking » de chaque lignée. Forts sur les problèmes difficiles et la planification.
🪶 Faible config / léger
Les petits modèles Phi (🇺🇸) ou Gemma (🇺🇸), ou Qwen/Llama 3–4B. Réactifs même sur la classe 8 Go.
📚 Longs documents
Une lignée avec une grande longueur de contexte (par ex. les variantes Llama à long contexte). Attention toutefois au coût mémoire.
💡 Ce qui marche pour la plupart : partir du « plus grand Qwen qui tient dans votre VRAM » — ou d'un modèle régional dans votre langue — déçoit rarement. Si cela ne suffit pas, passez à une variante spécialisée (coder, etc.) ou à une taille supérieure.
7. Précautions de licence (usage commercial)
Si vous l'utilisez au travail ou dans un produit, la licence ne se néglige pas. Même « ouvert » s'accompagne de conditions différentes. Confirmez toujours l'usage commercial et les conditions chez le distributeur.
✅ Permissives (faciles pour le commercial)
La famille Apache 2.0 / MIT (par ex. Qwen, Gemma※, Phi, une grande partie de DeepSeek). Usage commercial facile, grande liberté pour l'intégration dans les produits.
⚠️ Conditions propres
Certains utilisent des licences propres (limites d'échelle, restrictions d'usage, attribution). La licence Llama et la licence Gemma comportent des clauses à vérifier. Lisez-les avant un usage commercial.
8. Un parcours de sélection et le démarrage
En réunissant tout cela, le choix tient en trois étapes.
- Décidez de la taille : à partir du plafond de votre VRAM, choisissez la plus grande taille qui tient (voir l'article sur les prérequis matériels).
- Choisissez la lignée par cas d'usage + origine : généraliste = Qwen/Llama, code = Qwen Coder/DeepSeek/GLM, votre langue = Qwen/modèles régionaux, léger = Phi/Gemma. Pour un usage commercial, recoupez aussi la licence et la politique d'achat.
- Téléchargez-en un et testez : si cela ne suffit pas, montez d'une taille ou passez à une variante spécialisée. Comparer plusieurs modèles sur la même requête est la voie la plus rapide.
💡 Démarrer est facile : avec Ollama ou LM Studio, il suffit de choisir un nom de modèle et de télécharger (par ex. ollama pull qwen3 — quelques minutes). Installez-en plusieurs et comparez-les sur la même question pour trouver vite celui qui vous convient.
Résumé
Le choix d'un modèle de LLM local se résume à trois points.
- Pas de modèle universel ; choisir sur trois axes : taille (plafond de VRAM) × cas d'usage × pays d'origine (licence, achat, langue).
- Retenez par lignée + pays : Qwen/DeepSeek/GLM (🇨🇳), Llama/Gemma/Phi (🇺🇸), Mistral (🇫🇷), ainsi que des modèles régionaux pour votre langue (🇪🇺🇦🇪🇮🇳🇯🇵…). Les versions évoluent vite, suivez donc par lignée.
- Local signifie que les entrées ne sortent pas : l'origine compte surtout pour la licence, la politique d'achat et les forces linguistiques. Pour un usage commercial, vérifier la licence est indispensable.
En cas de doute, partez du « plus grand Qwen qui tient dans votre VRAM » — ou d'un modèle régional dans votre langue. Ensuite, faites-le tourner, ressentez la différence avec le cloud, et convergez vers celui qui correspond le mieux à votre usage. Pour les étapes d'installation, voir comment faire tourner un LLM local.
FAQ
Q. Alors lequel installer en premier ?
A. « Le plus grand Qwen (Chine, Alibaba) qui tient dans votre VRAM », ou un modèle ajusté à votre propre langue, est un démarrage sûr — bon équilibre entre polyvalence, prise en charge multilingue et gamme de tailles. Si la légèreté prime, les petits Phi (Microsoft, États-Unis) ou Gemma (Google, États-Unis) s'accordent bien aussi.
Q. Si j'utilise un modèle chinois, mes entrées partent-elles en Chine ?
A. Non. Tant que vous l'exécutez en local, vos entrées ne sont jamais envoyées nulle part (elles restent sur votre PC). C'est la différence décisive avec une API cloud. L'origine concerne surtout la licence (conditions commerciales), la politique d'achat des organisations et les forces linguistiques — pas l'endroit où vont vos données.
Q. Quel modèle local convient pour ma langue ?
A. Qwen (fort en CJK) est un choix par défaut sûr. Pour une sortie plus naturelle dans votre propre langue — nuances, registres de politesse, contexte culturel — un modèle régional/souverain conçu pour elle (voir section 4) est une option solide. Testez les deux pour votre cas d'usage et comparez.
Q. Les petits modèles sont-ils vraiment utilisables ?
A. Largement, selon la tâche. Pour le travail quotidien comme le chat, le résumé, la rédaction et la classification, une classe 3–7B tourne confortablement. Plus le raisonnement est complexe ou le contexte long, plus une taille supérieure aide.
Q. À quoi faire attention pour un usage professionnel ?
A. La licence et la politique d'achat sont les priorités numéro un. Apache 2.0 et MIT sont faciles pour l'usage commercial, tandis que les licences propres (licence Llama, licence Gemma, etc.) peuvent imposer des conditions d'échelle, d'usage ou d'attribution. Certaines organisations restreignent aussi l'IA selon le pays d'origine, alors confirmez à la fois les conditions du distributeur et vos règles internes avant de l'intégrer dans un produit.