当你已经搭好运行本地 LLM 的环境,下一个问题就是:「到底该装哪个模型?」Llama、Qwen、Gemma、DeepSeek……名字很多,而且背后的公司和国家也各不相同。本文把 2026 年的主流模型按开发方、出身国、用途、大小和许可证整理清楚,帮你选出最适合你的电脑和目标的「第一个」。

先说一个关键前提。开源模型更新非常快(同一个名字下版本不断攀升)。所以本文围绕「家族(谱系)+按用途选型」来展开。这样即便有新版本发布,思路也依然成立。请务必在分发方(Ollama / Hugging Face)核实最新版本和许可证。

LOCAL LLM · MODELS

不是「最强的那个」,而是「最适合你的那个」

— 开发方、国家、用途与大小帮你缩小范围

🇨🇳

中国

Qwen / DeepSeek / GLM

🇺🇸

美国

Llama / Gemma / Phi

🇪🇺

欧洲

Mistral / Teuken

🌍

还有更多

UAE / India / Japan

1. 结论:没有唯一赢家——按用途×大小(+出身国)来选

结论先行:不存在「装上就万事大吉」的全能模型。对于本地运行,从以下三点来缩小范围才对。

💡 选型的三个维度:① 大小(能装进你VRAM 的上限)=候选的天花板。② 用途(通用、编程、你的语言、推理)=适合哪个谱系。③ 出身国/开发方(许可证、采购政策、语言强项)=在工作中使用就不能忽视。

2. 主要模型家族一览(含开发方与国家)

2026 年的本地 LLM 局面,归根结底就是几个主要家族(谱系)。搞清楚是谁、在哪个国家开发的,选起来会轻松很多。先看下面卡片中会出现的两个术语。

📖 迷你术语解释

B(参数量)=表示模型规模的单位。「B」是「billion=十亿」,所以 7B=70 亿、70B=700 亿参数。越大通常越聪明,但也越重(占用更多 VRAM)

MoE(混合专家)=不是每次都把所有部分都跑一遍,而是每个输入只激活一部分「专家」。因此总规模可以非常巨大,而实际运行的部分却保持轻量高效。

Qwen

🇨🇳 开发方:Alibaba(中国)/多为 Apache 2.0

综合能力强,在中文及 CJK(中日韩)上尤为出色。从 3B 到数百 B(MoE)大小覆盖很广,还有编程特化版。许多人的首选。代表:Qwen3 系列。

Llama

🇺🇸 开发方:Meta(美国)/自定义许可证(需核实)

广泛采用、资料丰富的常青树。范例和经验很多,遇到问题容易查。稳定的通才。代表:Llama 3.x/4 系列。

Gemma

🇺🇸 开发方:Google(美国)/Gemma 许可证

轻量高效,即便中小尺寸也有很高质量。也有多模态版本。低配电脑的有力之选。代表:Gemma 3 系列。

DeepSeek

🇨🇳 开发方:DeepSeek(中国)/R1 为 MIT 等

推理与编程很强。有蒸馏出来的小型版,可以在有限 VRAM 上追求「聪明」。代表:DeepSeek-R1/V3 系列。

Mistral

🇫🇷 开发方:Mistral AI(法国/欧洲)

中等尺寸,响应快、平衡好。欧洲「主权 AI」的旗手。较小的版本多为 Apache 2.0。代表:Mistral Small 等。

Phi

🇺🇸 开发方:Microsoft(美国)/MIT

主打体积虽小却很聪明的小模型专家(SLM)。在 8 GB 级的弱电脑或笔记本上也容易跑——非常适合入门。代表:Phi-4 系列。

除此之外,还有 GLM(🇨🇳 智谱 AI,源自清华——编程评价很高)、Falcon(🇦🇪 UAE 的 TII)以及 Command(🇨🇦 Cohere——适合 RAG)。先从最贴近你用途的主要谱系入手即可。

3. 「出身国」会带来什么不同?

「哪个国家的模型」会带来仅看性能看不出来的实务差异。为了避免一个常见误解,先把关键前提讲清楚。

关键前提:只要在本地运行,你的输入数据就不会被发送出去(到开发方所在的国家)。这正是本地 LLM 最大的好处。所以「某国模型=你的输入会被传到该国」并不成立(这和云端 API 不同)。出身国主要在下面三点上才有影响。

⚖️

许可证与商用条款

不同开发方条款各异。Apache 2.0/MIT 较为宽松;自定义许可证可能限制规模、用途,或要求署名。用于产品前要核实。

🏛️

组织/政府的政策

政府机构和大企业可能对「是否允许采用某国 AI」有规定。把它当作需要确认的采购/合规要点。

🗣️

语言与文化强项

训练数据的倾向决定了模型擅长哪些语言。中国模型在 CJK 上很强;本土开发的模型在自家语言的细微之处往往更胜一筹。

大致的「国别风格」是这样的:🇺🇸 美国=生态系统最大、资料丰富、总体上手容易。🇨🇳 中国=在性能和效率上领先,许多许可证宽松,但部分组织需要确认采用政策。🇪🇺 欧洲=注重监管的「主权 AI」立场,比较均衡。其他地区=面向自家语言调优的模型(见下一节)。

4. 国产(中文)开源模型的选择

对中文用户来说,国产开源模型不只是「本土选择」——它们本身就是全球开源的第一梯队。在中文及中文文化语境下,国产模型通常更自然,对偏好「主权 AI」、注重公共/业务可解释性的组织也更易采用。下面把值得关注的国产开源力量梳理一下。

🇨🇳 主力国产开源模型

Qwen(阿里巴巴)、DeepSeekGLM(智谱)——既是国产,也是全球开源第一梯队(详见第 2 章)。综合力、编程、推理全面,大小覆盖也最广。

🇨🇳 其他值得关注

Yi(零一万物 01.AI)、InternLM(上海 AI 实验室 书生·浦语)、Baichuan(百川)、MiniMaxKimi(月之暗面 Moonshot)。各有侧重,可按用途挑选。

🌐 中文语境上的优势

在中文与中文文化语境上,国产模型通常更自然——成语、口语、本地知识与上下文理解上更贴合。这往往是它们相对海外模型的关键差异。

💡 选用要点:追求纯粹的综合实力,Qwen / DeepSeek / GLM 这类国产旗舰本身就是全球开源最前沿;如果更看重中文的自然度、主权要求,或公共/业务场景下的可解释性,国产模型同样是首选。用同一个提示词分别试一下来对比(版本与商用条款请在分发方核实)。

5. 按大小推荐(具体模型)

你的 VRAM 决定了能跑的范围。下面给出各个大小档位的「甜点区」,并附具体例子(均以 Q4 量化为前提)。

~4B(超小型)

VRAM ~6 GB / 入门与笔记本

Phi-4 mini、Gemma 3 4B、Qwen3 4B、Llama 3.2 3B 等。适合聊天、摘要、轻量任务。先从这里试起。

7B–14B(标准)

VRAM 8–12 GB / 日常主力

Qwen3 7B/14B、Llama 8B、Gemma 12B 等。质量与轻量的平衡最佳。非常适合作为第一款日常模型。

32B 级(进阶)

VRAM 24 GB / 扎实实用

Qwen Coder 32B、中型 Mistral、DeepSeek 蒸馏版等。在编程和复杂工作上质量可靠。

70B+(重度)

VRAM 40 GB+ / 大内存 Mac · 多 GPU

Llama 70B、大型 DeepSeek、Qwen 72B 等。质量接近中端云端

6. 按用途推荐

按「你想用它做什么」来选谱系。下面是适合典型用途的谱系。

🧩 通用/什么都行

Qwen(🇨🇳)或 Llama(🇺🇸)。拿不定主意时,就从这两者的某个大小版本入手。资料多,不易出错。

💻 编程

Qwen CoderDeepSeekGLM(都是 🇨🇳 的强项)。如果能装下 32B 级,质量会明显上一个台阶。

🌐 你的语言/多语言

Qwen(CJK 强)或针对你语言调优的本土/区域模型(见第 4 节)。论自然度,区域之选往往胜出。

🧠 推理/思考

DeepSeek 的推理模型,或各谱系支持「thinking(思考)」的版本。在难题和规划上很强。

🪶 低配/轻量

Phi(🇺🇸)或 Gemma(🇺🇸)的小模型,或 Qwen/Llama 的 3–4B。即便 8 GB 级也响应轻快。

📚 长文档

具有长上下文长度的谱系(例如长上下文的 Llama 版本)。不过要留意内存开销

💡 对多数人有效的做法:从「能装进你 VRAM 的最大 Qwen」——或你语言的区域模型——入手,很少会让人失望。如果不够用,再转向特化版本(如 coder 等)或更大的尺寸。

7. 许可证(商用)注意事项

如果用于工作或产品,许可证不容忽视。同样是「开源」,条款也各不相同。请务必在分发方核实商用许可与条件。

✅ 宽松(便于商用)

Apache 2.0 / MIT 系列(例如 Qwen、Gemma※、Phi、DeepSeek 的大部分)。便于商用,嵌入产品的自由度高。

⚠️ 自定义条款

部分采用自定义许可证(规模限制、用途限制、署名要求)。Llama 许可证和 Gemma 许可证有需要核对的条款。商用前请先读清楚。

8. 选型流程与上手

把上面的内容整合起来,选型就是三步。

  1. 定大小:从你的 VRAM 上限出发,选能装下的最大尺寸(参见硬件需求文章)。
  2. 按用途+出身国选谱系:通用=Qwen/Llama,编程=Qwen Coder/DeepSeek/GLM,你的语言=Qwen/区域模型,轻量=Phi/Gemma。商用还要交叉核对许可证与采购政策
  3. 下载一个来试:不够用就升一档大小或换特化版本。用同一个提示词对比几个模型是最快的办法。

💡 上手很简单:用 Ollama 或 LM Studio,只需选个模型名再下载即可(例如 ollama pull qwen3——几分钟)。装上几个,用同一个问题来对比,很快就能找到适合自己的那一个。

总结

本地 LLM 的模型选择,归结为三点。

  • 没有全能选手,按三个维度来选:大小(VRAM 上限)×用途×出身国(许可证、采购、语言)。
  • 按谱系+国家来记:Qwen/DeepSeek/GLM(🇨🇳)、Llama/Gemma/Phi(🇺🇸)、Mistral(🇫🇷),再加上面向你语言的区域模型(🇪🇺🇦🇪🇮🇳🇯🇵…)。版本变化快,所以按谱系来把握。
  • 本地意味着输入不外流:出身国主要影响许可证、采购政策和语言强项。商用务必核实许可证。

拿不定主意时,就从「能装进你 VRAM 的最大 Qwen」——或你语言的区域模型——开始。然后实际跑起来,感受一下与云端的差异,再逐渐收敛到最适合你用途的那一个。安装步骤请见如何运行本地 LLM

FAQ

Q. 那第一个到底该装哪个?

A. 「能装进你 VRAM 的最大 Qwen(中国,阿里巴巴)」,或针对你自己语言调优的模型,都是稳妥的起点——综合能力、多语言支持和大小覆盖都很均衡。如果以轻量为先,小型的 Phi(微软,美国)或 Gemma(谷歌,美国)也很搭。

Q. 用中国模型,我的输入会被传到中国吗?

A. 不会。只要在本地运行,你的输入就绝不会被发送到任何地方(都留在你的电脑里)。这正是与云端 API 的决定性区别。出身国主要关系到许可证(商用条款)、组织采购政策和语言强项——而不是你的数据流向何处。

Q. 哪个本地模型适合我的语言?

A. Qwen(CJK 强)是稳妥的默认选择。如果想在自己语言上获得更自然的输出——语气、敬语、文化语境——为之打造的区域/主权模型(见第 4 节)是有力之选。针对你的用途两者都试一下再比较。

Q. 小模型真的能用吗?

A. 视任务而定,很多场景都够用。对聊天、摘要、起草、分类等日常工作,3–7B 级跑起来很从容。推理越复杂、上下文越长,越大的尺寸越有帮助。

Q. 在工作中使用时要注意什么?

A. 许可证与采购政策是首要事项。Apache 2.0 和 MIT 便于商用,而自定义许可证(Llama 许可证、Gemma 许可证等)可能在规模、用途或署名上附带条件。部分组织还会按出身国限制 AI,因此在嵌入产品前,请同时确认分发方的条款和你的内部规定。