开始上手本地 LLM 时,最先该安装的首选工具就是 Ollama。它几乎替你包办了所有繁琐的环境配置,让你只用一条命令就能下载模型并开始对话。本文将从安装、核心命令、模型选择、GUI、API 使用、自定义到问题排查,为初学者一气呵成地讲完全程

先说结论:Ollama 就像「LLM 版的 Docker」。只要输入 ollama run,它就会自动拉取、启动量化模型,并让你与之对话。先把它跑起来,等熟悉之后,再通过 API 把它嵌入到你自己的应用里——我们就按这个顺序来讲。

LOCAL LLM RUNTIME

一条命令,跑起本地 LLM

— 几乎替你包办了环境配置的所有麻烦

$ ollama pull qwen3
$ ollama run qwen3
>>> 你好!你能做什么?

✅ 免费 / 开源

🖥️ Win/Mac/Linux

🔌 本地 API

⏱️ 几分钟搞定

1. Ollama 是什么?——本地 LLM 的首选运行时

Ollama 是一款能在自己 PC 上轻松运行本地 LLM 的免费、开源工具。下载模型、处理量化格式、配置 GPU 使用等麻烦事,它都在幕后帮你搞定,用户只需「指定模型名并运行」即可。

💡 一句话概括:Ollama 就是「LLM 版的 Docker」。用 ollama pull 拉取模型,用 ollama run 对话。它还会启动一个本地 API 服务器,因此你自己的应用和聊天 UI 也能调用它。

有一款类似的工具叫 LM Studio。粗略来说:Ollama = 以 CLI(命令)为主,面向开发者、API 与自动化LM Studio = 以 GUI 为主,面向非工程师入门。两者都免费,都能在几分钟内装好。本文以同样涵盖 API 与嵌入的 Ollama 为主线讲解(想要 GUI 的人请直接跳到第 5 章)。

2. 安装(Win / Mac / Linux)

只需从官方网站 ollama.com 获取安装程序即可。各操作系统的流程如下。

🪟 Windows / 🍎 Mac

只需从官方网站下载应用并运行即可。启动应用的同时,也会在后台启动 API 服务器。之后即可在终端(PowerShell / 终端)中使用 ollama 命令。

🐧 Linux

用官方的一行脚本即可安装。也很适合服务器用途和 Docker 部署(提供官方 Docker 镜像)。

🔌 确认是否生效:安装后,在终端运行 ollama --version 能打印出版本号即可。你的第一个模型只需一行:ollama run qwen3(首次运行会触发下载)。

3. 核心命令速查

要记的命令非常少。按常用程度从高到低列出。

ollama run <model>

启动模型并对话。若尚未下载会先自动下载。退出用 /bye

ollama pull <model>

仅下载模型(不对话)。适合提前拉取备用。

ollama list

显示已下载的模型及其大小(用 ollama ls 也可以)。

ollama ps

显示当前正在运行(已加载到内存)的模型。

ollama rm <model>

删除模型以释放磁盘空间。

ollama serve

启动 API 服务器(默认 localhost:11434)。在 Win/Mac 上启动应用时会自动启动。

4. 下载与选择模型

模型通过名称 + 大小标签来指定。例如 llama3.2 是标准大小,llama3.2:3b 则指 3B 版本。基本原则是:选一个能装进你显存(VRAM)的大小。

# 试试轻量模型(入门)
ollama run gemma3:4b
# 综合实力出色,多语言能力强
ollama run qwen3
# 用于编程
ollama run qwen3-coder

💡 该选哪个模型?按用途(通用 / 编程 / 你的语言)和大小来决定。按系列与用途的选型建议,请看我们的本地 LLM 推荐模型深度对比;各种大小所需的显存,请看硬件需求文章。拿不准时,先从小的(7B 级)开始。

5. 用 GUI 使用(Open WebUI 等)

不喜欢用终端?没关系——你可以给 Ollama 套上一个聊天界面(GUI)

Open WebUI

一款人气很高的 ChatGPT 风格界面,可连接到你本地的 Ollama。支持对话历史、模型切换和多用户。

一开始就想要 GUI?选 LM Studio

单个应用就能完成模型搜索、下载和对话。最适合非工程师入门。在 Apple Silicon 上,通过 MLX 格式还可能跑得很快。

6. 使用 API(嵌入到应用中)

Ollama 真正的强项在于它的本地 API。服务器运行在 localhost:11434,向它发送请求,你自己的应用、脚本和工具就能使用本地 LLM。

原生 API

POST localhost:11434
 /api/chat
 /api/generate

Ollama 自有的简洁格式。

OpenAI 兼容 API

POST localhost:11434
 /v1/chat/completions

只需改一下端点,即可复用现有的 OpenAI 代码。

🔌 OpenAI 兼容性非常强大:很多库和工具都支持 OpenAI API。把它们指向 Ollama 的 /v1 端点,就能用本地代替云端——这也是云端宕机时的一种便利后备方案

7. 自定义(Modelfile、环境变量)

开箱即用就已经很好用了,但如果你想更进一步,有两样东西值得了解。

📝 Modelfile

一个类似 Dockerfile 的配置文件。给基础模型加上系统提示词和参数,就能做出「你自己的模型」(比如一个总是用礼貌的中文回答的模型)。

⚙️ 环境变量

OLLAMA_HOST(改变监听地址,以便从局域网内其他设备访问)、OLLAMA_MODELS(模型存储路径,例如迁移到另一块硬盘)等来调整运行方式。

8. 常见问题排查

先把常见的卡点和解决办法摆在前面。

速度慢或卡住

很可能是模型没能完全装进显存。换小一号的模型,或使用量化程度更高的版本。

内存不足导致崩溃

7B 至少预留 8 GB RAM,13B 及以上预留 16 GB。长输入会占用更多内存,所以应缩短上下文长度。

API 连不上

检查 ollama serve 是否在运行,端口 11434 是否空闲。如果应用没在运行,API 也会停。

找不到模型

通常是名称或大小标签拼错了。在官方模型列表中确认正确的名称。

总结

Ollama 是入门本地 LLM 最快的方式。三个要点:

  • 几分钟搞定:从官方网站安装,然后只需 ollama run <model>。要记的命令非常少。
  • 按大小选模型:控制在你的显存范围内。拿不准时,从 7B 级起步,再按用途挑选系列。
  • API 才是真正的价值localhost:11434 上的 OpenAI 兼容 API 让你能把它嵌入到自己的应用和聊天 UI 中——并充当云端的后备方案。

先从输入 ollama run qwen3 开始。一边运行一边对照与云端的差异如何选模型,是最有效的学习方式。

FAQ

Q. Ollama 免费吗?可以商用吗?

A. Ollama 本身是免费、开源的。但是你运行的每个模型都各有其许可证,能否商用取决于模型本身。在用于产品前,请逐个核对各模型的条款(参见我们模型对比文章中的许可证章节)。

Q. Ollama 和 LM Studio,哪个更好?

A. 如果是命令、API、自动化以及嵌入到自己的应用,选 Ollama;如果想用 GUI 轻松上手,选 LM Studio。两者都免费,拿不准时不妨都装上对比一下。

Q. 我的数据会被发送到外部吗?

A. Ollama 中的推理完全在你的 PC 上进行,你的输入不会被发送出去(除了首次的模型下载)。这正是本地 LLM 的一大优势。

Q. 能用在现有的 OpenAI 代码上吗?

A. 可以。Ollama 在 localhost:11434/v1 提供OpenAI 兼容 API,所以大多数情况下你只需更改端点 URL 和模型名称。这对于从云端切换到本地,或作为后备方案都很方便。

Q. 需要什么样的 PC?

A. 作为参考,7B 模型至少需要 8 GB RAM,13B 及以上需要 16 GB 以上。想用得舒服,配一块受支持的 GPU(8 GB 以上显存),或一台统一内存充足的 Mac 会更有优势。详情请看硬件需求文章