Ollama 完全入门指南 [2026]｜本地 LLM 一条命令

Q: Ollama 免费吗？可以商用吗？

Ollama 本身是免费、开源的。但是你运行的每个模型都各有其许可证，能否商用取决于模型本身。在用于产品前，请逐个核对各模型的条款（参见我们模型对比文章中的许可证章节）。

Q: 我的数据会被发送到外部吗？

Ollama 中的推理完全在你的 PC 上进行，你的输入不会被发送出去（除了首次的模型下载）。这正是本地 LLM 的一大优势。

Q: 能用在现有的 OpenAI 代码上吗？

可以。Ollama 在 localhost:11434/v1 提供OpenAI 兼容 API，所以大多数情况下你只需更改端点 URL 和模型名称。这对于从云端切换到本地，或作为后备方案都很方便。

1. Ollama 是什么？——本地 LLM 的首选运行时
2. 安装（Win / Mac / Linux）
3. 核心命令速查
4. 下载与选择模型
5. 用 GUI 使用（Open WebUI 等）
6. 使用 API（嵌入到应用中）
7. 自定义（Modelfile、环境变量）
8. 常见问题排查
总结
FAQ

开始上手本地 LLM 时，最先该安装的首选工具就是 Ollama。它几乎替你包办了所有繁琐的环境配置，让你只用一条命令就能下载模型并开始对话。本文将从安装、核心命令、模型选择、GUI、API 使用、自定义到问题排查，为初学者一气呵成地讲完全程。

先说结论：Ollama 就像「LLM 版的 Docker」。只要输入 ollama run，它就会自动拉取、启动量化模型，并让你与之对话。先把它跑起来，等熟悉之后，再通过 API 把它嵌入到你自己的应用里——我们就按这个顺序来讲。

LOCAL LLM RUNTIME

一条命令，跑起本地 LLM

— 几乎替你包办了环境配置的所有麻烦

$ ollama pull qwen3
$ ollama run qwen3
>>> 你好！你能做什么？

✅ 免费 / 开源

🖥️ Win/Mac/Linux

🔌 本地 API

⏱️ 几分钟搞定

1. Ollama 是什么？——本地 LLM 的首选运行时

Ollama 是一款能在自己 PC 上轻松运行本地 LLM 的免费、开源工具。下载模型、处理量化格式、配置 GPU 使用等麻烦事，它都在幕后帮你搞定，用户只需「指定模型名并运行」即可。

💡 一句话概括：Ollama 就是「LLM 版的 Docker」。用 ollama pull 拉取模型，用 ollama run 对话。它还会启动一个本地 API 服务器，因此你自己的应用和聊天 UI 也能调用它。

有一款类似的工具叫 LM Studio。粗略来说：Ollama = 以 CLI（命令）为主，面向开发者、API 与自动化；LM Studio = 以 GUI 为主，面向非工程师入门。两者都免费，都能在几分钟内装好。本文以同样涵盖 API 与嵌入的 Ollama 为主线讲解（想要 GUI 的人请直接跳到第 5 章）。

2. 安装（Win / Mac / Linux）

只需从官方网站 ollama.com 获取安装程序即可。各操作系统的流程如下。

🪟 Windows / 🍎 Mac

只需从官方网站下载应用并运行即可。启动应用的同时，也会在后台启动 API 服务器。之后即可在终端（PowerShell / 终端）中使用 ollama 命令。

🐧 Linux

用官方的一行脚本即可安装。也很适合服务器用途和 Docker 部署（提供官方 Docker 镜像）。

🔌 确认是否生效：安装后，在终端运行 ollama --version 能打印出版本号即可。你的第一个模型只需一行：ollama run qwen3（首次运行会触发下载）。

3. 核心命令速查

要记的命令非常少。按常用程度从高到低列出。

ollama run <model>

启动模型并对话。若尚未下载会先自动下载。退出用 /bye。

ollama pull <model>

仅下载模型（不对话）。适合提前拉取备用。

ollama list

显示已下载的模型及其大小（用 ollama ls 也可以）。

ollama ps

显示当前正在运行（已加载到内存）的模型。

ollama rm <model>

删除模型以释放磁盘空间。

ollama serve

启动 API 服务器（默认 localhost:11434）。在 Win/Mac 上启动应用时会自动启动。

4. 下载与选择模型

模型通过名称 + 大小标签来指定。例如 llama3.2 是标准大小，llama3.2:3b 则指 3B 版本。基本原则是：选一个能装进你显存（VRAM）的大小。

# 试试轻量模型（入门）
ollama run gemma3:4b
# 综合实力出色，多语言能力强
ollama run qwen3
# 用于编程
ollama run qwen3-coder

💡 该选哪个模型？按用途（通用 / 编程 / 你的语言）和大小来决定。按系列与用途的选型建议，请看我们的本地 LLM 推荐模型深度对比；各种大小所需的显存，请看硬件需求文章。拿不准时，先从小的（7B 级）开始。

5. 用 GUI 使用（Open WebUI 等）

不喜欢用终端？没关系——你可以给 Ollama 套上一个聊天界面（GUI）。

Open WebUI

一款人气很高的 ChatGPT 风格界面，可连接到你本地的 Ollama。支持对话历史、模型切换和多用户。

一开始就想要 GUI？选 LM Studio

单个应用就能完成模型搜索、下载和对话。最适合非工程师入门。在 Apple Silicon 上，通过 MLX 格式还可能跑得很快。

6. 使用 API（嵌入到应用中）

Ollama 真正的强项在于它的本地 API。服务器运行在 localhost:11434，向它发送请求，你自己的应用、脚本和工具就能使用本地 LLM。

原生 API

POST localhost:11434
　/api/chat
　/api/generate

Ollama 自有的简洁格式。

OpenAI 兼容 API

POST localhost:11434
　/v1/chat/completions

只需改一下端点，即可复用现有的 OpenAI 代码。

🔌 OpenAI 兼容性非常强大：很多库和工具都支持 OpenAI API。把它们指向 Ollama 的 /v1 端点，就能用本地代替云端——这也是云端宕机时的一种便利后备方案。

7. 自定义（Modelfile、环境变量）

开箱即用就已经很好用了，但如果你想更进一步，有两样东西值得了解。

📝 Modelfile

一个类似 Dockerfile 的配置文件。给基础模型加上系统提示词和参数，就能做出「你自己的模型」（比如一个总是用礼貌的中文回答的模型）。

⚙️ 环境变量

用 OLLAMA_HOST（改变监听地址，以便从局域网内其他设备访问）、OLLAMA_MODELS（模型存储路径，例如迁移到另一块硬盘）等来调整运行方式。

8. 常见问题排查

先把常见的卡点和解决办法摆在前面。

速度慢或卡住

很可能是模型没能完全装进显存。换小一号的模型，或使用量化程度更高的版本。

内存不足导致崩溃

7B 至少预留 8 GB RAM，13B 及以上预留 16 GB。长输入会占用更多内存，所以应缩短上下文长度。

API 连不上

检查 ollama serve 是否在运行，端口 11434 是否空闲。如果应用没在运行，API 也会停。

找不到模型

通常是名称或大小标签拼错了。在官方模型列表中确认正确的名称。

总结

Ollama 是入门本地 LLM 最快的方式。三个要点：

几分钟搞定：从官方网站安装，然后只需 ollama run <model>。要记的命令非常少。
按大小选模型：控制在你的显存范围内。拿不准时，从 7B 级起步，再按用途挑选系列。
API 才是真正的价值：localhost:11434 上的 OpenAI 兼容 API 让你能把它嵌入到自己的应用和聊天 UI 中——并充当云端的后备方案。

先从输入 ollama run qwen3 开始。一边运行一边对照与云端的差异和如何选模型，是最有效的学习方式。

FAQ

Q. Ollama 免费吗？可以商用吗？

A. Ollama 本身是免费、开源的。但是你运行的每个模型都各有其许可证，能否商用取决于模型本身。在用于产品前，请逐个核对各模型的条款（参见我们模型对比文章中的许可证章节）。

Q. Ollama 和 LM Studio，哪个更好？

A. 如果是命令、API、自动化以及嵌入到自己的应用，选 Ollama；如果想用 GUI 轻松上手，选 LM Studio。两者都免费，拿不准时不妨都装上对比一下。

Q. 我的数据会被发送到外部吗？

A. Ollama 中的推理完全在你的 PC 上进行，你的输入不会被发送出去（除了首次的模型下载）。这正是本地 LLM 的一大优势。

Q. 能用在现有的 OpenAI 代码上吗？

A. 可以。Ollama 在 localhost:11434/v1 提供OpenAI 兼容 API，所以大多数情况下你只需更改端点 URL 和模型名称。这对于从云端切换到本地，或作为后备方案都很方便。

Q. 需要什么样的 PC？

A. 作为参考，7B 模型至少需要 8 GB RAM，13B 及以上需要 16 GB 以上。想用得舒服，配一块受支持的 GPU（8 GB 以上显存），或一台统一内存充足的 Mac 会更有优势。详情请看硬件需求文章。

Ollama 完全入门指南：本地 LLM 一条命令搞定 [2026]

一条命令，跑起本地 LLM

1. Ollama 是什么？——本地 LLM 的首选运行时

2. 安装（Win / Mac / Linux）

3. 核心命令速查

4. 下载与选择模型

5. 用 GUI 使用（Open WebUI 等）

6. 使用 API（嵌入到应用中）

7. 自定义（Modelfile、环境变量）

8. 常见问题排查

总结

FAQ

相关文章

主流生成AI知识截止日期一览｜ChatGPT、Claude、Gemini全面对比

什么是生成式AI？与传统AI的区别通俗解析

生成AI擅长的和不擅长的｜能做什么、不能做什么？真实案例全面解析

什么是LLM？大语言模型的工作原理、主流模型与应用场景

评论

发表评论