目录
当你想从本地 LLM 开始时,最先冒出来的担心通常是:"我的电脑跑得动吗?"简短的答案是:所需配置的 90% 都取决于 VRAM(GPU 的显存)。把这一点搞定,你就能立刻判断什么能跑、什么跑不了。
本文将按模型大小给出一张VRAM 速查表、一个简单的公式、会随上下文长度增长的显存陷阱、各 GPU/Mac 的实际速度,最后是按预算推荐的配置。专业术语压到最少,让初次接触的人也能弄清"我该买哪一款"。
要看的几乎只有 VRAM
—— 关键就在于模型能不能装进显存
VRAM 8–12 GB
7B–14B 级。日常聊天、摘要、轻量编程。最容易上手的起点。
VRAM 24 GB
最高到 32B 级。质量与速度平衡极佳的实用线。
40–64 GB+
70B 级。质量逼近中端云端。成本也随之上升。
1. 结论:要看的几乎只有 VRAM
选电脑要考虑很多部件——CPU、GPU、内存——但对本地 LLM 来说,最重要的只有一件事:VRAM(显存,也就是装在 GPU 上的内存)。原因很简单:整个模型若能装进 VRAM,就能又快又顺地运行;装不下,就会慢得令人发指,甚至根本跑不起来。
💡 一句话概括:为本地 LLM 选配置的顺序是:"你想跑的模型大小" → "它所需的 VRAM" → "满足这个需求的 GPU/Mac"。CPU 和 RAM 容量都是次要的。
Apple 的 M 系列芯片(Mac)是个特例:得益于"统一内存",装机的 RAM 可以直接当作 VRAM 来用。因此内存大的 Mac 即便没有独立 GPU,也能跑大型模型——这一点后面会详谈。
2. 先搞懂量化——它会彻底改变结果
在谈所需 VRAM 之前,绕不开的就是量化。这是一项把模型压缩变轻的技术,压缩的程度不同,所需显存会相差好几倍。
FP16(未压缩)
每个参数约 2 字节。质量最高,但最吃显存。个人很少用。
Q8(8 位)
每个参数约 1 字节。约为 FP16 的一半。质量损失极小——属于"偏重质量"的选择。
Q4(4 位)
每个参数约 0.5–0.7 字节。约为 FP16 的 1/4。质量与轻量兼顾——是个人使用的首选。
🔑 粗略公式:所需 VRAM ≈ 参数量(B)× 每个参数的字节数。例如:用 Q4 跑一个 7B 模型,7 × 约 0.6 ≈ 约 4–5 GB。保险起见,再为 KV 缓存(上下文,下文会讲)加上 +10–20%。
3. 按模型大小看所需 VRAM(速查表)
以最实用的 Q4 量化为前提,下面按大小列出大致的 VRAM 目标(已含上下文的余量)。拿它和"你 GPU 的 VRAM"对照,就能立刻看出自己的上限。
7B–8B 级
VRAM 约 6–8 GB
入门首选。聊天、摘要、翻译、轻量编程。很多笔记本也能跑。
13B–14B 级
VRAM 约 8–12 GB
回答稍微更聪明些。像 RTX 3060(12 GB)这类中端 GPU 的"甜点"区间。
32B 级
VRAM 约 20–24 GB
实用的上限线。RTX 4090(24 GB)单卡可达的经典目标。
70B 级
VRAM 约 40–48 GB+
硬核档。大内存 Mac 或多卡 GPU 才比较现实。
再往上到 100B+(超大型模型)就需要 128 GB 以上——超出个人范围了。反过来,1–3B 的小模型在 4 GB 左右就能跑,连配置一般的 PC 也能起步。
4. 上下文长度与 KV 缓存的陷阱
容易被忽略的一点是:显存会随上下文长度增长。LLM 会把对话和输入的历史以 KV 缓存的形式保存在 VRAM 中。处理的文本越长,在模型本身之外占用的显存就越多。
4k
在 7B 上约 +0.3 GB。对短问题来说可忽略。
32k
在 7B 上约 +2.5 GB。处理长摘要和长对话时开始变得重要。
128k
在 7B 上约 +10 GB。甚至可能超过模型本身。需要警惕的区间。
📌 实用提示:"刚好卡着 VRAM 上限跑起来了,结果一喂长文档就崩了"——原因就在这里。按你实际使用的上下文长度来估算需求。如果不处理长文档,只要把上下文长度设小一些就能腾出显存。
5. GPU 与 Mac 的实际表现(速度参考)
即便是同一个模型,硬件也会大幅改变速度(每秒生成的 token 数 = tok/s)。下面列出主要选项及大致的体感(数字仅作参考,会因配置和模型而异)。
RTX 3060(12 GB)
二手容易买到——入门经典。7B–14B 跑得很从容。若以成本为先,先从这里开始。
RTX 4090(24 GB)
单卡可达 32B 级。7B 可超过每秒 100 个 token。个人高端的标杆。70B 则需要把一部分卸载到 CPU,速度会大幅下降。
RTX 5090(32 GB)
显存更大,可单卡跑 Q8 的 32B,或用激进量化跑 70B。速度也属顶级。
Apple Mac(M4/M5 Max)
配 64 GB 统一内存时,连 70B 级也能跑(速度一般——70B 大约每秒 20–30 个 token)。安静、省电。
仅 CPU(无 GPU)
小模型确实能跑,但很慢。"只是试试"足够了。日常使用还是需要 GPU/Mac。
6. 除了 VRAM 还需要什么
VRAM 是主角,但配角同样重要。至少要顾及这三样。
系统 RAM
承接装不进 VRAM 的部分。16 GB 以上,最好 32 GB。在 Mac 上,统一内存直接计入。
存储(SSD)
单个模型就有几 GB 到几十 GB。如果想试多个,要给 SSD 留足空间。推荐 NVMe。
电源与散热
高端 GPU 功耗大、发热高。电源容量和散热都要留有余量。
7. 按预算推荐配置(3 个档位)
回答"那我到底该买什么?"的三种方案。按用途和预算来选。
只是想试试:VRAM 8–12 GB
RTX 3060(12 GB)这类显卡,或配 16–24 GB 统一内存的 Mac。7B–14B 级能跑,日常用途绰绰有余。二手 GPU 是最便宜的起步方式。
认真使用:VRAM 24 GB
RTX 4090(24 GB),或配 32–48 GB 统一内存的 Mac。32B 级跑得很从容,质量与速度平衡最佳。"刚刚好"的选择。
冲击最大规模:40–64 GB+
RTX 5090 或多卡 GPU,或配 64 GB+ 统一内存的高端 Mac。70B 级逼近中端云端。要做好成本和功耗的准备。
8. 如何判断自己能跑哪种模型
不知道选哪个模型?参阅 本地 LLM 热门模型对比,按用途、大小与出身国选择。
买之前、下载之前,按三步确认,就不会出错。
- 确认自己的 VRAM(或 Mac 的统一内存)。这就是你的上限。
- 用模型大小(B)× 约 0.6(Q4)估算大致需求。再为上下文加上 +10–20%。
- 确认总量是否在你的 VRAM 之内。若放不下,就选"小一档的模型"或"更强的量化(Q4 → 更低位)"。
💡 拿不准就从小的开始:用 Ollama 或 LM Studio,你只需选好模型再下载即可。先试 7B 级,觉得不够再往上加一档——这个顺序既稳妥又可靠。
总结
本地 LLM 所需的配置,归结为三点。
- VRAM 是主角:模型能否装进显存就是一切。Mac 可借助统一内存冲击大容量。
- 量化和上下文会改变数字:在 Q4 下,"大小(B)× 约 0.6"再加上上下文(+10–20%)就是参考值。7B ≈ 6–8 GB,32B ≈ 24 GB,70B ≈ 40 GB+。
- 按预算分三档:入门(8–12 GB)/ 标准(24 GB)/ 硬核(40–64 GB+)。拿不准就从小的开始,逐步往上加。
只要弄清了配置,本地 LLM 就会亲切许多。下一步,结合与云端的差异来权衡,在自己的机器上跑起来吧。安装步骤可参阅如何运行本地 LLM。
FAQ
Q. 普通笔记本(没有 GPU)能跑本地 LLM 吗?
A. 小模型(1–3B,或轻量的 7B)能跑,但很慢。"试用一下"是够的,但要日常舒适地使用,配 8 GB+ VRAM 的 GPU 或统一内存充足的 Mac 才比较现实。
Q. 我的 VRAM 差一点点,怎么还能跑起来?
A. 有三招:① 选更强的量化(更低位的版本),② 降到小一档的模型,③ 设置更短的上下文长度。通常这样就能装下了。也可以把一部分卸载到 CPU,但速度会下降。
Q. GeForce 还是 Mac,哪个更好?
A. 论速度和可扩展性,选 GeForce(NVIDIA GPU)。论安静、省电并借助大内存跑大模型,选 Mac(统一内存)。如果想用一台机器搞定 70B 级,64 GB+ 的 Mac 是个强有力的选择。
Q. 系统 RAM 需要多少?
A. 系统 RAM 16 GB 以上,最好 32 GB。注意在 Mac 上,统一内存兼作 VRAM,所以内存容量直接决定了你能跑多大的模型。
Q. 那么,第一台机器买什么好?
A. 论性价比,一块二手 RTX 3060(12 GB)跑 7B–14B。预算允许的话,RTX 4090(24 GB)单卡能搞定最高 32B 级,且能用很久。喜欢 Apple 的话,统一内存充足的 Mac 是省心的路线。从小开始,按需升级——这才是避免踩坑的办法。