当你能够构建 AI 应用之后,下一阶段就是安全地运行它们。LLM 很好用,但它们可能被恶意输入欺骗、泄露机密数据,或者一本正经地胡说八道。防止这一切的安全机制就是 AI 护栏。在 2026 年,随着 AI 智能体事故真实发生,护栏已成为生产环境运行中不可或缺的一部分。
本文面向初学者,梳理 AI 护栏是什么、它防的是什么、它如何防护(输入/输出两层)、最大的威胁——提示注入——以及相关工具与实践原则。
在输入处拦截,在输出处拦截
— 在两侧同时拦住危险的指令和危险的回答
输入护栏
检测危险指令
LLM
处理
输出护栏
拦截危险回答
1. 什么是 AI 护栏?
AI 护栏是你为保护 LLM 应用免受威胁而设置的"安全机制"(规则与过滤器)。正如高速公路的护栏能阻止汽车冲出路面,AI 护栏会拦住危险的输入和不希望出现的输出。它在用户输入到达 LLM 之前进行检查,也在 LLM 的回答返回给用户之前进行检查——这种"两侧的关卡"就是护栏。
为什么需要它们?LLM 很聪明,但容易被骗、嘴也不严。一条恶意指令就可能解除它的安全控制(越狱),它可能脱口而出内部信息,或者毫无根据地下断言。仅仅挑一个聪明的模型并不能阻止这些——你需要在应用一侧另设一道保护机制。
💡 一句话:护栏 = "设在 AI 入口和出口的关卡"。可以把它理解为独立于模型自身智能、设在应用一侧的安全层。
2. 它防的是什么?
先弄清楚护栏防御的对象——AI 应用特有的威胁。其中最主要的有以下四类。
🎯 提示注入
用恶意命令覆盖系统的指令,劫持 AI。最大的威胁(详见下文)。
🔓 越狱
绕过安全控制,套取通常被禁止的危险输出。
💧 数据泄露
将机密数据、个人信息(PII)或系统提示泄露到外部。
👻 幻觉与有害输出
把胡编的内容当成事实回答,或生成歧视性、不当的内容。
这些并不是"用聪明的模型就不会发生"的事。尤其当 AI 智能体操作工具时,一旦被劫持,就可能造成实实在在的危害——误发送、删除数据、未经授权的操作。正因如此,才需要一套防御机制。
3. 在两层防护:输入与输出
护栏的基础是两层:"输入护栏"和"输出护栏"。在进入 LLM 之前和返回用户之前,两处都要检查。
输入护栏(进入之前)
- 检测提示注入和越狱
- 检测并屏蔽个人信息(PII)
- 限制话题(拒绝任务之外的提问)
- 剥离并净化可疑模式
输出护栏(返回之前)
- 过滤有害或不当内容
- 防止机密/个人数据泄露(屏蔽)
- 检查与事实的一致性(幻觉)
- 验证格式与策略合规性
这两层与衡量输出质量的 AI 评估是连贯一体的。评估"衡量好坏",而护栏"当场拦住危险"。两者俱备,才能放心地推向生产环境。
4. 最大的威胁:提示注入
在众多威胁中,有一个格外突出:提示注入。这是一种"塞入恶意指令、覆盖系统命令、把 AI 当傀儡操控"的攻击,业界威胁清单(OWASP LLM Top 10)将其列为最严重的一项。要了解它的两种类型。
用户直接植入
诸如"忽略之前的所有指令,然后……",直接从输入框尝试覆盖系统命令。
⚠️ 仅靠 RAG 挡不住:由于间接注入把命令藏在检索到的文档里,加上 RAG 并不会自动拦截它。研究指出,你还需要对检索到的文档做专门的检查("检索护栏")。
通过 MCP 等连接工具和外部数据的智能体,尤其容易成为间接注入的目标。铁律是:在设计时就假定"不信任来自外部的数据"。
5. 工具与纵深防御原则
你不必从零搭建护栏——已经有现成的专用工具和框架。
LLM Guard / Guardrails AI
开源,带有众多输入/输出扫描器。可像积木一样加入注入检测、PII 屏蔽、有害内容过滤等。
NeMo Guardrails / Llama Guard
NVIDIA 的 NeMo 擅长对话流程控制;Meta 的 Llama Guard 用于对越狱和危险输入进行分类。
各云服务商的安全功能
Azure(Content Safety / Prompt Shields)、AWS Bedrock Guardrails、OpenAI Moderation 等等。
比工具更重要的是"纵深防御"的思路。单一过滤器总有被攻破的可能,所以要叠加多个层次。记住以下实践原则。
- 分层防御:叠加输入校验 → 输出过滤 → 执行隔离(沙箱)→ 持续监控。
- 最小权限:不要给智能体什么都能做的工具权限。只限于它所需的操作(权限设计很关键)。
- 人工审批:对于"不可逆的操作"——转账、删除、对外发送——插入一道人工确认。
- 持续监控:攻击手法在不断演化。盯住日志,检测新模式,并及时更新。
※ 工具名称与威胁分类引自各类指南与公开资料(截至 2026 年 6 月)。最佳配置因用途和风险承受度而异。
总结
关于 AI 护栏的三点要义。
- 它是什么:保护 LLM 应用免受威胁的输入/输出过滤器。独立于模型智能之外的安全层。
- 它防什么:提示注入、越狱、数据泄露、幻觉/有害输出。其中注入最为关键。
- 怎么防:两层(输入/输出)加纵深防御。结合最小权限、人工审批和持续监控。
不只是"构建"AI,而是要"安全地运行"它,这才是真正投入使用的条件。先从给输入和输出各加一道简单的检查开始。配合阅读 AI 智能体事故和 AI 与网络安全,可以把握风险的全貌。
FAQ
Q. 如果我用的是聪明的模型(GPT 或 Claude),还需要护栏吗?
A. 需要。顶级模型有安全功能,但无法完全防住提示注入或间接攻击。对于实际运行,"纵深防御"——在应用一侧放置独立的护栏——是不可或缺的。
Q. 提示注入能被彻底防住吗?
A. 就目前而言,100% 的防御被认为很难做到。正因如此,与其只依赖输入检测,不如叠加最小权限、人工审批、输出过滤和监控来"把损害控制住"。最重要的是,把外部数据当作不可信来对待。
Q. 个人开发者的小型应用也需要吗?
A. 只要符合以下任一情况——它是公开的、它处理机密数据、或它操作工具——那就需要。反之,对于只有你自己使用的个人实验,做到最低限度即可。基本原则是:按照风险大小来相应地施加护栏。
Q. 护栏和 AI 评估有什么区别?
A. 评估"衡量输出的好坏";护栏"当场拦住危险的输入/输出"。两者角色不同,搭配使用。它们的关系是:用护栏去堵上评估发现的弱点。