目录
"提示词工程已死"——这句话从 2025 年前后开始流传。取而代之登场的,是"缰绳工程(Harness Engineering)"这一概念。它由 Anthropic 的研究人员,以及打造 Claude Code、Cursor 等代理的工程师们率先提出,迅速成为 AI 代理时代核心的工程学科之一。
本文将系统梳理缰绳工程到底是什么,它与提示词工程有何不同,构成缰绳的 6 大组件、实用的设计清单,以及当下主流工具的具体案例——这是你认真使用或构建 AI 代理时不可或缺的根基。
缰绳 = 包裹 LLM 的 4 层结构
— 如同套在马身上的缰绳,将强大的力量引导向你所指的目标
即使使用同一个 LLM,仅靠缰绳设计就能让品质与安全性发生剧烈摆动。
这就是"缰绳工程"所在的战场——一门全新的设计学科。
1. 什么是缰绳工程(Harness Engineering)?
"Harness(缰绳/挽具)"原本指套在马身上的器具——把动物的力量引向你所指方向的整套装备。AI 领域里的这一术语正是同一个隐喻:把强大却难以驯服的 LLM 投入实际生产的整套装备。
具体而言,包含:
- 工具(Tools):文件操作、网页搜索、代码执行——LLM 借以采取行动的手段。
- 上下文管理:决定哪些内容塞进提示词、哪些被压缩或丢弃的策略。
- 记忆系统:跨会话保存的持久化知识与用户偏好。
- 代理循环(Agent loop):感知 → 推理 → 行动 → 观察的循环。
- 护栏(Guardrails):权限、沙箱、Hooks、审批流程。
- 输出格式:markdown、JSON、引用、流式传输。
把上述一切作为整体来设计,就是缰绳工程。它不是去训练或改进 LLM 本身,而是通过精心打造 LLM 周围的一切,提升其在真实世界中的可用性。Claude Code、Cursor、Devin、Codex CLI——它们运行的底层模型大致相同,但行为与表现却天差地别,原因正在于缰绳的差异。
2. 缰绳工程 vs 提示词工程
提示词工程并未消失——但两者的范畴有本质差异。
| 维度 | 提示词工程 | 缰绳工程 |
|---|---|---|
| 对象 | 单轮输入文本 | 整个系统(工具、记忆、循环) |
| 主要工作 | 优化提示词措辞、挑选 few-shot 示例 | 工具设计、上下文策略、循环设计 |
| 交付物 | 文本模板 | 代码、配置、系统架构 |
| 所需技能 | 语言感、对 LLM 行为的直觉 | 通用软件工程能力 |
| 影响范围 | 单次回复的质量 | 长任务的完成率、成本与安全 |
| 例子 | "Think step by step" | 定义一个计算器工具,让 LLM 调用 |
如果说提示词工程是"对 LLM 说什么"的手艺,那么缰绳工程就是"给 LLM 配备什么、又如何驾驭它"的手艺。两者并非竞争关系——而是分层关系。提示词只是缰绳之中的一个组件。
3. 缰绳的 6 大组件
1. 工具调用(Tool Use)
LLM 作用于世界的手段:读写文件、执行代码、网页搜索、调用 API。工具接口(名称、参数、返回值)一旦设计错误,LLM 就无法正确使用。具体而言:
- 动词式、含义明确的命名(例如
read_file)。 - 必填与可选参数显式区分,并提供默认值。
- 失败时返回结构化错误信息(告诉模型下一步该怎么办)。
- 对有副作用(破坏性)的操作明确标注警告。
2. 上下文管理
LLM 的注意力是有限的——你给它看什么,决定它说什么。具体而言:
- 相关性过滤:只抽取与任务相关的部分,而非整份文件。
- 压缩:对长对话进行总结以便保留。
- RAG 集成:通过向量检索按需获取所需信息。
- 缓存:借助 Anthropic 的 prompt cache 等工具,削减重复系统提示的成本。
相关阅读:什么是 RAG?
3. 记忆系统
跨会话保留知识。Claude Code 的 CLAUDE.md、Cursor 的 .cursor/rules、Codex 的 AGENTS.md 都是项目记忆的实例。除此之外还有:
- 短期记忆:近期对话历史。
- 长期记忆:用户画像、过往决策。
- 事实性知识:领域专属知识库。
4. 代理循环(Agent Loop)
让"AI 代理"真正运转起来的核心。基本形态是感知 → 推理 → 行动 → 观察循环:
- 接收用户的目标。
- 分析当前状态(必要时通过工具收集信息)。
- 规划下一步行动。
- 通过工具执行行动。
- 观察结果;判断目标是否达成。
- 未达成则继续循环,达成则终止。
代理能多聪明,取决于你是否在其中嵌入了重新规划、自我批评与子目标分解。
5. 护栏(Guardrails)
防止失控行为的机制。正如AI 为何无视你的 .md 规则所述,通过环境强制行为,比在文档里好言相劝可靠得多:
- 审批模式:危险操作需人工确认(例如 Claude Code 的 Plan 模式)。
- 沙箱:限制文件系统与网络访问。
- Hooks:在工具调用前后插入任意校验。
- 速率限制:万一失控,将损害最小化。
6. 输出 UX
把结果以用户能够理解并验证的形式呈现出来。Markdown 渲染、来源引用、语法高亮的代码块、流式输出、可见的推理(thinking)、结构化输出(JSON)等等。仅仅给出"正确答案"还不够——以用户能信任并验证的形式交付,正是缰绳的职责。
4. 为何缰绳工程,为何就在此刻?
有三股力量正在推动缰绳工作热度的飙升。
1. LLM 原始能力的天花板已浮现。随着 GPT-5 级模型、Claude Opus 4.7、Gemini 3.1 Pro 接连面世,基准测试的提升幅度开始趋于平缓。固定模型在真实场景下的表现,仅因缰绳不同就能波动 2 倍以上——这意味着我们进入了"换缰绳"比"换模型"更划算的时代。
2. 提示词无力解决的问题在不断堆积。"工具太多,模型挑错了。""上下文塞得太满,重要信号被淹没。""长任务跑到一半,代理就跟丢了主线。"这些都不是单轮里换个更聪明的措辞就能解决的——它们是设计层面的问题。
3. 生产级 AI 代理的瓶颈,已经转移到了缰绳上。2024 年是让 LLM 更聪明的竞赛。2025 到 2026 年则是让缰绳更聪明的竞赛。Anthropic 的 Claude Code、OpenAI 的 Codex、Cursor、Devin——所有头部产品都在缰绳工程上一较高下。
5. 实用缰绳设计清单
优秀缰绳的 7 项检查点
6. 主流缰绳横向对比
主流 AI 代理缰绳的设计倾向
这些缰绳运行在大致相同的 LLM(Claude / GPT / Gemini)之上,长处却因设计哲学不同而显著分化。"用哪个缰绳"比"用哪个 LLM"更重要——这才是代理时代真正的战场。
7. 反模式
1. 工具加得太多
一旦工具数量超过约 20 个,LLM 挑错的概率会陡增。狠下心只保留真正必需的工具,相似的合并掉。
2. 把所有东西都塞进上下文
"为了保险,干脆全都给它看"是适得其反的做法。过一道相关性过滤,只放必要的内容。上下文是凸显重要信号的装置——而非储物柜。
3. 仅靠提示词来实现安全
"请不要执行危险操作"——这种叮嘱迟早会被无视,时机各看情况。正确做法是在环境层面让其物理上不可行——沙箱、Hooks、权限限制。
总结
缰绳工程是设计 LLM "外侧"那一层的手艺。提示词工程不过是缰绳之中的一个组件而已。把六大要素——工具定义、上下文管理、记忆、循环、护栏、输出 UX——一一审慎对待,同一个底层 LLM 也能在真实场景中焕然一新。
截至 2026 年,生产级 AI 代理的主战场已明确转移到了缰绳一侧。打造"聪明的缰绳"——而不仅仅是写出"聪明的提示词"——将是下一代工程师的差异化所在。
FAQ
Q1. 那提示词工程不再需要了吗?
错。它依然不可或缺——只是作为缰绳之中的一个组件。工具描述、系统提示、错误信息——它们都是提示词设计的对象面。过时的,是"靠一个更妙的提示词把它修好"这种心态。
Q2. 学习缰绳工程的第一步是什么?
找一个 Claude Code 或 Cursor,不要只是用——通过修改它的配置去改变它的行为。写一份 CLAUDE.md / .cursor/rules。试用 Hooks。自己造一个 slash command。这就是亲手感受缰绳到底是什么。
Q3. 缰绳和 LangChain 这类框架是一回事吗?
接近,但并不相同。框架是实现工具箱;缰绳是设计学科与思维方式。LangChain、LlamaIndex、Claude Agent SDK等都属于构建缰绳的工具。
Q4. 自己造缰绳,还是用现成的?
多数情况下,现成缰绳(Claude Code、Cursor 等)+ 自定义就够了。从零自造只在企业级要求、垂直领域或极致成本优化等场景下才有意义。
Q5. "缰绳工程师"会成为正式的职位名称吗?
苗头已经显现。Anthropic、OpenAI、Cursor 等打造代理的公司,已经开始招聘"Agent Engineer"、"Tool Designer"、"Context Engineer"等岗位。到 2027 至 2028 年,它很可能会沉淀为一个独立的职业类别。