AI代理与自动化：RAG、工作流与实战指南【2026】

什么是 AI 可观测性？面向初学者的 LLM 与智能体监控、追踪入门

在《如何搭建多智能体系统》中我们说过，增加智能体前先为每次交接装上度量；支撑这种度量的技术正是 AI 可观测性。它让你看清 LLM 与智能体在生产环境中究竟在做什么，从而能回溯到原因。与普通应用监控的决定性区别在于：AI 可以返回 200 OK、50ms 却仍自信地产生幻觉，所以多数 AI 故障是质量故障而非基础设施故障。可观测性基于三大支柱：trace、metrics 与 logs。可观测性展示"发生了什么"，评估（evals）则衡量答案好不好，两者需成套使用。本文梳理关键指标与 LangSmith、Langfuse、Arize Phoenix、MLflow、AgentOps、OpenTelemetry 等主要工具，并讲解如何起步以及为何对智能体至关重要。

2026/06/19

AI开发与编程 AI代理与自动化新手入门

如何构建多智能体系统：主管模式实践指南

在掌握"什么是多智能体系统？"的概念之后，这是动手实践的续篇。以 2026 年事实上的标准——主管模式为题材，带初学者走完 5 步构建流程。核心原则：先用单一智能体构建，撞到瓶颈后再以最小配置增加（约 80% 的用途用一个就够；对简单的直线式流程使用多智能体会让成本膨胀 3-10x，据 Google 研究在顺序型任务上精度还会下降 -39-70%）。应转向多智能体的 3 个信号：专业性分离、并行性、判断分离。主管接收整体任务、分解、委派给专业工作者并汇总结果——Claude Code 子智能体、LangGraph Supervisor 与 OpenAI Agents SDK 的交接都收敛到了这一形态，因为它框架支持最广、失败模式已知、易于审计。5 步：①事先清晰分解；②定义工作者，一个角色＋工具＋输出格式（最多 3-5 个）；③设计主管，明确列出可调用名称（硬上限）并在此花最多时间；④确定交接与上下文共享，只传必要信息（标准是 A2A）；⑤增加前测量每次交接，给迭代/token/成本设上限，准备好 evals 与护栏。伪代码展示工作者定义、硬上限主管与带迭代上限的运行循环。共通教训：比起框架，提示词、工具设计与评估框架更能决定成败。小步构建、测量、只在划算时增加。图表引用自公开资料与研究，视条件而定。

2026/06/19

AI开发与编程 AI代理与自动化新手入门

什么是多智能体系统？面向初学者讲清多个 AI 智能体如何协同

「把一个 AI 智能体无法独自完成的复杂任务拆分给多个智能体来分担」，正是多智能体系统的核心思路。本文面向初学者梳理其运作机制、主要模式与主流框架，更重要的是不带夸张地给出真正的决策准则：什么时候该用多个智能体、什么时候一个就够。多智能体系统让多个角色各异的 AI 协同解决一个大型任务；相对于独自包揽全部的单智能体（约 80% 的场景已够用，且便宜、易调试），它按专长分工以实现并行处理与交叉校验，代价是更高的协调成本与 token 消耗。四种主流编排模式为：orchestrator-worker（总指挥拆解、并行分派 worker 再整合，最普及且有审计轨迹）、顺序交接（连同上下文交给下一个）、群组对话（在同一线程辩论、由选择器决定谁发言，擅长交叉验证）、图状态机（智能体为节点、转移为边、显式管理状态，擅长分支与检查点）。框架在 2026 年收敛为 LangGraph（生产采用规模最大）、CrewAI（学习曲线最低、原型开发）、AutoGen/AG2（辩论与验证、研究）与 OpenAI Swarm（轻量交接）。但它并非万能：复杂跨领域任务在推理基准上最高 +23%，而单线顺序任务上 Google 研究发现相比单智能体 −39-70%，把同样算力给单智能体往往打平甚至胜出，且据报告每 10 个部署有 7 个只增成本无回报、token 消耗约 15 倍（瞄准得当时平均 ROI 2.5-3.5 倍、头部四分位 4-6 倍）。推荐路径：先构建单智能体，找出具体瓶颈（角色混淆、可并行化），再以 2-3 个智能体的总指挥型最小团队起步并设好成本上限与日志，然后度量准确率提升是否值得这笔增量。A2A（通信协议）与 MCP（工具连接）是支撑多智能体的底层技术。80% 用单智能体，只有难啃的部分才上多智能体。文中数值引自调查与研究，依赖具体条件，仅作方向性参考。

2026/06/19

AI开发与编程 AI代理与自动化新手入门

什么是 A2A（Agent2Agent）？与 MCP 的区别、Agent Card 及其工作原理

AI 智能体已日益普及，下一个挑战是如何让智能体彼此协作。如果说 MCP 把智能体连接到工具，那么 A2A（Agent2Agent）就是把智能体连接到另一个智能体 —— 一套开放标准，让基于不同厂商和框架构建的 AI 通过共同约定相互发现、通信与协作。Google 于 2025 年 4 月发布，同年 6 月将其捐赠给 Linux Foundation，到 2026 年达到 v1.0。这篇初学者指南涵盖：A2A 是什么（用「企业间业务合作的礼仪」作比喻）、为什么需要它（各有专长的智能体接力工作 —— 规划智能体到酒店预订智能体再到支付智能体）、它与 MCP 有何不同（MCP 是纵向，智能体 ↔ 工具；A2A 是横向，智能体 ↔ 智能体；把两者叠加是标准的双层结构）、它如何运作（通过 Agent Card —— 位于 /.well-known/agent-card.json 的 JSON「名片」—— 来发现能力，然后用 Task 携带请求经过 working、input-required、completed 等状态，并以 Artifact 返回结果，全部基于 HTTP、Server-Sent Events 和 JSON-RPC 2.0，且智能体保持内部细节隐藏），以及现状与落地实现（截至 2026 年 4 月，150+ 家组织在生产环境使用，22,000+ GitHub stars，提供五种语言的 SDK —— Python、JavaScript、Java、Go、.NET —— Microsoft、Salesforce、SAP、ServiceNow 均有参与）。口诀：连接工具 = MCP，连接同伴 = A2A。

2026/06/13

AI开发与编程 AI代理与自动化新手入门

什么是重排序（reranking）？提升 RAG 准确率的两阶段检索——初学者指南

你搭好了 RAG，但检索质量却平平——这正是重排序能派上用场的时候。重排序把嵌入（向量）检索粗略收集到的候选，按它们与查询的相关度重新打分并重新排序，只保留最前面的那些；仅这一步就能大幅改变 RAG 系统的回答质量。本初学者指南讲解重排序是什么（以"初筛加终面"作比），为什么需要它（嵌入检索把查询和文档分开向量化，因此只能粗略判断相关度，而糟糕的排序会直接拉低回答质量——研究报告称加入重排序约带来 40% 的 RAG 准确率提升，把它叠加到混合检索上已是 2026 年的标准做法），两阶段检索如何运作（先用快速嵌入检索"广撒网"求召回，再用重排序器"智能筛"求精度，然后把最前面的交给 LLM），为什么重排序器更准确（bi-encoder 把查询和文档各自向量化，快但近似；cross-encoder 把两者一起喂入并输出 0–1 的相关度分数，准确但开销大——所以用快速的 bi-encoder 收集，用准确的 cross-encoder 筛选），以及模型与实现（API 型如 Cohere Rerank、Voyage、Jina；开源型如 BGE reranker、mixedbread、FlashRank；以及基于 LLM 的打分如 RankLLM——只需检索 50–100 个再筛到前 5 个）。原则就是：广撒网、智能筛，并用 AI 评测来调整数量。

2026/06/13

AI代理与自动化 AI安全与治理新手入门

什么是 AI 护栏？提示注入防御与输入/输出防护——初学者指南

当你能够构建 AI 应用之后，下一阶段就是安全地运行它们。LLM 可能被恶意输入欺骗、泄露机密数据，或一本正经地胡说八道；防止这一切的安全机制就是 AI 护栏。随着 AI 智能体事故在 2026 年真实发生，护栏已成为生产环境运行不可或缺的一部分。护栏是拦住危险输入和不希望出现的输出的规则与过滤器，在用户输入到达 LLM 之前、以及回答返回之前都进行检查——这是独立于模型自身之外的安全层。主要威胁包括提示注入（最大的威胁）、越狱、数据泄露（机密数据、PII、系统提示），以及幻觉或有害输出。防护在两层进行：输入护栏（检测注入和越狱、检测/屏蔽 PII、限制话题、净化）与输出护栏（过滤有害内容、防止泄露、检查幻觉、验证格式）。提示注入在 OWASP LLM Top 10 中被列为最严重的一项，分为直接（用户输入"忽略之前的所有指令"）和间接（命令藏在网页或 RAG 文档中）两种形式；间接注入仅靠 RAG 挡不住，因此检索到的文档需要单独检查。本初学者指南还介绍了工具（LLM Guard、Guardrails AI、NeMo Guardrails、Llama Guard，以及 Azure、AWS、OpenAI 的云端安全功能），以及纵深防御、最小权限、人工审批和持续监控等实践原则。

2026/06/13

AI开发与编程 AI代理与自动化新手入门

什么是嵌入（向量）？意义如何变成数字、有何用途、如何选择模型

RAG、语义搜索和推荐系统，背后都靠一个无名功臣：嵌入（向量）。嵌入就是把文本（或图像）的意义转换成一串数字，即向量。"狗"这个词会变成数百到数千个数字组成的列表，充当"意义的坐标"，于是意义接近的词语彼此靠近（"狗"和"小狗"很近，"狗"和"汽车"很远），其接近度可用余弦相似度等指标量化。著名的例子是"国王 − 男人 + 女人 ≈ 女王"。正因如此，即使字面不一致，机器也能判断意义是否接近。本入门指南讲解什么是嵌入（一张"意义的地图"）、为什么接近度能衡量意义（维度与余弦相似度）、能用来做什么（RAG、语义搜索、分类与去重、推荐及多模态）、如何选择嵌入模型（API 型如 OpenAI text-embedding-3、Cohere、Gemini、Voyage；开源型如 BGE-M3、Nomic、Qwen3；以及 Matryoshka，可把 3,072 维降到 1,024 维，仍保留约 95% 质量而成本约为三分之一），以及向量数据库（Pinecone、Weaviate、Qdrant、Chroma、pgvector）和三步上手法（选模型、把文档向量化并存储、把问题向量化并检索）。嵌入是实现 RAG 的根基。

2026/06/13

AI开发与编程 AI代理与自动化新手入门

什么是 AI evals（与 LLM-as-judge）？工作原理、偏见与工具——初学者指南

你打磨了提示词，用 RAG 补充了知识，或许还做了微调——那么如何确认它真的变好了？这时 AI evals 登场，到了 2026 年，评估已不可或缺，人们甚至称它为「基础设施」。AI evals 就是系统化地衡量 LLM 输出的质量（准确性、幻觉、格式遵循、语气），用固定的尺子而非凭感觉来打分；没有它，改进就只是直觉。评估有两种方法：可机械衡量的项目用代码评估（完全匹配、格式、必需词/禁用词——快、便宜、稳定），主观项目用 LLM-as-judge（用强大的 LLM 当裁判，通过成对比较或单输出评分给输出打分）。原则是：凡是代码能衡量的就用代码衡量。LLM-as-judge 有冗长、位置和自我偏好三种偏见；应对方法是用不同系列的模型当评分者、交换顺序打两次分、把简洁性写进评分量规，以及用人工判断来校准。粗粒度刻度（pass/fail 或 1–3）优于细粒度的 1–10。实践中要跑三个层级——每次改动的即时代码检查、每晚的 LLM-as-judge 回归测试，以及持续的生产监控——CI 可用 DeepEval、Promptfoo、RAGAS，监控可用 Braintrust、LangSmith、Arize。先从收集 10 个好输出和 10 个坏输出并给它们打分开始。

2026/06/13

AI开发与编程 AI代理与自动化新手入门

什么是规格驱动开发（SDD）？四个步骤、主要工具，以及它与 vibe coding 的区别

在 AI 代写代码的时代，更具价值的技能正从「写代码」转向「写规格」，而象征这一趋势的实践正是规格驱动开发（SDD）。SDD 把规格当作项目的中心文档与「正本」，由 AI 智能体据此推导设计、拆解与实现，而非一上来就写代码；其关键在于每一步都留下一份文档（多为 Markdown）供下一步读取。本篇初学者指南讲解：SDD 是什么（规格为正本，代码是派生物）；为何现在需要它（它在设计阶段就防止 vibe coding 那道由技术债与需求漂移构成的「三个月之墙」——GitHub 报告称「从零重做」的次数减少了大约一个数量级）；基本的四个步骤（Specify → Plan → Tasks → Implement）；主要工具（拥有 9 万以上星标、支持 30 多种智能体的 GitHub Spec Kit，走 Requirements → Design → Tasks 流程并配备 Auto 路由器的 AWS Kiro，以及 BMAD、OpenSpec、Tessl、Google Antigravity 与 Cursor）；如何与 vibe coding 搭配取舍（混合方式：探索用 vibe，交付用规格驱动，且人工审查必不可少）；以及如何从今天开始尝试。在 AI 时代，脱颖而出的不是写代码最快的人，而是能精确定义要做什么的人。

2026/06/13

AI开发与编程 AI代理与自动化新手入门

什么是上下文工程？提示词之后的下一项技能，以及如何战胜「context rot」

用好 AI 的技术重心，正在从提示词工程转向上下文工程。借用 Anthropic 的定义，上下文工程是「在推理过程中，对交给模型的最优 tokens（信息）集合进行筛选与维护的一整套策略」——它涵盖的不只是提示词，而是上下文窗口里的一切：系统提示词、工具、对话历史以及外部数据。它之所以重要，是因为存在「context rot（上下文腐化）」：你加入的 tokens 越多，准确率反而越下降。Chroma 在 2025 年测试了 18 个主流模型（GPT、Claude、Gemini 等），结果无一例外都随输入变长而退化，长上下文中间位置的信息尤其容易被忽略（lost in the middle）。这篇面向初学者的指南讲解了什么是上下文工程、它与提示词工程的关系、context rot 为何发生（注意力是一笔有限的预算）、上下文里到底装了什么、六大核心技巧（合适高度的指令、精选工具、即时检索、压缩/摘要压缩、外部记忆笔记，以及子智能体隔离）、它与 RAG 和 Claude Skills 的关系，还有今天就能用上的习惯，例如话题变了就开新会话、只粘贴要点。核心理念是：只保留最精简、信号最强的 tokens。

2026/06/13

Claude AI代理与自动化新手入门

什么是 Claude Skills（Agent Skills）？工作原理、制作方法，以及它与 MCP 有何不同

一篇面向初学者的 Claude Skills（Agent Skills）入门指南——这套机制让你彻底告别反复向 Claude 解释同样步骤的麻烦。技能把指令、脚本和参考资料打包进一个文件夹，核心是一份记录着 name、description 和操作步骤的 SKILL.md 文件。大多数时候 Claude 只读取每个技能的简短说明，只有当你的请求与之匹配时才展开正文——这种设计被称为渐进式披露，即便装了几十个技能也能让上下文保持轻量。本文涵盖：Skills 是什么、为何重要（不必再粘贴提示词）、如何编写 SKILL.md 与最小文件夹结构、如何动手制作（用官方 skill-creator 或手动搭建，放进 .claude/skills，2026 年 1 月起改动可即时生效）、Skills 与 MCP（连通性）和子代理（上下文隔离）的区别，以及这套开放标准如何在 Claude 应用、Claude Code、API 和 Agent SDK 之外，被 Codex CLI、Cursor、Gemini CLI 和 GitHub Copilot 采纳，还有文档生成、落实内部规范等具体用途。该功能由 Anthropic 于 2025 年 10 月 16 日发布，被 Simon Willison 称为"也许比 MCP 更重要"。

2026/06/13

AI代理与自动化工作效率新手入门

AI 操作浏览器到底能自动化到哪一步？填表单、预订与调研的现实

「我让 AI 帮忙，它就打开浏览器自己查资料，连表单都帮我填好了。」在 2026 年，这已不再是演示桥段：ChatGPT Atlas、Claude for Chrome、Gemini／Chrome、Perplexity Comet 等智能体型浏览器集中涌现。那么它们到底能自动化到什么程度？现实清晰地分成三个层级。（1）调研＝已实用：在测试真实网站的 WebVoyager 上头部智能体达到 89-98%，近乎饱和，且出错代价小，应从这里开始放手交托。（2）填表单＝能做但要核对：输入本身各家都支持，但可能填错字段或按错提交，因此「AI 起草、人来发送」才安全，Atlas 等许多产品会在重要操作前请求确认。（3）预订／支付＝仍需自己来：智能体会栽在 CAPTCHA、复杂 JavaScript 结账、双因素认证与会话管理上，在 WebArena 上即便最好也只有约 47-68%，低于人类约 78% 的基准；OpenAI 关停单体 Operator 正是因为结账不够可靠。文章先梳理两种方式（面向消费者的浏览器／扩展，对面向开发者的 API／OSS），再盘点 2026 年的玩家（Atlas 设计上不可运行代码或读密码；Claude for Chrome 为扩展侧边栏；Google 的 Project Mariner 于 2026/5/4 并入 Gemini／Chrome；Operator 转入 ChatGPT Agent 与 Agents SDK；开源 browser-use 已超 78k 星标），解释让预订失败的四道墙，并深入剖析最大陷阱——间接提示词注入（Comet 曾被证实存在零点击窃取凭据的漏洞并于 2026 年 2 月修复，攻击成功率从防御前 23.6% 降到基础防御约 11%、最强防御约 1%，但仍非零），最后给出五条安全原则。它是出色的调研搭档，但涉及金钱的操作还是自己来。文中数值引自公开资料与公告，仅作趋势参考。

2026/06/10