AI Platform

AI，更自由。

通俗易懂地为你带来AI使用方法、实用技巧和最新资讯。
还有免费AI课程和AI能力测评。

阅读文章开始测评开始学习

AI Arte 提供的服务

AI能力测评

已上线

提示词能力测试

测量你编写有效AI提示词的能力。

即将推出

AI应用能力测试

评估你在实际工作中运用AI的能力。

精选文章

Claude AI开发与编程新手入门

什么是 Agent Evals？同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进，把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态，仅凭最终输出是不够的；Google 指出你必须理解智能体行动背后的「为什么」，并把评估分为最终响应与 trajectory。五个维度是：结果（任务成功，以最终状态判断——DB 中是否存在一条预订记录，而非「我订好了」这句话）、trajectory（步骤是否合理、是否以正确顺序使用对的工具）、工具使用的正确性（对的工具与参数，检查函数名和类型）、效率（步数、token、成本、延迟——往往是被引入评估的可观测性信号），以及最终响应的质量（用 LLM-as-judge 或评分量表）。打分器有代码（快／便宜／可复现但脆弱）、LLM-as-judge（灵活但非确定性、需校准）和人工（黄金标准但昂贵——能避免就避免）。Anthropic 建议给结果而非路径打分：机械的 trajectory 匹配「太死板、太脆弱」，因为智能体会找到合理的替代方案，而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性（pass^k）、误差累积（p^t）、奖励黑客（DeepMind 的机械臂伪装抓取），以及过时或被污染的评估集。Anthropic 的实战打法：把 20～50 个生产失败变成测试用例，在 CI 中运行自动打分，区分能力评估与回归评估，并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考（分数随版本变化，别照单全收）。基于官方信息，并对不确定之处加以标注。

2026/06/20

最新文章

查看全部

Claude AI开发与编程新手入门

什么是 Agent Evals？同时衡量结果与 trajectory

2026/06/20

Claude AI开发与编程新手入门

什么是 Claude Code hooks？确定性地运行 shell 命令

Claude Code hooks 是用户定义的 shell 命令，在 Claude Code 生命周期的特定时点自动运行，让「必须始终发生」的事真正落地、确定性执行，而不依赖 LLM 的判断。经典事件有 9 个——SessionStart、UserPromptSubmit、PreToolUse、PostToolUse、Notification、Stop、SubagentStop、SessionEnd、PreCompact——其中 PreToolUse 等可拦截（阻止受保护文件编辑或危险命令）。你在 settings.json 的 "hooks" 键下以「事件名 → matcher → type + command」的形式配置。输入/输出约定：钩子从 stdin 接收 JSON（session_id、tool_input 等），并通过退出码 0（成功）/ 2（拦截，stderr 回传给 Claude）或结构化 JSON（continue、decision:block、permissionDecision: deny/allow/ask）返回。核心原则是「钩子可以收紧但不能放松限制」（deny 始终胜出，即便在 bypassPermissions 下也会拦截）。经典用例：编辑后自动格式化（PostToolUse + Edit|Write）、保护关键文件、拦住危险命令、重新注入上下文（SessionStart）、通知/审计日志、停止前先测试（Stop）。安全方面，钩子以你的权限运行任意 shell 命令，故只配置可信的钩子并校验/加引号处理输入；钩子配置在会话启动时被捕获固定（一项安全特性），因此会话中途的改动不会生效。基于官方文档，以经典的 9 个事件和输入/输出约定为锚点。

2026/06/20

Claude AI开发与编程新手入门

Claude Code 的 checkpointing 与 /rewind 是什么？回退改动

checkpointing 与 /rewind 是一张安全网：Claude Code 会在你工作时自动追踪 Claude 的文件编辑，让你用几下按键回退到"出问题之前"。系统在每次编辑前拍下快照，你发送的每个提示都会成为一个还原点，且检查点跨会话保留。使用时，输入 /rewind 或在输入框为空时连按两次 Esc 打开菜单，选好一个点，然后选择还原代码和对话 / 还原对话 / 还原代码（注意：如果输入框含有文字，连按两次 Esc 会改为将其清空）。最重要的注意点：只有由 Claude 的编辑工具（Write/Edit/NotebookEdit）所做的改动会被还原——bash 命令（rm/mv/cp）的文件改动、会话之外或来自其他会话的改动、目录操作、远程文件以及数据库状态都不会因回退而被撤销。文档将其定位为"检查点 = 本地撤销，Git = 永久历史"，指出它是补充而非替代版本控制，因此原则上要在里程碑处向 Git 提交。/rewind 也是与工具调用并发和思考块相关的 400 错误的恢复方法（产品本身会提示你运行它），不过 v2.1.156 之前的版本可能无法清除它，因此先 claude update 为上。它在交互式 CLI 中默认开启，在 Agent SDK 中需选择启用，并随会话保留 30 天（可配置）。基于官方文档，并标注了不确定之处。

2026/06/20

Claude AI开发与编程新手入门

什么是 Claude Managed Agents？Anthropic 的全托管云

Claude Managed Agents 于 2026 年 4 月 8 日作为公测发布,是一套用于大规模构建和部署云托管智能体的可组合 API。你不必再自己搭建智能体循环、工具执行和运行时,而是获得一个全托管环境,Claude 可以在其中安全地读取文件、运行命令、浏览网页并执行代码,提示缓存、上下文压缩、沙箱化与状态持久化都内置其中。它围绕四个概念（Agent、Environment、Session、Events）组织,Environment 可以是 Anthropic 托管的云沙箱,也可以是自托管沙箱。它与自托管的 Agent SDK（由你运行循环、工具与基础设施）的区别在于"你来运行 vs Anthropic 来运行"——并非竞争对手,而是关于你自己掌握多少运营的选择。一项标志性功能是工作区范围的持久化记忆（memory store）,挂载在沙箱的 /mnt/memory,智能体用普通的文件操作读写它,并跨 session 持久保留（不可变版本、保留 30 天、每条记忆 100 kB 等限制）。dreaming 是一个异步任务,它读取现有记忆和过往文字记录以产出一个经过重组的 memory store——合并重复项、更新过时的值,并浮现出新的洞见（研究预览,需申请访问；有人称其为"定时",但文档描述的是按需异步任务）。它还具备基于结果的评分（独立评分器依据你的量表评估；报告称最多提升 10 个百分点）与多智能体编排。定价为 tokens + 每个 session-hour $0.08（精确到毫秒计量,仅在 running 时；一次 1 小时的 Opus 4.8 session 约为 $0.705）。对所有 API 账户默认启用,但因有状态而不符合 ZDR 或 HIPAA BAA 资格。基于官方信息,并标注了不确定之处。

2026/06/20

Claude AI开发与编程新手入门

Claude Code 插件与 marketplace 是什么？完全指南

随着对 Claude Code 的深入使用，你会积累起自己的斜杠命令、子代理、MCP 服务器和钩子。插件把它们打包成一个整体，让你能进行版本管理，并在团队与项目之间共享、复用，而 marketplace 则是它们的分发场所。本文基于官方文档，梳理什么是插件、它的结构、如何使用、marketplace、自制与发布，以及分发范围与安全性。

2026/06/20

Claude AI开发与编程新手入门

Claude Code 的 Subagents 与 Agent Teams 有何不同：层级式 vs 对等协作

Claude Code 的 Subagents 和 Agent Teams 都用于让多个 AI 分工，但协调模型不同。Subagents 是内置功能，主智能体把专注任务委派给拥有全新上下文的助手并只取回摘要（层级式、用完即弃、最多嵌套 5 层）。Agent Teams 是实验性、默认关闭的功能，需设置 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1，让多个独立会话通过共享任务列表对等协作（持久、不可嵌套）。本文基于官方文档梳理两者的决定性差异、该用哪一个以及使用方法。

2026/06/20

AI，更自由。

AI Arte 提供的服务

AI文章

AI能力测评

AI课程

AI能力测评

AI基础能力测试

提示词能力测试

AI应用能力测试

精选文章

什么是 Agent Evals？同时衡量结果与 trajectory

最新文章

什么是 Agent Evals？同时衡量结果与 trajectory

什么是 Claude Code hooks？确定性地运行 shell 命令

Claude Code 的 checkpointing 与 /rewind 是什么？回退改动

什么是 Claude Managed Agents？Anthropic 的全托管云

Claude Code 插件与 marketplace 是什么？完全指南

Claude Code 的 Subagents 与 Agent Teams 有何不同：层级式 vs 对等协作