跳到内容
AI Platform

AI,更自由。

通俗易懂地为你带来AI使用方法、实用技巧和最新资讯。
还有免费AI课程和AI能力测评。

AI Arte 提供的服务

AI能力测评

已上线

AI基础能力测试

通过20道题测试你的AI基础知识水平。

即将推出

提示词能力测试

测量你编写有效AI提示词的能力。

即将推出

AI应用能力测试

评估你在实际工作中运用AI的能力。

精选文章

什么是 Agent Evals?同时衡量结果与 trajectory

什么是 Agent Evals?同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进,把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态,仅凭最终输出是不够的;Google 指出你必须理解智能体行动背后的「为什么」,并把评估分为最终响应与 trajectory。五个维度是:结果(任务成功,以最终状态判断——DB 中是否存在一条预订记录,而非「我订好了」这句话)、trajectory(步骤是否合理、是否以正确顺序使用对的工具)、工具使用的正确性(对的工具与参数,检查函数名和类型)、效率(步数、token、成本、延迟——往往是被引入评估的可观测性信号),以及最终响应的质量(用 LLM-as-judge 或评分量表)。打分器有代码(快/便宜/可复现但脆弱)、LLM-as-judge(灵活但非确定性、需校准)和人工(黄金标准但昂贵——能避免就避免)。Anthropic 建议给结果而非路径打分:机械的 trajectory 匹配「太死板、太脆弱」,因为智能体会找到合理的替代方案,而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性(pass^k)、误差累积(p^t)、奖励黑客(DeepMind 的机械臂伪装抓取),以及过时或被污染的评估集。Anthropic 的实战打法:把 20~50 个生产失败变成测试用例,在 CI 中运行自动打分,区分能力评估与回归评估,并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考(分数随版本变化,别照单全收)。基于官方信息,并对不确定之处加以标注。

最新文章

查看全部
什么是 Agent Evals?同时衡量结果与 trajectory

什么是 Agent Evals?同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进,把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态,仅凭最终输出是不够的;Google 指出你必须理解智能体行动背后的「为什么」,并把评估分为最终响应与 trajectory。五个维度是:结果(任务成功,以最终状态判断——DB 中是否存在一条预订记录,而非「我订好了」这句话)、trajectory(步骤是否合理、是否以正确顺序使用对的工具)、工具使用的正确性(对的工具与参数,检查函数名和类型)、效率(步数、token、成本、延迟——往往是被引入评估的可观测性信号),以及最终响应的质量(用 LLM-as-judge 或评分量表)。打分器有代码(快/便宜/可复现但脆弱)、LLM-as-judge(灵活但非确定性、需校准)和人工(黄金标准但昂贵——能避免就避免)。Anthropic 建议给结果而非路径打分:机械的 trajectory 匹配「太死板、太脆弱」,因为智能体会找到合理的替代方案,而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性(pass^k)、误差累积(p^t)、奖励黑客(DeepMind 的机械臂伪装抓取),以及过时或被污染的评估集。Anthropic 的实战打法:把 20~50 个生产失败变成测试用例,在 CI 中运行自动打分,区分能力评估与回归评估,并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考(分数随版本变化,别照单全收)。基于官方信息,并对不确定之处加以标注。

什么是 Claude Code hooks?确定性地运行 shell 命令

什么是 Claude Code hooks?确定性地运行 shell 命令

Claude Code hooks 是用户定义的 shell 命令,在 Claude Code 生命周期的特定时点自动运行,让「必须始终发生」的事真正落地、确定性执行,而不依赖 LLM 的判断。经典事件有 9 个——SessionStart、UserPromptSubmit、PreToolUse、PostToolUse、Notification、Stop、SubagentStop、SessionEnd、PreCompact——其中 PreToolUse 等可拦截(阻止受保护文件编辑或危险命令)。你在 settings.json 的 "hooks" 键下以「事件名 → matcher → type + command」的形式配置。输入/输出约定:钩子从 stdin 接收 JSON(session_id、tool_input 等),并通过退出码 0(成功)/ 2(拦截,stderr 回传给 Claude)或结构化 JSON(continue、decision:block、permissionDecision: deny/allow/ask)返回。核心原则是「钩子可以收紧但不能放松限制」(deny 始终胜出,即便在 bypassPermissions 下也会拦截)。经典用例:编辑后自动格式化(PostToolUse + Edit|Write)、保护关键文件、拦住危险命令、重新注入上下文(SessionStart)、通知/审计日志、停止前先测试(Stop)。安全方面,钩子以你的权限运行任意 shell 命令,故只配置可信的钩子并校验/加引号处理输入;钩子配置在会话启动时被捕获固定(一项安全特性),因此会话中途的改动不会生效。基于官方文档,以经典的 9 个事件和输入/输出约定为锚点。

Claude Code 的 checkpointing 与 /rewind 是什么?回退改动

Claude Code 的 checkpointing 与 /rewind 是什么?回退改动

checkpointing 与 /rewind 是一张安全网:Claude Code 会在你工作时自动追踪 Claude 的文件编辑,让你用几下按键回退到"出问题之前"。系统在每次编辑前拍下快照,你发送的每个提示都会成为一个还原点,且检查点跨会话保留。使用时,输入 /rewind 或在输入框为空时连按两次 Esc 打开菜单,选好一个点,然后选择还原代码和对话 / 还原对话 / 还原代码(注意:如果输入框含有文字,连按两次 Esc 会改为将其清空)。最重要的注意点:只有由 Claude 的编辑工具(Write/Edit/NotebookEdit)所做的改动会被还原——bash 命令(rm/mv/cp)的文件改动、会话之外或来自其他会话的改动、目录操作、远程文件以及数据库状态都不会因回退而被撤销。文档将其定位为"检查点 = 本地撤销,Git = 永久历史",指出它是补充而非替代版本控制,因此原则上要在里程碑处向 Git 提交。/rewind 也是与工具调用并发和思考块相关的 400 错误的恢复方法(产品本身会提示你运行它),不过 v2.1.156 之前的版本可能无法清除它,因此先 claude update 为上。它在交互式 CLI 中默认开启,在 Agent SDK 中需选择启用,并随会话保留 30 天(可配置)。基于官方文档,并标注了不确定之处。

什么是 Claude Managed Agents?Anthropic 的全托管云

什么是 Claude Managed Agents?Anthropic 的全托管云

Claude Managed Agents 于 2026 年 4 月 8 日作为公测发布,是一套用于大规模构建和部署云托管智能体的可组合 API。你不必再自己搭建智能体循环、工具执行和运行时,而是获得一个全托管环境,Claude 可以在其中安全地读取文件、运行命令、浏览网页并执行代码,提示缓存、上下文压缩、沙箱化与状态持久化都内置其中。它围绕四个概念(Agent、Environment、Session、Events)组织,Environment 可以是 Anthropic 托管的云沙箱,也可以是自托管沙箱。它与自托管的 Agent SDK(由你运行循环、工具与基础设施)的区别在于"你来运行 vs Anthropic 来运行"——并非竞争对手,而是关于你自己掌握多少运营的选择。一项标志性功能是工作区范围的持久化记忆(memory store),挂载在沙箱的 /mnt/memory,智能体用普通的文件操作读写它,并跨 session 持久保留(不可变版本、保留 30 天、每条记忆 100 kB 等限制)。dreaming 是一个异步任务,它读取现有记忆和过往文字记录以产出一个经过重组的 memory store——合并重复项、更新过时的值,并浮现出新的洞见(研究预览,需申请访问;有人称其为"定时",但文档描述的是按需异步任务)。它还具备基于结果的评分(独立评分器依据你的量表评估;报告称最多提升 10 个百分点)与多智能体编排。定价为 tokens + 每个 session-hour $0.08(精确到毫秒计量,仅在 running 时;一次 1 小时的 Opus 4.8 session 约为 $0.705)。对所有 API 账户默认启用,但因有状态而不符合 ZDR 或 HIPAA BAA 资格。基于官方信息,并标注了不确定之处。

Claude Code 插件与 marketplace 是什么?完全指南

Claude Code 插件与 marketplace 是什么?完全指南

随着对 Claude Code 的深入使用,你会积累起自己的斜杠命令、子代理、MCP 服务器和钩子。插件把它们打包成一个整体,让你能进行版本管理,并在团队与项目之间共享、复用,而 marketplace 则是它们的分发场所。本文基于官方文档,梳理什么是插件、它的结构、如何使用、marketplace、自制与发布,以及分发范围与安全性。

Claude Code 的 Subagents 与 Agent Teams 有何不同:层级式 vs 对等协作

Claude Code 的 Subagents 与 Agent Teams 有何不同:层级式 vs 对等协作

Claude Code 的 Subagents 和 Agent Teams 都用于让多个 AI 分工,但协调模型不同。Subagents 是内置功能,主智能体把专注任务委派给拥有全新上下文的助手并只取回摘要(层级式、用完即弃、最多嵌套 5 层)。Agent Teams 是实验性、默认关闭的功能,需设置 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1,让多个独立会话通过共享任务列表对等协作(持久、不可嵌套)。本文基于官方文档梳理两者的决定性差异、该用哪一个以及使用方法。