跳到内容

AI工具使用指南、对比分析、最新资讯

面向初学者的AI工具使用指南、对比分析和最新资讯

精选文章

什么是 Agent Evals?同时衡量结果与 trajectory
Claude AI开发与编程 新手入门

什么是 Agent Evals?同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进,把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态,仅凭最终输出是不够的;Google 指出你必须理解智能体行动背后的「为什么」,并把评估分为最终响应与 trajectory。五个维度是:结果(任务成功,以最终状态判断——DB 中是否存在一条预订记录,而非「我订好了」这句话)、trajectory(步骤是否合理、是否以正确顺序使用对的工具)、工具使用的正确性(对的工具与参数,检查函数名和类型)、效率(步数、token、成本、延迟——往往是被引入评估的可观测性信号),以及最终响应的质量(用 LLM-as-judge 或评分量表)。打分器有代码(快/便宜/可复现但脆弱)、LLM-as-judge(灵活但非确定性、需校准)和人工(黄金标准但昂贵——能避免就避免)。Anthropic 建议给结果而非路径打分:机械的 trajectory 匹配「太死板、太脆弱」,因为智能体会找到合理的替代方案,而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性(pass^k)、误差累积(p^t)、奖励黑客(DeepMind 的机械臂伪装抓取),以及过时或被污染的评估集。Anthropic 的实战打法:把 20~50 个生产失败变成测试用例,在 CI 中运行自动打分,区分能力评估与回归评估,并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考(分数随版本变化,别照单全收)。基于官方信息,并对不确定之处加以标注。

最新文章

145 篇文章
什么是 Agent Evals?同时衡量结果与 trajectory

什么是 Agent Evals?同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进,把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态,仅凭最终输出是不够的;Google 指出你必须理解智能体行动背后的「为什么」,并把评估分为最终响应与 trajectory。五个维度是:结果(任务成功,以最终状态判断——DB 中是否存在一条预订记录,而非「我订好了」这句话)、trajectory(步骤是否合理、是否以正确顺序使用对的工具)、工具使用的正确性(对的工具与参数,检查函数名和类型)、效率(步数、token、成本、延迟——往往是被引入评估的可观测性信号),以及最终响应的质量(用 LLM-as-judge 或评分量表)。打分器有代码(快/便宜/可复现但脆弱)、LLM-as-judge(灵活但非确定性、需校准)和人工(黄金标准但昂贵——能避免就避免)。Anthropic 建议给结果而非路径打分:机械的 trajectory 匹配「太死板、太脆弱」,因为智能体会找到合理的替代方案,而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性(pass^k)、误差累积(p^t)、奖励黑客(DeepMind 的机械臂伪装抓取),以及过时或被污染的评估集。Anthropic 的实战打法:把 20~50 个生产失败变成测试用例,在 CI 中运行自动打分,区分能力评估与回归评估,并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考(分数随版本变化,别照单全收)。基于官方信息,并对不确定之处加以标注。

什么是 Claude Code hooks?确定性地运行 shell 命令

什么是 Claude Code hooks?确定性地运行 shell 命令

Claude Code hooks 是用户定义的 shell 命令,在 Claude Code 生命周期的特定时点自动运行,让「必须始终发生」的事真正落地、确定性执行,而不依赖 LLM 的判断。经典事件有 9 个——SessionStart、UserPromptSubmit、PreToolUse、PostToolUse、Notification、Stop、SubagentStop、SessionEnd、PreCompact——其中 PreToolUse 等可拦截(阻止受保护文件编辑或危险命令)。你在 settings.json 的 "hooks" 键下以「事件名 → matcher → type + command」的形式配置。输入/输出约定:钩子从 stdin 接收 JSON(session_id、tool_input 等),并通过退出码 0(成功)/ 2(拦截,stderr 回传给 Claude)或结构化 JSON(continue、decision:block、permissionDecision: deny/allow/ask)返回。核心原则是「钩子可以收紧但不能放松限制」(deny 始终胜出,即便在 bypassPermissions 下也会拦截)。经典用例:编辑后自动格式化(PostToolUse + Edit|Write)、保护关键文件、拦住危险命令、重新注入上下文(SessionStart)、通知/审计日志、停止前先测试(Stop)。安全方面,钩子以你的权限运行任意 shell 命令,故只配置可信的钩子并校验/加引号处理输入;钩子配置在会话启动时被捕获固定(一项安全特性),因此会话中途的改动不会生效。基于官方文档,以经典的 9 个事件和输入/输出约定为锚点。

Claude Code 的 checkpointing 与 /rewind 是什么?回退改动

Claude Code 的 checkpointing 与 /rewind 是什么?回退改动

checkpointing 与 /rewind 是一张安全网:Claude Code 会在你工作时自动追踪 Claude 的文件编辑,让你用几下按键回退到"出问题之前"。系统在每次编辑前拍下快照,你发送的每个提示都会成为一个还原点,且检查点跨会话保留。使用时,输入 /rewind 或在输入框为空时连按两次 Esc 打开菜单,选好一个点,然后选择还原代码和对话 / 还原对话 / 还原代码(注意:如果输入框含有文字,连按两次 Esc 会改为将其清空)。最重要的注意点:只有由 Claude 的编辑工具(Write/Edit/NotebookEdit)所做的改动会被还原——bash 命令(rm/mv/cp)的文件改动、会话之外或来自其他会话的改动、目录操作、远程文件以及数据库状态都不会因回退而被撤销。文档将其定位为"检查点 = 本地撤销,Git = 永久历史",指出它是补充而非替代版本控制,因此原则上要在里程碑处向 Git 提交。/rewind 也是与工具调用并发和思考块相关的 400 错误的恢复方法(产品本身会提示你运行它),不过 v2.1.156 之前的版本可能无法清除它,因此先 claude update 为上。它在交互式 CLI 中默认开启,在 Agent SDK 中需选择启用,并随会话保留 30 天(可配置)。基于官方文档,并标注了不确定之处。

什么是 Claude Managed Agents?Anthropic 的全托管云

什么是 Claude Managed Agents?Anthropic 的全托管云

Claude Managed Agents 于 2026 年 4 月 8 日作为公测发布,是一套用于大规模构建和部署云托管智能体的可组合 API。你不必再自己搭建智能体循环、工具执行和运行时,而是获得一个全托管环境,Claude 可以在其中安全地读取文件、运行命令、浏览网页并执行代码,提示缓存、上下文压缩、沙箱化与状态持久化都内置其中。它围绕四个概念(Agent、Environment、Session、Events)组织,Environment 可以是 Anthropic 托管的云沙箱,也可以是自托管沙箱。它与自托管的 Agent SDK(由你运行循环、工具与基础设施)的区别在于"你来运行 vs Anthropic 来运行"——并非竞争对手,而是关于你自己掌握多少运营的选择。一项标志性功能是工作区范围的持久化记忆(memory store),挂载在沙箱的 /mnt/memory,智能体用普通的文件操作读写它,并跨 session 持久保留(不可变版本、保留 30 天、每条记忆 100 kB 等限制)。dreaming 是一个异步任务,它读取现有记忆和过往文字记录以产出一个经过重组的 memory store——合并重复项、更新过时的值,并浮现出新的洞见(研究预览,需申请访问;有人称其为"定时",但文档描述的是按需异步任务)。它还具备基于结果的评分(独立评分器依据你的量表评估;报告称最多提升 10 个百分点)与多智能体编排。定价为 tokens + 每个 session-hour $0.08(精确到毫秒计量,仅在 running 时;一次 1 小时的 Opus 4.8 session 约为 $0.705)。对所有 API 账户默认启用,但因有状态而不符合 ZDR 或 HIPAA BAA 资格。基于官方信息,并标注了不确定之处。

Claude Code 插件与 marketplace 是什么?完全指南

Claude Code 插件与 marketplace 是什么?完全指南

随着对 Claude Code 的深入使用,你会积累起自己的斜杠命令、子代理、MCP 服务器和钩子。插件把它们打包成一个整体,让你能进行版本管理,并在团队与项目之间共享、复用,而 marketplace 则是它们的分发场所。本文基于官方文档,梳理什么是插件、它的结构、如何使用、marketplace、自制与发布,以及分发范围与安全性。

Claude Code 的 Subagents 与 Agent Teams 有何不同:层级式 vs 对等协作

Claude Code 的 Subagents 与 Agent Teams 有何不同:层级式 vs 对等协作

Claude Code 的 Subagents 和 Agent Teams 都用于让多个 AI 分工,但协调模型不同。Subagents 是内置功能,主智能体把专注任务委派给拥有全新上下文的助手并只取回摘要(层级式、用完即弃、最多嵌套 5 层)。Agent Teams 是实验性、默认关闭的功能,需设置 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1,让多个独立会话通过共享任务列表对等协作(持久、不可嵌套)。本文基于官方文档梳理两者的决定性差异、该用哪一个以及使用方法。

Claude Design 与 /design-sync 是什么:用对话做设计,与代码双向同步

Claude Design 与 /design-sync 是什么:用对话做设计,与代码双向同步

Claude Design 是 Anthropic Labs 的设计工具,可通过对话创建 UI、原型、幻灯片和单页文档(2026 年 4 月研究预览,6 月 17 日重大升级)。6 月亮点是设计系统导入(用真实组件构建)和与 Claude Code 的双向同步 /design-sync。/design-sync 是 Claude Code 命令,把设计系统拉进代码、再把代码推回画布,缩短设计师与开发者的往返。本文基于官方信息梳理它是什么、6 月升级、双向同步、使用条件以及为什么重要。

Claude Code Artifacts 是什么:把终端会话变成组织内共享的实时网页

Claude Code Artifacts 是什么:把终端会话变成组织内共享的实时网页

Claude Code Artifacts(2026 年 6 月 18 日测试版)把终端编码会话变成 claude.ai 私有 URL 上的“实时”共享页面。它适合 PR 走查、仪表盘、事件时间线、检查清单等“查看胜过阅读”的输出,源自整个会话、自动更新、仅限组织内。没有 /artifact 命令,用自然语言请求即可,Claude 写出 .html 并发布。但它是工作的捕捉而非应用:无后端、无外部请求(CSP)、单个页面、≤ 16 MiB,且需通过 /login 登录的 Team / Enterprise 套餐(不支持 API 密钥,仅 Anthropic API)。

Claude Code 出现 Not logged in / Invalid API key:认证登录错误的成因与修复

Claude Code 出现 Not logged in / Invalid API key:认证登录错误的成因与修复

Claude Code 的认证、登录错误(Not logged in/Invalid API key/organization disabled/OAuth token expired 等)大多是 401/403 凭据问题。最频繁的真因是环境变量 ANTHROPIC_API_KEY 悄悄覆盖订阅登录,引发意外按量计费。本文按 /status → 找出并 unset 多余密钥 → /logout、/login 的顺序讲清排查与防止再次发生的清单。

Claude Code 出现 command not found:安装、PATH 错误的成因与修复

Claude Code 出现 command not found:安装、PATH 错误的成因与修复

Claude Code 的 command not found / claude is not recognized 几乎都只是安装目录(~/.local/bin)没在 PATH 里,二进制其实存在。本文系统梳理安装方式与位置、修复 PATH、多重安装冲突、npm 的 EACCES 权限错误(不要 sudo,改用原生)、Windows 用错 shell 的陷阱,并按 claude doctor → which -a claude → 加 PATH → 删除多余版本 → 原生重装的顺序给出排查工作流。

Claude Code 网络、代理与 TLS 证书错误(Unable to connect):原因与解决方法

Claude Code 网络、代理与 TLS 证书错误(Unable to connect):原因与解决方法

在公司电脑上或通过 VPN 使用 Claude Code 时,出现 “Unable to connect to API”、“ECONNREFUSED”、“SSL certificate verification failed” 或 “fetch failed” 而连不上——这些都是网络错误,意味着请求根本没到达 Anthropic 服务器(api.anthropic.com),与认证(401/403)、服务器过载(529/500)和速率限制(429)不同。本文整理企业网络的三大阻断点(未配置的代理、替换证书的 TLS 检查代理、阻断域名的防火墙)以及 DNS/VPN/Docker,并涵盖代理设置(HTTPS_PROXY、NODE_EXTRA_CA_CERTS、绝不使用 NODE_TLS_REJECT_UNAUTHORIZED=0)、防火墙放行域名与排查工作流——全部基于官方信息。

Claude Code 的 529 Overloaded / 500 错误:成因与应对

Claude Code 的 529 Overloaded / 500 错误:成因与应对

Claude Code 的「API Error: 529 Overloaded」和「500 Internal server error」都是服务器端事件,并非你的请求或设置有误,也不消耗配额。Claude Code 在显示提示前已以指数退避自动重试最多 10 次。本文说明等待重试、用 /model 切换、查看状态页、/feedback 反馈等应对,以及它们与 429、usage limit 的区别和面向开发者的设计要点。

按分类浏览

GitHub Copilot

查看全部

Midjourney

查看全部

Stable Diffusion

查看全部

新手入门

查看全部

AI开发与编程

查看全部

开发环境与基础设施

查看全部

AI代理与自动化

查看全部

工作效率

查看全部

数据分析

查看全部

学习与教育

查看全部

副业与变现

查看全部

游戏开发

查看全部

AI安全与治理

查看全部

AI风险与社会影响

查看全部