跳到内容
AI工具

Claude

Anthropic Claude AI完整指南。学习如何使用Chat、Cowork和Code模式,附实用技巧和教程。

56 篇文章

排序文章以找到您需要的内容

什么是 Agent Evals?同时衡量结果与 trajectory

什么是 Agent Evals?同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进,把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态,仅凭最终输出是不够的;Google 指出你必须理解智能体行动背后的「为什么」,并把评估分为最终响应与 trajectory。五个维度是:结果(任务成功,以最终状态判断——DB 中是否存在一条预订记录,而非「我订好了」这句话)、trajectory(步骤是否合理、是否以正确顺序使用对的工具)、工具使用的正确性(对的工具与参数,检查函数名和类型)、效率(步数、token、成本、延迟——往往是被引入评估的可观测性信号),以及最终响应的质量(用 LLM-as-judge 或评分量表)。打分器有代码(快/便宜/可复现但脆弱)、LLM-as-judge(灵活但非确定性、需校准)和人工(黄金标准但昂贵——能避免就避免)。Anthropic 建议给结果而非路径打分:机械的 trajectory 匹配「太死板、太脆弱」,因为智能体会找到合理的替代方案,而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性(pass^k)、误差累积(p^t)、奖励黑客(DeepMind 的机械臂伪装抓取),以及过时或被污染的评估集。Anthropic 的实战打法:把 20~50 个生产失败变成测试用例,在 CI 中运行自动打分,区分能力评估与回归评估,并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考(分数随版本变化,别照单全收)。基于官方信息,并对不确定之处加以标注。

什么是 Claude Code hooks?确定性地运行 shell 命令

什么是 Claude Code hooks?确定性地运行 shell 命令

Claude Code hooks 是用户定义的 shell 命令,在 Claude Code 生命周期的特定时点自动运行,让「必须始终发生」的事真正落地、确定性执行,而不依赖 LLM 的判断。经典事件有 9 个——SessionStart、UserPromptSubmit、PreToolUse、PostToolUse、Notification、Stop、SubagentStop、SessionEnd、PreCompact——其中 PreToolUse 等可拦截(阻止受保护文件编辑或危险命令)。你在 settings.json 的 "hooks" 键下以「事件名 → matcher → type + command」的形式配置。输入/输出约定:钩子从 stdin 接收 JSON(session_id、tool_input 等),并通过退出码 0(成功)/ 2(拦截,stderr 回传给 Claude)或结构化 JSON(continue、decision:block、permissionDecision: deny/allow/ask)返回。核心原则是「钩子可以收紧但不能放松限制」(deny 始终胜出,即便在 bypassPermissions 下也会拦截)。经典用例:编辑后自动格式化(PostToolUse + Edit|Write)、保护关键文件、拦住危险命令、重新注入上下文(SessionStart)、通知/审计日志、停止前先测试(Stop)。安全方面,钩子以你的权限运行任意 shell 命令,故只配置可信的钩子并校验/加引号处理输入;钩子配置在会话启动时被捕获固定(一项安全特性),因此会话中途的改动不会生效。基于官方文档,以经典的 9 个事件和输入/输出约定为锚点。

Claude Code 的 checkpointing 与 /rewind 是什么?回退改动

Claude Code 的 checkpointing 与 /rewind 是什么?回退改动

checkpointing 与 /rewind 是一张安全网:Claude Code 会在你工作时自动追踪 Claude 的文件编辑,让你用几下按键回退到"出问题之前"。系统在每次编辑前拍下快照,你发送的每个提示都会成为一个还原点,且检查点跨会话保留。使用时,输入 /rewind 或在输入框为空时连按两次 Esc 打开菜单,选好一个点,然后选择还原代码和对话 / 还原对话 / 还原代码(注意:如果输入框含有文字,连按两次 Esc 会改为将其清空)。最重要的注意点:只有由 Claude 的编辑工具(Write/Edit/NotebookEdit)所做的改动会被还原——bash 命令(rm/mv/cp)的文件改动、会话之外或来自其他会话的改动、目录操作、远程文件以及数据库状态都不会因回退而被撤销。文档将其定位为"检查点 = 本地撤销,Git = 永久历史",指出它是补充而非替代版本控制,因此原则上要在里程碑处向 Git 提交。/rewind 也是与工具调用并发和思考块相关的 400 错误的恢复方法(产品本身会提示你运行它),不过 v2.1.156 之前的版本可能无法清除它,因此先 claude update 为上。它在交互式 CLI 中默认开启,在 Agent SDK 中需选择启用,并随会话保留 30 天(可配置)。基于官方文档,并标注了不确定之处。

什么是 Claude Managed Agents?Anthropic 的全托管云

什么是 Claude Managed Agents?Anthropic 的全托管云

Claude Managed Agents 于 2026 年 4 月 8 日作为公测发布,是一套用于大规模构建和部署云托管智能体的可组合 API。你不必再自己搭建智能体循环、工具执行和运行时,而是获得一个全托管环境,Claude 可以在其中安全地读取文件、运行命令、浏览网页并执行代码,提示缓存、上下文压缩、沙箱化与状态持久化都内置其中。它围绕四个概念(Agent、Environment、Session、Events)组织,Environment 可以是 Anthropic 托管的云沙箱,也可以是自托管沙箱。它与自托管的 Agent SDK(由你运行循环、工具与基础设施)的区别在于"你来运行 vs Anthropic 来运行"——并非竞争对手,而是关于你自己掌握多少运营的选择。一项标志性功能是工作区范围的持久化记忆(memory store),挂载在沙箱的 /mnt/memory,智能体用普通的文件操作读写它,并跨 session 持久保留(不可变版本、保留 30 天、每条记忆 100 kB 等限制)。dreaming 是一个异步任务,它读取现有记忆和过往文字记录以产出一个经过重组的 memory store——合并重复项、更新过时的值,并浮现出新的洞见(研究预览,需申请访问;有人称其为"定时",但文档描述的是按需异步任务)。它还具备基于结果的评分(独立评分器依据你的量表评估;报告称最多提升 10 个百分点)与多智能体编排。定价为 tokens + 每个 session-hour $0.08(精确到毫秒计量,仅在 running 时;一次 1 小时的 Opus 4.8 session 约为 $0.705)。对所有 API 账户默认启用,但因有状态而不符合 ZDR 或 HIPAA BAA 资格。基于官方信息,并标注了不确定之处。

Claude Code 插件与 marketplace 是什么?完全指南

Claude Code 插件与 marketplace 是什么?完全指南

随着对 Claude Code 的深入使用,你会积累起自己的斜杠命令、子代理、MCP 服务器和钩子。插件把它们打包成一个整体,让你能进行版本管理,并在团队与项目之间共享、复用,而 marketplace 则是它们的分发场所。本文基于官方文档,梳理什么是插件、它的结构、如何使用、marketplace、自制与发布,以及分发范围与安全性。

Claude Code 的 Subagents 与 Agent Teams 有何不同:层级式 vs 对等协作

Claude Code 的 Subagents 与 Agent Teams 有何不同:层级式 vs 对等协作

Claude Code 的 Subagents 和 Agent Teams 都用于让多个 AI 分工,但协调模型不同。Subagents 是内置功能,主智能体把专注任务委派给拥有全新上下文的助手并只取回摘要(层级式、用完即弃、最多嵌套 5 层)。Agent Teams 是实验性、默认关闭的功能,需设置 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1,让多个独立会话通过共享任务列表对等协作(持久、不可嵌套)。本文基于官方文档梳理两者的决定性差异、该用哪一个以及使用方法。

Claude Design 与 /design-sync 是什么:用对话做设计,与代码双向同步

Claude Design 与 /design-sync 是什么:用对话做设计,与代码双向同步

Claude Design 是 Anthropic Labs 的设计工具,可通过对话创建 UI、原型、幻灯片和单页文档(2026 年 4 月研究预览,6 月 17 日重大升级)。6 月亮点是设计系统导入(用真实组件构建)和与 Claude Code 的双向同步 /design-sync。/design-sync 是 Claude Code 命令,把设计系统拉进代码、再把代码推回画布,缩短设计师与开发者的往返。本文基于官方信息梳理它是什么、6 月升级、双向同步、使用条件以及为什么重要。

Claude Code Artifacts 是什么:把终端会话变成组织内共享的实时网页

Claude Code Artifacts 是什么:把终端会话变成组织内共享的实时网页

Claude Code Artifacts(2026 年 6 月 18 日测试版)把终端编码会话变成 claude.ai 私有 URL 上的“实时”共享页面。它适合 PR 走查、仪表盘、事件时间线、检查清单等“查看胜过阅读”的输出,源自整个会话、自动更新、仅限组织内。没有 /artifact 命令,用自然语言请求即可,Claude 写出 .html 并发布。但它是工作的捕捉而非应用:无后端、无外部请求(CSP)、单个页面、≤ 16 MiB,且需通过 /login 登录的 Team / Enterprise 套餐(不支持 API 密钥,仅 Anthropic API)。

Claude Code 出现 Not logged in / Invalid API key:认证登录错误的成因与修复

Claude Code 出现 Not logged in / Invalid API key:认证登录错误的成因与修复

Claude Code 的认证、登录错误(Not logged in/Invalid API key/organization disabled/OAuth token expired 等)大多是 401/403 凭据问题。最频繁的真因是环境变量 ANTHROPIC_API_KEY 悄悄覆盖订阅登录,引发意外按量计费。本文按 /status → 找出并 unset 多余密钥 → /logout、/login 的顺序讲清排查与防止再次发生的清单。

Claude Code 出现 command not found:安装、PATH 错误的成因与修复

Claude Code 出现 command not found:安装、PATH 错误的成因与修复

Claude Code 的 command not found / claude is not recognized 几乎都只是安装目录(~/.local/bin)没在 PATH 里,二进制其实存在。本文系统梳理安装方式与位置、修复 PATH、多重安装冲突、npm 的 EACCES 权限错误(不要 sudo,改用原生)、Windows 用错 shell 的陷阱,并按 claude doctor → which -a claude → 加 PATH → 删除多余版本 → 原生重装的顺序给出排查工作流。

Claude Code 网络、代理与 TLS 证书错误(Unable to connect):原因与解决方法

Claude Code 网络、代理与 TLS 证书错误(Unable to connect):原因与解决方法

在公司电脑上或通过 VPN 使用 Claude Code 时,出现 “Unable to connect to API”、“ECONNREFUSED”、“SSL certificate verification failed” 或 “fetch failed” 而连不上——这些都是网络错误,意味着请求根本没到达 Anthropic 服务器(api.anthropic.com),与认证(401/403)、服务器过载(529/500)和速率限制(429)不同。本文整理企业网络的三大阻断点(未配置的代理、替换证书的 TLS 检查代理、阻断域名的防火墙)以及 DNS/VPN/Docker,并涵盖代理设置(HTTPS_PROXY、NODE_EXTRA_CA_CERTS、绝不使用 NODE_TLS_REJECT_UNAUTHORIZED=0)、防火墙放行域名与排查工作流——全部基于官方信息。

Claude Code 的 529 Overloaded / 500 错误:成因与应对

Claude Code 的 529 Overloaded / 500 错误:成因与应对

Claude Code 的「API Error: 529 Overloaded」和「500 Internal server error」都是服务器端事件,并非你的请求或设置有误,也不消耗配额。Claude Code 在显示提示前已以指数退避自动重试最多 10 次。本文说明等待重试、用 /model 切换、查看状态页、/feedback 反馈等应对,以及它们与 429、usage limit 的区别和面向开发者的设计要点。