Claude AI使用指南：技巧与最佳实践【2026】

什么是 Agent Evals？同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进，把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态，仅凭最终输出是不够的；Google 指出你必须理解智能体行动背后的「为什么」，并把评估分为最终响应与 trajectory。五个维度是：结果（任务成功，以最终状态判断——DB 中是否存在一条预订记录，而非「我订好了」这句话）、trajectory（步骤是否合理、是否以正确顺序使用对的工具）、工具使用的正确性（对的工具与参数，检查函数名和类型）、效率（步数、token、成本、延迟——往往是被引入评估的可观测性信号），以及最终响应的质量（用 LLM-as-judge 或评分量表）。打分器有代码（快／便宜／可复现但脆弱）、LLM-as-judge（灵活但非确定性、需校准）和人工（黄金标准但昂贵——能避免就避免）。Anthropic 建议给结果而非路径打分：机械的 trajectory 匹配「太死板、太脆弱」，因为智能体会找到合理的替代方案，而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性（pass^k）、误差累积（p^t）、奖励黑客（DeepMind 的机械臂伪装抓取），以及过时或被污染的评估集。Anthropic 的实战打法：把 20～50 个生产失败变成测试用例，在 CI 中运行自动打分，区分能力评估与回归评估，并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考（分数随版本变化，别照单全收）。基于官方信息，并对不确定之处加以标注。

2026/06/20

Claude AI开发与编程新手入门

什么是 Claude Code hooks？确定性地运行 shell 命令

Claude Code hooks 是用户定义的 shell 命令，在 Claude Code 生命周期的特定时点自动运行，让「必须始终发生」的事真正落地、确定性执行，而不依赖 LLM 的判断。经典事件有 9 个——SessionStart、UserPromptSubmit、PreToolUse、PostToolUse、Notification、Stop、SubagentStop、SessionEnd、PreCompact——其中 PreToolUse 等可拦截（阻止受保护文件编辑或危险命令）。你在 settings.json 的 "hooks" 键下以「事件名 → matcher → type + command」的形式配置。输入/输出约定：钩子从 stdin 接收 JSON（session_id、tool_input 等），并通过退出码 0（成功）/ 2（拦截，stderr 回传给 Claude）或结构化 JSON（continue、decision:block、permissionDecision: deny/allow/ask）返回。核心原则是「钩子可以收紧但不能放松限制」（deny 始终胜出，即便在 bypassPermissions 下也会拦截）。经典用例：编辑后自动格式化（PostToolUse + Edit|Write）、保护关键文件、拦住危险命令、重新注入上下文（SessionStart）、通知/审计日志、停止前先测试（Stop）。安全方面，钩子以你的权限运行任意 shell 命令，故只配置可信的钩子并校验/加引号处理输入；钩子配置在会话启动时被捕获固定（一项安全特性），因此会话中途的改动不会生效。基于官方文档，以经典的 9 个事件和输入/输出约定为锚点。

2026/06/20

Claude AI开发与编程新手入门

Claude Code 的 checkpointing 与 /rewind 是什么？回退改动

checkpointing 与 /rewind 是一张安全网：Claude Code 会在你工作时自动追踪 Claude 的文件编辑，让你用几下按键回退到"出问题之前"。系统在每次编辑前拍下快照，你发送的每个提示都会成为一个还原点，且检查点跨会话保留。使用时，输入 /rewind 或在输入框为空时连按两次 Esc 打开菜单，选好一个点，然后选择还原代码和对话 / 还原对话 / 还原代码（注意：如果输入框含有文字，连按两次 Esc 会改为将其清空）。最重要的注意点：只有由 Claude 的编辑工具（Write/Edit/NotebookEdit）所做的改动会被还原——bash 命令（rm/mv/cp）的文件改动、会话之外或来自其他会话的改动、目录操作、远程文件以及数据库状态都不会因回退而被撤销。文档将其定位为"检查点 = 本地撤销，Git = 永久历史"，指出它是补充而非替代版本控制，因此原则上要在里程碑处向 Git 提交。/rewind 也是与工具调用并发和思考块相关的 400 错误的恢复方法（产品本身会提示你运行它），不过 v2.1.156 之前的版本可能无法清除它，因此先 claude update 为上。它在交互式 CLI 中默认开启，在 Agent SDK 中需选择启用，并随会话保留 30 天（可配置）。基于官方文档，并标注了不确定之处。

2026/06/20

Claude AI开发与编程新手入门

什么是 Claude Managed Agents？Anthropic 的全托管云

Claude Managed Agents 于 2026 年 4 月 8 日作为公测发布,是一套用于大规模构建和部署云托管智能体的可组合 API。你不必再自己搭建智能体循环、工具执行和运行时,而是获得一个全托管环境,Claude 可以在其中安全地读取文件、运行命令、浏览网页并执行代码,提示缓存、上下文压缩、沙箱化与状态持久化都内置其中。它围绕四个概念（Agent、Environment、Session、Events）组织,Environment 可以是 Anthropic 托管的云沙箱,也可以是自托管沙箱。它与自托管的 Agent SDK（由你运行循环、工具与基础设施）的区别在于"你来运行 vs Anthropic 来运行"——并非竞争对手,而是关于你自己掌握多少运营的选择。一项标志性功能是工作区范围的持久化记忆（memory store）,挂载在沙箱的 /mnt/memory,智能体用普通的文件操作读写它,并跨 session 持久保留（不可变版本、保留 30 天、每条记忆 100 kB 等限制）。dreaming 是一个异步任务,它读取现有记忆和过往文字记录以产出一个经过重组的 memory store——合并重复项、更新过时的值,并浮现出新的洞见（研究预览,需申请访问；有人称其为"定时",但文档描述的是按需异步任务）。它还具备基于结果的评分（独立评分器依据你的量表评估；报告称最多提升 10 个百分点）与多智能体编排。定价为 tokens + 每个 session-hour $0.08（精确到毫秒计量,仅在 running 时；一次 1 小时的 Opus 4.8 session 约为 $0.705）。对所有 API 账户默认启用,但因有状态而不符合 ZDR 或 HIPAA BAA 资格。基于官方信息,并标注了不确定之处。

2026/06/20

Claude AI开发与编程新手入门

Claude Code 插件与 marketplace 是什么？完全指南

随着对 Claude Code 的深入使用，你会积累起自己的斜杠命令、子代理、MCP 服务器和钩子。插件把它们打包成一个整体，让你能进行版本管理，并在团队与项目之间共享、复用，而 marketplace 则是它们的分发场所。本文基于官方文档，梳理什么是插件、它的结构、如何使用、marketplace、自制与发布，以及分发范围与安全性。

2026/06/20

Claude AI开发与编程新手入门

Claude Code 的 Subagents 与 Agent Teams 有何不同：层级式 vs 对等协作

Claude Code 的 Subagents 和 Agent Teams 都用于让多个 AI 分工，但协调模型不同。Subagents 是内置功能，主智能体把专注任务委派给拥有全新上下文的助手并只取回摘要（层级式、用完即弃、最多嵌套 5 层）。Agent Teams 是实验性、默认关闭的功能，需设置 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1，让多个独立会话通过共享任务列表对等协作（持久、不可嵌套）。本文基于官方文档梳理两者的决定性差异、该用哪一个以及使用方法。

2026/06/20

Claude AI开发与编程新手入门

Claude Design 与 /design-sync 是什么：用对话做设计，与代码双向同步

Claude Design 是 Anthropic Labs 的设计工具，可通过对话创建 UI、原型、幻灯片和单页文档（2026 年 4 月研究预览，6 月 17 日重大升级）。6 月亮点是设计系统导入（用真实组件构建）和与 Claude Code 的双向同步 /design-sync。/design-sync 是 Claude Code 命令，把设计系统拉进代码、再把代码推回画布，缩短设计师与开发者的往返。本文基于官方信息梳理它是什么、6 月升级、双向同步、使用条件以及为什么重要。

2026/06/20

Claude AI开发与编程新手入门

Claude Code Artifacts 是什么：把终端会话变成组织内共享的实时网页

Claude Code Artifacts（2026 年 6 月 18 日测试版）把终端编码会话变成 claude.ai 私有 URL 上的“实时”共享页面。它适合 PR 走查、仪表盘、事件时间线、检查清单等“查看胜过阅读”的输出，源自整个会话、自动更新、仅限组织内。没有 /artifact 命令，用自然语言请求即可，Claude 写出 .html 并发布。但它是工作的捕捉而非应用：无后端、无外部请求（CSP）、单个页面、≤ 16 MiB，且需通过 /login 登录的 Team / Enterprise 套餐（不支持 API 密钥，仅 Anthropic API）。

2026/06/20

Claude AI开发与编程新手入门

Claude Code 出现 Not logged in / Invalid API key：认证登录错误的成因与修复

Claude Code 的认证、登录错误（Not logged in／Invalid API key／organization disabled／OAuth token expired 等）大多是 401/403 凭据问题。最频繁的真因是环境变量 ANTHROPIC_API_KEY 悄悄覆盖订阅登录，引发意外按量计费。本文按 /status → 找出并 unset 多余密钥 → /logout、/login 的顺序讲清排查与防止再次发生的清单。

2026/06/20

Claude AI开发与编程新手入门

Claude Code 出现 command not found：安装、PATH 错误的成因与修复

Claude Code 的 command not found / claude is not recognized 几乎都只是安装目录（~/.local/bin）没在 PATH 里，二进制其实存在。本文系统梳理安装方式与位置、修复 PATH、多重安装冲突、npm 的 EACCES 权限错误（不要 sudo，改用原生）、Windows 用错 shell 的陷阱，并按 claude doctor → which -a claude → 加 PATH → 删除多余版本 → 原生重装的顺序给出排查工作流。

2026/06/20

Claude AI开发与编程新手入门

Claude Code 网络、代理与 TLS 证书错误（Unable to connect）：原因与解决方法

在公司电脑上或通过 VPN 使用 Claude Code 时，出现 “Unable to connect to API”、“ECONNREFUSED”、“SSL certificate verification failed” 或 “fetch failed” 而连不上——这些都是网络错误，意味着请求根本没到达 Anthropic 服务器（api.anthropic.com），与认证（401/403）、服务器过载（529/500）和速率限制（429）不同。本文整理企业网络的三大阻断点（未配置的代理、替换证书的 TLS 检查代理、阻断域名的防火墙）以及 DNS/VPN/Docker，并涵盖代理设置（HTTPS_PROXY、NODE_EXTRA_CA_CERTS、绝不使用 NODE_TLS_REJECT_UNAUTHORIZED=0）、防火墙放行域名与排查工作流——全部基于官方信息。

2026/06/20

Claude AI开发与编程新手入门

Claude Code 的 529 Overloaded / 500 错误：成因与应对

Claude Code 的「API Error: 529 Overloaded」和「500 Internal server error」都是服务器端事件，并非你的请求或设置有误，也不消耗配额。Claude Code 在显示提示前已以指数退避自动重试最多 10 次。本文说明等待重试、用 /model 切换、查看状态页、/feedback 反馈等应对，以及它们与 429、usage limit 的区别和面向开发者的设计要点。

2026/06/20