AI工具使用指南、对比分析、最新资讯

面向初学者的AI工具使用指南、对比分析和最新资讯

精选文章

什么是 Agent Evals？同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进，把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态，仅凭最终输出是不够的；Google 指出你必须理解智能体行动背后的「为什么」，并把评估分为最终响应与 trajectory。五个维度是：结果（任务成功，以最终状态判断——DB 中是否存在一条预订记录，而非「我订好了」这句话）、trajectory（步骤是否合理、是否以正确顺序使用对的工具）、工具使用的正确性（对的工具与参数，检查函数名和类型）、效率（步数、token、成本、延迟——往往是被引入评估的可观测性信号），以及最终响应的质量（用 LLM-as-judge 或评分量表）。打分器有代码（快／便宜／可复现但脆弱）、LLM-as-judge（灵活但非确定性、需校准）和人工（黄金标准但昂贵——能避免就避免）。Anthropic 建议给结果而非路径打分：机械的 trajectory 匹配「太死板、太脆弱」，因为智能体会找到合理的替代方案，而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性（pass^k）、误差累积（p^t）、奖励黑客（DeepMind 的机械臂伪装抓取），以及过时或被污染的评估集。Anthropic 的实战打法：把 20～50 个生产失败变成测试用例，在 CI 中运行自动打分，区分能力评估与回归评估，并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考（分数随版本变化，别照单全收）。基于官方信息，并对不确定之处加以标注。

2026/06/20

AI工具使用指南、对比分析、最新资讯

精选文章

什么是 Agent Evals？同时衡量结果与 trajectory

最新文章

Claude的三大模式：聊天、Cowork与代码——全面对比与使用指南

按分类浏览

Claude

什么是 Agent Evals？同时衡量结果与 trajectory

什么是 Claude Code hooks？确定性地运行 shell 命令

Claude Code 的 checkpointing 与 /rewind 是什么？回退改动

什么是 Claude Managed Agents？Anthropic 的全托管云

ChatGPT

如何用AI将邮件和聊天回复提速10倍——三层框架、工具与模板

什么是多模态AI？——文本/图像/音频/视频统一架构与顶级模型对比

AI 备考与学习法——五大核心技巧与六大工具对比

什么是 AI API？—— 新手指南：价格、Token、模型选择与网页对话的区别

Gemini

什么是 Google Gemini？与 Google 生态深度融合的多模态 AI

什么是多模态AI？——文本/图像/音频/视频统一架构与顶级模型对比

主流生成AI知识截止日期一览｜ChatGPT、Claude、Gemini全面对比

GitHub Copilot

什么是 GitHub Copilot？从代码补全到自动驾驶式编码智能体

Codex

ChatGPT 5.5（GPT-5.5）发布完全解析——基准测试、价格及与Claude Opus 4.7对比

Midjourney

Midjourney 使用指南——V8.1 完全攻略：套餐、五层提示词、参数与参考

图像生成 AI 八大工具——按用途分类对比

Stable Diffusion

什么是 Stable Diffusion——开源图像 AI 的工作原理、本地运行与商用授权全解

图像生成 AI 八大工具——按用途分类对比

其他AI

LoRA 是什么？用一点点额外训练定制 AI

什么是量化？把 AI 模型缩小，在你自己的机器上运行

什么是模型蒸馏？把大 AI 的知识转移到小 AI

什么是微调（fine-tuning）？微调 vs RAG、LoRA/QLoRA 与何时该用——初学者指南

新手入门

什么是 Agent Evals？同时衡量结果与 trajectory

什么是 Claude Code hooks？确定性地运行 shell 命令

Claude Code 的 checkpointing 与 /rewind 是什么？回退改动

什么是 Claude Managed Agents？Anthropic 的全托管云

AI开发与编程

什么是 Agent Evals？同时衡量结果与 trajectory

什么是 Claude Code hooks？确定性地运行 shell 命令

Claude Code 的 checkpointing 与 /rewind 是什么？回退改动

什么是 Claude Managed Agents？Anthropic 的全托管云

开发环境与基础设施

如何运行本地LLM：在自己电脑上跑AI——给初学者的配置、工具与最佳模型

生成式 AI 能搞定基础设施与环境搭建吗？——初学者的"该委托到哪里"指南

AI 说"用 Next.js"——初学者上手前真正该知道的事

什么是 Cursor——AI 编辑器的用法与和 VS Code 的差异

AI代理与自动化

什么是 AI 可观测性？面向初学者的 LLM 与智能体监控、追踪入门

如何构建多智能体系统：主管模式实践指南

什么是多智能体系统？面向初学者讲清多个 AI 智能体如何协同

什么是 A2A（Agent2Agent）？与 MCP 的区别、Agent Card 及其工作原理

工作效率

AI 操作浏览器到底能自动化到哪一步？填表单、预订与调研的现实

AI智能体10大应用案例——真实业务自动化实例、效果与起步方法

AI如何拉大会社员之间的能力差距？正在转移的衡量轴、抬高下限与上限，以及如何不被甩在后面

提示词工程实用大全——从 AI 拿到想要答案的 6 个要素与技巧

写作

AEO 与 LLMO 的区别——70% 重叠、30% 独有，以及 GEO 的定位

什么是 AEO（Answer Engine Optimization）——定义、与 SEO 的区别，以及让你"被引用"的七项技巧

AI 写作实战——ChatGPT/Claude/Gemini 分工与拿下 SEO 的混合式工作流

Google AI Overviews 如何改变 SEO 和 AEO——与 LLMO 的区别及应对策略

设计

AI 视频生成入门 [2026]——后 Sora 时代格局、Veo/Kling 与提示词技巧

AI 图像生成入门——原理、4 个步骤、图像提示词结构剖析与版权

Midjourney 使用指南——V8.1 完全攻略：套餐、五层提示词、参数与参考

什么是 Stable Diffusion——开源图像 AI 的工作原理、本地运行与商用授权全解

数据分析

AI 能把数据分析做到什么程度？不写 Python 的 3 种方法——以及那些陷阱

学习与教育

AI 备考与学习法——五大核心技巧与六大工具对比

副业与变现

从零开始用AI在家赚钱的第一步——为家里蹲与啃老族准备的不见面起步法

AI 会让白领工作消失吗？Amodei 的 50% 预测、实际数据与生存策略

生成AI副业完全指南｜各方向赚钱方法与工具选择

游戏开发

游戏开发必备的20款生成AI工具！美术·音乐·编程全面覆盖