跳到内容

AI工具使用指南、对比分析、最新资讯

面向初学者的AI工具使用指南、对比分析和最新资讯

精选文章

什么是 Agent Evals?同时衡量结果与 trajectory
Claude AI开发与编程 新手入门

什么是 Agent Evals?同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进,把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态,仅凭最终输出是不够的;Google 指出你必须理解智能体行动背后的「为什么」,并把评估分为最终响应与 trajectory。五个维度是:结果(任务成功,以最终状态判断——DB 中是否存在一条预订记录,而非「我订好了」这句话)、trajectory(步骤是否合理、是否以正确顺序使用对的工具)、工具使用的正确性(对的工具与参数,检查函数名和类型)、效率(步数、token、成本、延迟——往往是被引入评估的可观测性信号),以及最终响应的质量(用 LLM-as-judge 或评分量表)。打分器有代码(快/便宜/可复现但脆弱)、LLM-as-judge(灵活但非确定性、需校准)和人工(黄金标准但昂贵——能避免就避免)。Anthropic 建议给结果而非路径打分:机械的 trajectory 匹配「太死板、太脆弱」,因为智能体会找到合理的替代方案,而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性(pass^k)、误差累积(p^t)、奖励黑客(DeepMind 的机械臂伪装抓取),以及过时或被污染的评估集。Anthropic 的实战打法:把 20~50 个生产失败变成测试用例,在 CI 中运行自动打分,区分能力评估与回归评估,并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考(分数随版本变化,别照单全收)。基于官方信息,并对不确定之处加以标注。

最新文章

145 篇文章
AI 给网络安全带来的冲击——Claude Mythos 如何改变攻防版图

AI 给网络安全带来的冲击——Claude Mythos 如何改变攻防版图

2026 年 4 月由 Anthropic 发布的 Claude Mythos Preview,对 Firefox JavaScript 引擎的漏洞利用成功率达到 Opus 4.6 的 90 倍,并在 OpenBSD、FFmpeg、Linux Kernel 等系统中发现数千个零日漏洞。Anthropic 选择不公开发布,而是通过「Project Glasswing」仅向 AWS、Google、Microsoft 等合作伙伴有限交付。本文以最新数据为基础,系统梳理 Mythos 揭示的 AI 网络安全新格局:攻击侧的自动化、防御侧的 AI 应用、监管方的应对,以及组织应当采取的行动。

什么是缰绳工程(Harness Engineering)?AI 代理时代 LLM 外侧那一层的设计学

什么是缰绳工程(Harness Engineering)?AI 代理时代 LLM 外侧那一层的设计学

重心已从提示词工程转移到缰绳工程——这是 AI 代理时代全新的主战场。本文系统梳理缰绳工程到底是什么、与提示词工程有何不同、6 大组件(工具定义、上下文管理、记忆、循环、护栏、输出 UX),横向对比 Claude Code、Cursor、Codex CLI 与 Devin,并给出实用的设计清单——这是你认真使用或构建 AI 代理时不可或缺的根基。

AI 代理为何无视你的 .md 规则——让 CLAUDE.md、Cursor Rules 与 AGENTS.md 真正生效

AI 代理为何无视你的 .md 规则——让 CLAUDE.md、Cursor Rules 与 AGENTS.md 真正生效

AI 代理(Claude Code、Cursor、Copilot、Codex)无视你的 .md 规则文件,根源在 5 点:上下文窗口限制、自动压缩稀释早期指令、优先级模糊、措辞含混、文件臃肿且分散。本文从诊断方法、立竿见影的快速方案(压缩到 150 行内、添加优先级标记),到借助 Claude Code Hooks、子代理与自定义斜杠命令的长期系统化,并附各工具最佳实践。

ChatGPT 5.5(GPT-5.5)发布完全解析——基准测试、价格及与Claude Opus 4.7对比

ChatGPT 5.5(GPT-5.5)发布完全解析——基准测试、价格及与Claude Opus 4.7对比

OpenAI于2026年4月23日发布"ChatGPT 5.5(GPT-5.5)"。这款被定位为"面向real work与AI智能体的新一代智能"的模型,在Terminal-Bench 2.0上取得82.7%的成绩,超越Claude Opus 4.7(69.4%)和Gemini 3.1 Pro(68.5%),重夺榜首。然而API价格相比GPT-5.4翻倍($5/$30 per MTok),SWE-Bench Pro上仍输给Claude Opus 4.7,可谓有光有影。本文基于官方信息,全面解析新功能、基准测试、价格、套餐别提供情况、与Claude/Gemini的对比及选型指南。

AI总推荐的Next.js到底是什么?React初学者完全指南

AI总推荐的Next.js到底是什么?React初学者完全指南

让Claude Code或ChatGPT开发Web应用时,几乎必然会听到"用Next.js来做"。但Next.js到底是什么?纯React不够用吗?本文基于2026年3月发布的Next.js 16.2,全面解说Next.js的本质、与React的区别、SSR/SSG/ISR含义、App Router、与Vercel的关系、以及与Nuxt/Remix/Astro的对比,让你不再盲从AI建议,能自行判断项目是否真的需要Next.js。

RAG是什么?面向初学者的工作原理与用途详解

RAG是什么?面向初学者的工作原理与用途详解

想让ChatGPT读取公司文档来自动回答员工的问题——满足这类需求的关键技术就是RAG(Retrieval-Augmented Generation/检索增强生成)。本文用3个步骤图解RAG的工作原理,覆盖向量数据库、LangChain实现、与微调的区别等内容,面向初学者通俗易懂地讲解。同时介绍企业内部QA、客服、法律与医疗等丰富的实战用例。

Claude Opus 4.7发布——新功能、基准测试与价格深度解读

Claude Opus 4.7发布——新功能、基准测试与价格深度解读

2026年4月16日,Anthropic发布了Claude Opus 4.7。高分辨率图像支持(2576px)、新xhigh努力等级、任务预算(Beta)、新分词器、1M上下文窗口,$5/$25价格保持不变——编码、智能体、视觉任务全面增强。但扩展思考、采样参数废止等破坏性变更也不少。本文从工程师视角深入解读新功能、行为变化、与Opus 4.6的差异以及何时使用。

Claude Opus 4.7 迁移指南——破坏性变更与应对方法【完整版】

Claude Opus 4.7 迁移指南——破坏性变更与应对方法【完整版】

Claude Opus 4.7发布了,从4.6的迁移涉及多项破坏性变更。扩展思考(enabled)废止、temperature/top_p/top_k废止、新分词器使token数增加1.35倍、思考内容默认不显示、prefill废止——本文用Python / TypeScript的Before/After代码展示所有破坏性变更,同时汇总行为变化、推荐设置以及可逐行核对的迁移清单。

PaaS(Vercel等)是什么?与共享虚拟主机、VPS、云服务的全面对比

PaaS(Vercel等)是什么?与共享虚拟主机、VPS、云服务的全面对比

让AI帮你写代码时,经常会被建议"部署到Vercel就行"。但Vercel到底是什么?它和虚拟主机、AWS有什么区别?本文从费用、自由度、运维负担三个维度,全面对比PaaS(Vercel等)与共享虚拟主机、VPS、云(IaaS)的差异,介绍Vercel、Netlify、Render、Railway等主流服务的特点,并给出不同场景的选型建议。

llms.txt是什么?——格式规范、必填信息、动态生成全面解析【LLMO优化指南】

llms.txt是什么?——格式规范、必填信息、动态生成全面解析【LLMO优化指南】

如果robots.txt是"告诉搜索引擎哪些可以抓取、哪些不可以"的文件,那么llms.txt就是"向AI介绍网站内容和结构"的文件。它帮助LLM爬虫(GPTBot、ClaudeBot等)理解你的网站,从而提高在AI搜索中被引用的可能性。本文将全面解析llms.txt的格式规范、应填写的信息、静态文件与动态生成的选择标准,以及主要框架的实现方法。

有了Claude Code和Codex,基础设施与网络工程师会被淘汰吗?——AI正在改变的运维现实

有了Claude Code和Codex,基础设施与网络工程师会被淘汰吗?——AI正在改变的运维现实

当Claude Code和OpenAI Codex能够自动生成Terraform、Docker、Ansible等基础设施代码时,"基础设施工程师是不是要失业了?"的声音此起彼伏。但现实并没有那么简单。本文梳理了AI擅长的领域,以及物理层、故障判断、安全责任等只有人类才能胜任的领域,解析AI时代基础设施工程师应如何进化。

按分类浏览

GitHub Copilot

查看全部

Midjourney

查看全部

Stable Diffusion

查看全部

新手入门

查看全部

AI开发与编程

查看全部

开发环境与基础设施

查看全部

AI代理与自动化

查看全部

工作效率

查看全部

数据分析

查看全部

学习与教育

查看全部

副业与变现

查看全部

游戏开发

查看全部

AI安全与治理

查看全部

AI风险与社会影响

查看全部