跳到内容

AI工具使用指南、对比分析、最新资讯

面向初学者的AI工具使用指南、对比分析和最新资讯

精选文章

什么是 Agent Evals?同时衡量结果与 trajectory
Claude AI开发与编程 新手入门

什么是 Agent Evals?同时衡量结果与 trajectory

Agent Evals 是系统性地衡量一个智能体——会使用工具、分多步去达成目标的那种——是否真的能完成其任务的过程。它是 LLM 评估的演进,把评估对象从「一条输出」扩展到「一连串行动」。因为智能体会规划、调用工具并更新状态,仅凭最终输出是不够的;Google 指出你必须理解智能体行动背后的「为什么」,并把评估分为最终响应与 trajectory。五个维度是:结果(任务成功,以最终状态判断——DB 中是否存在一条预订记录,而非「我订好了」这句话)、trajectory(步骤是否合理、是否以正确顺序使用对的工具)、工具使用的正确性(对的工具与参数,检查函数名和类型)、效率(步数、token、成本、延迟——往往是被引入评估的可观测性信号),以及最终响应的质量(用 LLM-as-judge 或评分量表)。打分器有代码(快/便宜/可复现但脆弱)、LLM-as-judge(灵活但非确定性、需校准)和人工(黄金标准但昂贵——能避免就避免)。Anthropic 建议给结果而非路径打分:机械的 trajectory 匹配「太死板、太脆弱」,因为智能体会找到合理的替代方案,而 Google 和 Microsoft 则提供 trajectory 匹配指标用于诊断失败。特有陷阱包括非确定性(pass^k)、误差累积(p^t)、奖励黑客(DeepMind 的机械臂伪装抓取),以及过时或被污染的评估集。Anthropic 的实战打法:把 20~50 个生产失败变成测试用例,在 CI 中运行自动打分,区分能力评估与回归评估,并尽早编写。SWE-bench、τ-bench、WebArena、GAIA、OSWorld、BFCL 等基准是有用的参考(分数随版本变化,别照单全收)。基于官方信息,并对不确定之处加以标注。

最新文章

145 篇文章
Claude Code「usage limit reached」的真相:5小时+每周上限与对策

Claude Code「usage limit reached」的真相:5小时+每周上限与对策

Claude Code 的「Claude usage limit reached」不是错误,而是 Pro/Max 订阅使用量限制的设计方式。限制分为「滚动的5小时窗口」与「每周窗口」两层,Max 还另有仅针对 Opus 的每周额度。本文梳理什么在吃掉额度(模型选择影响最大)、撞到上限那一刻的5种对策、如何用 /usage 查看剩余量,以及订阅限制与 API 限制的根本区别。

Claude Code「Prompt is too long」详解:上下文窗口溢出的成因与对策

Claude Code「Prompt is too long」详解:上下文窗口溢出的成因与对策

Claude Code / API 的「Prompt is too long」不是 bug,而是你的输入(会话历史+文件+工具定义等)超出了模型的上下文窗口。它既不是 usage limit 额度,也不是 max_tokens 输出截断。本文梳理什么在填满窗口、最快的5步对策(/compact、/clear、subagent、削减固定负载、1M 模型)、200K 与 1M 窗口的区别,以及如何与容易混淆的错误区分开。

Claude Code 的「court」+invoke 标签泄露:工具调用不执行的真相与对策

Claude Code 的「court」+invoke 标签泄露:工具调用不执行的真相与对策

在 Claude Code 长时间作业时,屏幕上突然涌出「court」加上原始的 invoke / parameter 标签,工具调用却没有执行——这是 Claude(Opus 4.8/4.7 系列)在生成工具调用控制 token 时把它生成坏掉的模型侧缺陷,并非你的环境或命令的失误。harness 以 fail-closed 方式拒绝坏掉的调用,因此不会误执行命令;真正棘手的是坏块残留历史后模型会模仿它、产生「连锁」。本文基于官方文档与实际 Issue,梳理其机制、两大成因、三个常见误解,以及用户与开发者各自的对策(核心铁律:失误两次就撤到新会话 /clear)。

如何避免 ChatGPT 与 Claude 账号被封(OpenAI / Anthropic)

如何避免 ChatGPT 与 Claude 账号被封(OpenAI / Anthropic)

某天 ChatGPT 或 Claude 账号突然用不了了:2026年账号停用(封号)与警告的报告正在增多,可怕的是即使没有恶意,也可能因一不小心违反条款而被封号。本文基于已公开的使用政策与报道,整理了为了不在 OpenAI(ChatGPT、Codex)和 Anthropic(Claude、Claude Code)上丢失账号需要知道的内容(不是规避检测的窍门,而是如何遵守条款)。两家共通的5个触发点:禁止内容、越狱,未经授权的自动化与爬取,共享或转卖账号/API 密钥,可疑访问模式,以及支付不一致与欺诈。2026年最大的陷阱:把 Claude 个人套餐(Free/Pro/Max)的 OAuth 令牌用在官方应用以外的产品(含 Agent SDK 这类外壳)会违反 Consumer ToS,曾引发大规模封号潮;正确做法是用 API(按量计费)运行应用与 Agent,个人套餐则当作官方应用对话。文章还给出7点防范清单与申诉指引:警告是纠正的机会,多数可继续使用;轻微违规可申诉,严重违规通常永久停用且难以恢复。用正确的套餐,做正确的用途,诚实地使用。

LoRA 是什么?用一点点额外训练定制 AI

LoRA 是什么?用一点点额外训练定制 AI

把庞大的 AI 从头重新训练太贵,但你又想为自己稍作调整;LoRA(Low-Rank Adaptation)通过冻结原始模型、只训练一个极小的附加部件(适配器),把可训练参数削减约 90%,实现了这个愿望。LoRA 让微调大幅更便宜、更快,并在 Stable Diffusion 等图像生成中作为添加角色或画风的小文件极受欢迎。本文用补丁的比喻来讲解。LoRA 是参数高效微调(PEFT)的代表:把庞大的原始权重冻结,在每一层插入一个小的附加矩阵,只训练它(W = W0 + BA,其中 W0 被冻结,BA 是新增的那一小部分)。它建立在这样一个发现之上:调整 AI 并不需要大的改动,低秩就足够。优势:可训练参数减少约 90%(在 GPT-3 规模下据报道少 10,000x)、更省 GPU 内存(约少 3x)、训练更快更便宜、合并适配器后不增加推理延迟、更不易过拟合。它最大的优势是适配器可更换:保留一个通用底座,按用途即时更换小巧的(几 MB)LoRA 文件(客户支持、公司语气、某个特定角色)。很多人第一次接触 LoRA 是在图像生成中,Stable Diffusion 上学会了角色、画风或主体的 LoRA 被广泛共享(添加画风、学会角色、轻巧易分享)。QLoRA 结合量化,在 4-bit 底座之上训练 LoRA,比标准 LoRA 省约 4x 内存,能在消费级 GPU(有时是 CPU)上微调庞大模型,且精度损失极小。相比全量微调(训练所有权重),LoRA 在训练的权重、成本、产出和适用场景上都不同;对大多数工作,LoRA 就足够。底座保持原样,风味小幅调出。文中数值引自公开资料,仅供参考。

什么是量化?把 AI 模型缩小,在你自己的机器上运行

什么是量化?把 AI 模型缩小,在你自己的机器上运行

一个庞大的 70B 模型不再需要数据中心的 GPU 机架,而能在家里一台游戏 PC 上运行,这要归功于量化——它降低模型权重的数值精度,从而大幅缩小体积和内存。模型蒸馏是把知识转移到另一个更小的模型,而量化则是让同一个模型变轻。本文用照片压缩的比喻来讲解。量化把以 FP16/FP32 小数存储的权重替换成 INT8(8 位)或 INT4(4 位)整数,减少每个权重的字节数(FP32=4、INT8=1、INT4=0.5);就像把 RAW 照片压成 JPEG,你牺牲一点点精度换来大幅减重,令人惊讶的是放弃的东西竟然这么少。在内存上,4-bit 约为 FP16 的四分之一:70B 模型从 ~140GB 降到 ~35GB,8B 模型在 4-bit 下约 ~4.5-5GB,能塞进中端 8GB VRAM 的 GPU 用于本地运行(LLM 的民主化)。在精度上,INT8 几乎无损,INT4 在一般问答/常识类任务上退化不到 4%,但在数学、代码生成和高难度推理上损失更明显(表现为困惑度小幅上升),所以要按任务选位宽。主要方法:GPTQ(精确 4-bit 的先驱)、AWQ(保护最重要的约 ~1% 权重,往往精度高 1-2% 且更快)、GGUF(llama.cpp/Ollama 格式,Q2_K-Q8_0,CPU+GPU 混合,用于本地)和 QLoRA(4-bit 基础加 LoRA,在消费级 GPU 上微调)。它与蒸馏(转移到另一个小模型)和微调(增添任务知识)不同,三者通常组合使用(量化蒸馏后的模型;在量化基础上微调)。开始时,用 Ollama 一条命令跑一个 GGUF 模型,按 VRAM 选 Q4/Q8,代码或精确计算避开 INT4。多数主流模型已以量化形式发布,下载即用。保留聪明,只去掉重量。文中数字引用自公开资料,仅供方向参考。

什么是模型蒸馏?把大 AI 的知识转移到小 AI

什么是模型蒸馏?把大 AI 的知识转移到小 AI

庞大而高性能的 AI 聪明但又重又贵;模型蒸馏(知识蒸馏)通过把大教师模型的知识转移到小学生模型来解决这一问题,以十分之一的体积和速度保留教师 95% 以上的性能。本文用教师与学生的比喻讲解。关键在于软标签:普通训练只教"答案是猫"(硬标签),蒸馏则传递教师"90% 猫、8% 狗、2% 狐狸"这样的整个概率分布,其"犹豫程度"蕴含丰富信息;温度参数会软化概率以显现微妙关系(真实例子:GPT-4o mini 据说从 GPT-4o 蒸馏而来)。好处:又快又便宜、约 10 倍更紧凑且保留 95% 以上性能、可在边缘端运行、擅长用途专精。两种方式:白盒(完全访问权重和内部表示,转移更深,用于自家或 OSS 模型)与黑盒(只能看到输出/API 响应,把别家 API 当教师可能违反条款)。它与量化(压缩同一模型的权重精度)、微调(对现有模型针对任务追加训练)不同——蒸馏是把知识转移到另一个小模型,三者可组合。法律与 ToS 现实是 2026 年的重大议题:技术正当,但 OpenAI、Anthropic、Mistral、xAI 等都设有反蒸馏条款,禁止用输出打造竞争模型,因此用受限 API 蒸馏竞品可能违反条款。OpenAI 诉 DeepSeek 的纠纷(OpenAI 主张疑似 DeepSeek 相关账号绕过限制获取输出用于蒸馏,而 DeepSeek 条款据称允许蒸馏其输出)表明评估取决于适用谁的 API 条款,且 Claude Fable 5/Mythos 5 据报道会限制被判定为蒸馏的作业。要诀:用自家或已授权 OSS 模型当教师、用商用 API 前确认反蒸馏条款,并判断用途是否属于"开发竞争模型"。聪明靠大模型、运营靠小模型——但选谁当教师会改变技术与法律结果。数据引用自公开资料,仅供参考。

什么是 AI 可观测性?面向初学者的 LLM 与智能体监控、追踪入门

什么是 AI 可观测性?面向初学者的 LLM 与智能体监控、追踪入门

在《如何搭建多智能体系统》中我们说过,增加智能体前先为每次交接装上度量;支撑这种度量的技术正是 AI 可观测性。它让你看清 LLM 与智能体在生产环境中究竟在做什么,从而能回溯到原因。与普通应用监控的决定性区别在于:AI 可以返回 200 OK、50ms 却仍自信地产生幻觉,所以多数 AI 故障是质量故障而非基础设施故障。可观测性基于三大支柱:trace、metrics 与 logs。可观测性展示"发生了什么",评估(evals)则衡量答案好不好,两者需成套使用。本文梳理关键指标与 LangSmith、Langfuse、Arize Phoenix、MLflow、AgentOps、OpenTelemetry 等主要工具,并讲解如何起步以及为何对智能体至关重要。

如何构建多智能体系统:主管模式实践指南

如何构建多智能体系统:主管模式实践指南

在掌握"什么是多智能体系统?"的概念之后,这是动手实践的续篇。以 2026 年事实上的标准——主管模式为题材,带初学者走完 5 步构建流程。核心原则:先用单一智能体构建,撞到瓶颈后再以最小配置增加(约 80% 的用途用一个就够;对简单的直线式流程使用多智能体会让成本膨胀 3-10x,据 Google 研究在顺序型任务上精度还会下降 -39-70%)。应转向多智能体的 3 个信号:专业性分离、并行性、判断分离。主管接收整体任务、分解、委派给专业工作者并汇总结果——Claude Code 子智能体、LangGraph Supervisor 与 OpenAI Agents SDK 的交接都收敛到了这一形态,因为它框架支持最广、失败模式已知、易于审计。5 步:①事先清晰分解;②定义工作者,一个角色+工具+输出格式(最多 3-5 个);③设计主管,明确列出可调用名称(硬上限)并在此花最多时间;④确定交接与上下文共享,只传必要信息(标准是 A2A);⑤增加前测量每次交接,给迭代/token/成本设上限,准备好 evals 与护栏。伪代码展示工作者定义、硬上限主管与带迭代上限的运行循环。共通教训:比起框架,提示词、工具设计与评估框架更能决定成败。小步构建、测量、只在划算时增加。图表引用自公开资料与研究,视条件而定。

什么是多智能体系统?面向初学者讲清多个 AI 智能体如何协同

什么是多智能体系统?面向初学者讲清多个 AI 智能体如何协同

「把一个 AI 智能体无法独自完成的复杂任务拆分给多个智能体来分担」,正是多智能体系统的核心思路。本文面向初学者梳理其运作机制、主要模式与主流框架,更重要的是不带夸张地给出真正的决策准则:什么时候该用多个智能体、什么时候一个就够。多智能体系统让多个角色各异的 AI 协同解决一个大型任务;相对于独自包揽全部的单智能体(约 80% 的场景已够用,且便宜、易调试),它按专长分工以实现并行处理与交叉校验,代价是更高的协调成本与 token 消耗。四种主流编排模式为:orchestrator-worker(总指挥拆解、并行分派 worker 再整合,最普及且有审计轨迹)、顺序交接(连同上下文交给下一个)、群组对话(在同一线程辩论、由选择器决定谁发言,擅长交叉验证)、图状态机(智能体为节点、转移为边、显式管理状态,擅长分支与检查点)。框架在 2026 年收敛为 LangGraph(生产采用规模最大)、CrewAI(学习曲线最低、原型开发)、AutoGen/AG2(辩论与验证、研究)与 OpenAI Swarm(轻量交接)。但它并非万能:复杂跨领域任务在推理基准上最高 +23%,而单线顺序任务上 Google 研究发现相比单智能体 −39-70%,把同样算力给单智能体往往打平甚至胜出,且据报告每 10 个部署有 7 个只增成本无回报、token 消耗约 15 倍(瞄准得当时平均 ROI 2.5-3.5 倍、头部四分位 4-6 倍)。推荐路径:先构建单智能体,找出具体瓶颈(角色混淆、可并行化),再以 2-3 个智能体的总指挥型最小团队起步并设好成本上限与日志,然后度量准确率提升是否值得这笔增量。A2A(通信协议)与 MCP(工具连接)是支撑多智能体的底层技术。80% 用单智能体,只有难啃的部分才上多智能体。文中数值引自调查与研究,依赖具体条件,仅作方向性参考。

什么是 A2A(Agent2Agent)?与 MCP 的区别、Agent Card 及其工作原理

什么是 A2A(Agent2Agent)?与 MCP 的区别、Agent Card 及其工作原理

AI 智能体已日益普及,下一个挑战是如何让智能体彼此协作。如果说 MCP 把智能体连接到工具,那么 A2A(Agent2Agent)就是把智能体连接到另一个智能体 —— 一套开放标准,让基于不同厂商和框架构建的 AI 通过共同约定相互发现、通信与协作。Google 于 2025 年 4 月发布,同年 6 月将其捐赠给 Linux Foundation,到 2026 年达到 v1.0。这篇初学者指南涵盖:A2A 是什么(用「企业间业务合作的礼仪」作比喻)、为什么需要它(各有专长的智能体接力工作 —— 规划智能体到酒店预订智能体再到支付智能体)、它与 MCP 有何不同(MCP 是纵向,智能体 ↔ 工具;A2A 是横向,智能体 ↔ 智能体;把两者叠加是标准的双层结构)、它如何运作(通过 Agent Card —— 位于 /.well-known/agent-card.json 的 JSON「名片」—— 来发现能力,然后用 Task 携带请求经过 working、input-required、completed 等状态,并以 Artifact 返回结果,全部基于 HTTP、Server-Sent Events 和 JSON-RPC 2.0,且智能体保持内部细节隐藏),以及现状与落地实现(截至 2026 年 4 月,150+ 家组织在生产环境使用,22,000+ GitHub stars,提供五种语言的 SDK —— Python、JavaScript、Java、Go、.NET —— Microsoft、Salesforce、SAP、ServiceNow 均有参与)。口诀:连接工具 = MCP,连接同伴 = A2A。

按分类浏览

GitHub Copilot

查看全部

Midjourney

查看全部

Stable Diffusion

查看全部

新手入门

查看全部

AI开发与编程

查看全部

开发环境与基础设施

查看全部

AI代理与自动化

查看全部

工作效率

查看全部

数据分析

查看全部

学习与教育

查看全部

副业与变现

查看全部

游戏开发

查看全部

AI安全与治理

查看全部

AI风险与社会影响

查看全部