什么是 AI 可观测性？监控与追踪基础

1. 什么是 AI 可观测性？
2. 三大支柱：trace、metrics、logs
3. 与评估（evals）的区别
4. 该看什么：关键指标
5. 主要工具对比
6. 如何起步，以及为何对智能体至关重要
总结
FAQ

在如何搭建多智能体系统一文中，我们说过：“在增加智能体之前，先为每一次交接装上度量。”支撑这种生产环境中“度量”的技术，正是 AI 可观测性。它让你看清你的 LLM 与智能体在生产环境中究竟在做什么——调用了哪些工具、检索了什么、在哪里失败、花了多少成本。

与普通的应用监控不同，AI 有一个棘手的特性：一次请求可以返回“200 OK，50ms”，却依然一本正经地撒谎（幻觉）。换句话说，它可以又快又在线，质量却已经坏了。本文面向初学者，梳理可观测性的三大支柱、它与评估（evals）的区别、值得关注的指标，以及主要工具。

AI 可观测性 · 用 trace 看清内部

可视化一次请求的“执行树”

— trace 将输入、工具调用、检索与输出记录为一个个 span

▼ trace: 回答用户的问题（1.8s / $0.012）
├ span: LLM call · 指挥者决策 (420ms)
├ span: retrieval · 文档检索 (310ms)
├ span: tool call · 计算 API (150ms)
└ span: LLM call · 答案生成 (920ms)

trace、metrics、logs 200 OK 也会撒谎观测与评估并行

* 本文中工具的特征与概念引用自公开资料与官方文档（截至 2026 年 6 月）。工具的评价会因用途与版本而异，请作为方向性参考阅读。

1. 什么是 AI 可观测性？

AI 可观测性是指让 LLM 与 AI 智能体在生产环境中的行为从外部可被观测。对每一次请求，你都记录“用什么提示词调用了哪个模型、用了哪些工具与检索、返回了什么、耗时多久、花了多少钱”——这样当出问题时，你就能回溯到原因。

与普通应用监控的决定性区别：传统监控查看的是“是否在线、是否够快？”但 AI 可能响应正常又快速，内容却是错的。AI 的多数故障不是基础设施故障，而是“质量故障”——幻觉、检索不力、不安全的答案、任务未完成、工具误用，以及提示词改动后的退化。

所以 AI 需要专门的观测。尤其在多智能体系统中，失败出现在多步因果链中，而非单次调用层面。“哪一步出了错、为什么”，只有在捕获了整个会话的 trace 之后才会显现。

2. 三大支柱：trace、metrics、logs

可观测性传统上以三大支柱来描述。AI 也是如此，而行业标准 OpenTelemetry（GenAI 规范）让你能用厂商中立的通用 schema 处理这三者。

🌳

Trace（轨迹）

将一次请求的执行路径记录为一棵 span 树。你能看到 LLM 调用、工具、检索与推理链是如何流转的。AI 观测的主角。

📊

Metrics（指标）

将延迟、成本、token 数、错误率与吞吐量汇总为数值。可按模型/智能体追踪趋势。

📝

Logs（日志）

单个事件的详细记录——完整提示词、错误细节——是深入排查的依据。

OpenTelemetry 的 GenAI 规范以标准格式记录提示词、模型响应、token 使用量、工具/智能体调用与提供方元数据。这意味着你不会被单一厂商绑定，并能把 AI 的 trace 接入 Datadog 或 Grafana 等现有监控后端。

3. 与评估（evals）的区别

初学者最容易混淆的，是“可观测性”与“评估（evals）”的区别。两者是不同的东西，而且只有成套使用才有意义。

🔭 可观测性

展示“发生了什么”：trace、成本、延迟、错误。容易测量，但单凭它无法告诉你“答案是否正确？”

✅ 评估（evals）

衡量“答案好不好”：准确性、groundedness、安全性。必须有明确的 evals——这是质量的守门人。

关键在于：“成本与延迟容易测，但答案质量不做明确评估就无从知晓。”正因如此，2026 年的主流工具不只展示 trace——它们还会给输出打分、在质量退化时告警，并把洞察反馈回开发。观测与评估，是同一辆车的两个轮子。

4. 该看什么：关键指标

要在仪表盘上追踪的指标，大致分为“运营类”与“质量类”。

⚙️ 运营类（容易测量）

成本：每次请求的 token 计费
延迟：响应时间（随输入大幅波动）
Token 使用量：尽早发现臃肿的提示词
错误率 / 吞吐量：按模型/智能体分

🎯 质量类（需要评估）

幻觉：自信却错误的断言
Groundedness（根据性）：对 RAG 最关键——是否有检索来源支撑？
安全性：PII 泄露、有害输出
任务完成度 / 工具使用是否正确

在质量指标中，对 RAG（检索增强生成）而言，“groundedness（忠实度，faithfulness）”是最关键的指标：答案究竟是有检索到的文档支撑，还是模型凭空编造？幻觉检测通常使用 LLM-as-a-judge（让 AI 来打分）、语义相似度与 groundedness 分数。

5. 主要工具对比

下面是 2026 年具代表性的 AI 可观测性工具。许多都在朝着把追踪与评估合二为一的方向发展。

工具	特征	适合用途
LangSmith	与 LangChain/LangGraph 契合度极高。详细追踪 + 评估 + 监控。开销小。	基于 LangChain 的生产环境
Langfuse	开源。可自托管，因此无需把数据发往外部 SaaS。	自托管 / 数据要求严格
Arize Phoenix	擅长 RAG 调试。善于可视化检索质量。	RAG 调查与改进
MLflow	集中管理整个 GenAI 生命周期。	从开发到运维端到端
AgentOps	专注于监控自主智能体。多步会话追踪。	智能体运维
OpenTelemetry	标准规范。厂商中立；可连接 Datadog/Grafana 等。	与现有监控集成

来源：各类工具对比与官方信息引用（2026 年 6 月）。特征为倾向性描述，评价会因用途与版本而异。

拿不准时，先以符合 OpenTelemetry 的方式开始捕获 trace 是稳妥之选。你能避免厂商锁定，日后还可重新选型。若你用 LangChain，LangSmith 是便捷的入口；若想把数据留在自家，则选 Langfuse。

6. 如何起步，以及为何对智能体至关重要

不必想太复杂——从小处着手即可。要紧的是在上线生产之前就把观测落实到位。

捕获 trace

将 LLM 调用、工具与检索记录为 span。符合 OpenTelemetry 后续更换更轻松。

可视化运营指标

把成本、延迟与 token 做成仪表盘。对异常设置告警。

接入评估（evals）

为生产 trace 评估质量并检测退化。将 evals 与护栏结合。

尤其在多智能体系统中，观测并非“有则更好”，而是必需。由于失败藏在多步链条里，没有整个会话的 trace，你就永远不会知道“在哪里、为什么坏了”。在增加智能体之前先把观测做好——这是铁律。它也有助于安全事故的早期发现。

总结

AI 可观测性是“让生产中的 AI 可见”的运营基石。我们来回顾一下。

核心要点

🔭 让生产中 AI 的内部可见。三大支柱：trace、metrics、logs。
⚠️ 200 OK 也会撒谎。AI 的多数故障是质量故障，而非基础设施。
🔁 观测与评估并行。trace 看“是什么”，evals 看“好不好”。
🛠️ 工具：LangSmith/Langfuse/Phoenix/MLflow/AgentOps。标准是 OpenTelemetry。
🤖 对智能体不可或缺。多步失败只有在整个会话的 trace 中才看得见。

“又快又在线”不足以让人信任 AI。只有当你能看清内部、衡量质量时，它才算达到生产级。先以符合 OpenTelemetry 的方式捕获 trace，再接入 evals。关于搭建智能体，见这里；关于安全设计，见护栏。

FAQ

Q. 可观测性与评估（evals）有何不同？

A. 可观测性展示“发生了什么”（trace、成本、延迟）；评估衡量“答案好不好”。由于响应可能又快又在线却仍然出错，基本做法是把两者成套使用。

Q. 直接用普通的应用监控工具不行吗？

A. 它能测量在线率与速度，但测不出幻觉或 groundedness 等 AI 特有的质量。AI 需要专门的观测（或 OpenTelemetry GenAI 规范）来记录提示词、token 与工具调用。

Q. 该从哪里起步？

A. 先以符合 OpenTelemetry 的方式开始捕获 trace 是稳妥之选。你能避免厂商锁定，日后还能重新选择 LangSmith 或 Langfuse 等工具。接着可视化成本与延迟，最后接入评估。

Q. 为什么它对智能体格外重要？

A. 智能体的失败不是出现在单次调用中，而是藏在多步因果链里。没有整个会话的 trace，你就无法定位“哪一步出错、为什么”，从而让调试变得不可能。

什么是 AI 可观测性？面向初学者的 LLM 与智能体监控、追踪入门

可视化一次请求的“执行树”

1. 什么是 AI 可观测性？

2. 三大支柱：trace、metrics、logs

3. 与评估（evals）的区别

4. 该看什么：关键指标

5. 主要工具对比

6. 如何起步，以及为何对智能体至关重要

总结

FAQ

相关文章

游戏开发必备的20款生成AI工具！美术·音乐·编程全面覆盖

什么是Claude Agent SDK？AI智能体开发从入门到实践

哪些框架最适合生成AI辅助开发？主流框架生成AI兼容性全面对比

Claude Code vs Codex 怎么选？价格、性能、适用场景全面对比

评论

发表评论