В статье Как построить мультиагентную систему мы говорили: «инструментируйте каждую передачу управления, прежде чем добавлять агентов». Технология, которая обеспечивает это «инструментирование» в продакшене, — это наблюдаемость ИИ (AI observability). Она делает видимым то, что ваши LLM и агенты на самом деле делают в продакшене: какие инструменты вызывают, что извлекают, где падают и сколько это стоит.

В отличие от обычного мониторинга приложений, у ИИ есть неприятная особенность: запрос может вернуть «200 OK за 50ms» и при этом уверенно врать (галлюцинировать). Иными словами, система может быть быстрой и доступной, тогда как качество сломано. Эта статья проведёт новичков через три столпа наблюдаемости, объяснит, чем она отличается от оценки (evals), какие метрики стоит отслеживать и какие есть основные инструменты.

НАБЛЮДАЕМОСТЬ ИИ · ЗАГЛЯНУТЬ ВНУТРЬ ЧЕРЕЗ TRACE

Визуализировать «дерево выполнения» одного запроса

— trace фиксирует входы, вызовы инструментов, извлечение и выходы в виде span

▼ trace: ответ на вопрос пользователя (1.8s / $0.012)
├ span: LLM call · решение супервизора (420ms)
├ span: retrieval · поиск по документам (310ms)
├ span: tool call · API расчётов (150ms)
└ span: LLM call · генерация ответа (920ms)
Trace, метрики, логи 200 OK всё равно может врать Наблюдать + оценивать вместе

* Характеристики и концепции инструментов в этой статье приведены по публичным материалам и официальной документации (по состоянию на июнь 2026). Оценки инструментов зависят от сценария и версии — воспринимайте их как ориентир.

1. Что такое наблюдаемость ИИ?

Наблюдаемость ИИ означает сделать поведение LLM и ИИ-агентов в продакшене наблюдаемым извне. Для каждого запроса вы фиксируете «какая модель была вызвана с каким промптом, какие инструменты и поиски использовались, что было возвращено, сколько времени и денег это заняло» — чтобы при сбое можно было проследить путь до причины.

Решающее отличие от обычного мониторинга приложений: традиционный мониторинг проверяет «доступно ли, быстро ли?». Но ИИ может отвечать нормально и быстро, тогда как содержание неверно. Большинство сбоев ИИ — это не сбои инфраструктуры, а «сбои качества»: галлюцинации, слабое извлечение, небезопасные ответы, незавершённые задачи, плохое использование инструментов и регрессии после изменения промпта.

Поэтому ИИ нужно специализированное наблюдение. Особенно в мультиагентных системах сбои проявляются внутри многошаговых причинных цепочек, а не на уровне отдельного вызова. «Какой шаг пошёл не так и почему» становится видно только тогда, когда вы фиксируете trace всей сессии целиком.

2. Три столпа: trace, метрики, логи

Наблюдаемость традиционно описывают через три столпа. То же справедливо и для ИИ, а отраслевой стандарт OpenTelemetry (соглашения GenAI) позволяет работать со всеми тремя через единую схему, не зависящую от вендора.

🌳

Trace

Фиксируют путь выполнения одного запроса как дерево span. Вы видите, как протекали вызовы LLM, инструменты, извлечение и цепочки рассуждений. Главный элемент наблюдения ИИ.

📊

Метрики

Агрегируют задержку, стоимость, число токенов, частоту ошибок и пропускную способность в виде чисел. Отслеживайте тренды по каждой модели/агенту.

📝

Логи

Подробные записи отдельных событий — полные промпты, детали ошибок — основа для глубокого расследования.

Соглашения GenAI в OpenTelemetry фиксируют промпты, ответы модели, использование токенов, вызовы инструментов/агентов и метаданные провайдера в стандартном формате. Это значит, что вы не привязаны к одному вендору и можете направлять trace ИИ в существующие бэкенды мониторинга, такие как Datadog или Grafana.

3. Чем это отличается от оценки (evals)

Чаще всего новички путают разницу между «наблюдаемостью» и «оценкой (evals)». Это разные вещи, и они имеют смысл только в связке.

🔭 Наблюдаемость

Показывает «что произошло»: trace, стоимость, задержка, ошибки. Легко измерить, но сама по себе она не скажет «правильный ли ответ?»

✅ Оценка (evals)

Измеряет «хорош ли ответ?»: точность, groundedness, безопасность. Нужны явные evals — это страж качества.

Суть в следующем: «стоимость и задержку легко измерить, но качество ответа нельзя узнать без явной оценки». Именно поэтому ведущие инструменты 2026 года не просто показывают trace — они оценивают выходы, оповещают о деградации качества и возвращают выводы в разработку. Наблюдение и оценка — это два колеса одной телеги.

4. За чем следить: ключевые метрики

Показатели, которые стоит отслеживать на дашборде, в целом делятся на «операционные» и «качественные».

⚙️ Операционные (легко измерить)

  • Стоимость: плата за токены на запрос
  • Задержка: время ответа (сильно зависит от входа)
  • Использование токенов: раннее выявление раздутых промптов
  • Частота ошибок / пропускная способность: по модели/агенту

🎯 Качественные (нужна оценка)

  • Галлюцинация: уверенные, но ложные утверждения
  • Groundedness: важнейшее для RAG — подкреплён ли ответ найденными источниками?
  • Безопасность: утечка PII, вредный вывод
  • Завершение задачи / корректное использование инструментов

Среди качественных метрик в RAG (генерация с дополнением через поиск) «groundedness (достоверность)» — самый критичный показатель: действительно ли ответ подкреплён найденными документами, или модель его выдумала? Для обнаружения галлюцинаций обычно используют LLM-as-a-judge (когда ответ оценивает ИИ), семантическое сходство и оценки groundedness.

5. Сравнение основных инструментов

Вот характерные инструменты наблюдаемости ИИ 2026 года. Многие движутся к тому, чтобы объединить трассировку и оценку в одном месте.

Инструмент Особенности Для чего лучше всего
LangSmith Отлично сочетается с LangChain/LangGraph. Подробная трассировка + оценка + мониторинг. Низкие накладные расходы. Продакшен на базе LangChain
Langfuse Открытый исходный код. Можно развернуть у себя (self-host), поэтому данные не нужно отправлять во внешний SaaS. Self-hosting / строгие требования к данным
Arize Phoenix Силён в отладке RAG. Хорошо визуализирует качество извлечения. Исследование/улучшение RAG
MLflow Централизует весь жизненный цикл GenAI. Сквозной путь от разработки к эксплуатации
AgentOps Специализируется на мониторинге автономных агентов. Отслеживание многошаговых сессий. Эксплуатация агентов
OpenTelemetry Стандарт. Не зависит от вендора; подключается к Datadog/Grafana и др. Интеграция с существующим мониторингом

Источник: различные сравнения инструментов и официальная информация (июнь 2026). Особенности — это тенденции; оценки зависят от сценария и версии.

Если сомневаетесь, безопаснее всего начать собирать trace способом, совместимым с OpenTelemetry. Вы избегаете привязки к вендору и можете позже переориентироваться на другой инструмент. Если вы используете LangChain, удобной точкой входа будет LangSmith; если хотите держать данные у себя — Langfuse.

6. С чего начать и почему это важно для агентов

Не нужно усложнять — начните с малого. Важно встроить наблюдение до того, как вы выпустите систему в продакшен.

1

Собирайте trace

Фиксируйте вызовы LLM, инструменты и извлечение как span. Совместимость с OpenTelemetry упрощает переход позже.

2

Визуализируйте операционные метрики

Выводите на дашборд стоимость, задержку и токены. Настройте оповещения при аномалиях.

3

Подключите оценку (evals)

Оценивайте продакшен-trace по качеству и выявляйте деградацию. Сочетайте evals с ограждениями.

Особенно в мультиагентных системах наблюдение — это не «приятное дополнение», а необходимость. Поскольку сбои прячутся в многошаговых цепочках, без trace всей сессии вы никогда не узнаете, «где и почему всё сломалось». Встройте наблюдение, прежде чем добавлять агентов — таково правило. Оно также помогает раннему обнаружению инцидентов безопасности.

Итоги

Наблюдаемость ИИ — это операционная основа, которая «делает продакшен-ИИ видимым». Подведём итоги.

Ключевые выводы

  • 🔭 Делает видимыми внутренности продакшен-ИИ. Три столпа: trace, метрики, логи.
  • ⚠️ 200 OK всё равно может врать. Большинство сбоев ИИ — это сбои качества, а не инфраструктуры.
  • 🔁 Наблюдать + оценивать вместе. Trace отвечает на «что», evals — на «хорошо ли».
  • 🛠️ Инструменты: LangSmith/Langfuse/Phoenix/MLflow/AgentOps. Стандарт — OpenTelemetry.
  • 🤖 Необходимы для агентов. Многошаговые сбои видны только в trace всей сессии.

«Быстро и доступно» недостаточно, чтобы доверять ИИ. Он становится продакшен-уровнем только тогда, когда вы можете заглянуть внутрь и измерить качество. Начните со сбора trace способом, совместимым с OpenTelemetry, а затем подключите evals. О построении агентов смотрите здесь; о проектировании безопасности — ограждения.

FAQ

Q. Чем наблюдаемость отличается от оценки (evals)?

A. Наблюдаемость показывает «что произошло» (trace, стоимость, задержка); оценка измеряет «хорош ли ответ». Поскольку ответ может быть быстрым и доступным, но при этом неверным, базовый подход — использовать оба в связке.

Q. Разве нельзя обойтись обычным инструментом мониторинга приложений?

A. Он может измерить доступность и скорость, но не специфическое для ИИ качество — например, галлюцинации или groundedness. Для ИИ нужно специализированное наблюдение (или соглашения GenAI в OpenTelemetry), которое фиксирует промпты, токены и вызовы инструментов.

Q. С чего начать?

A. Безопасно начать со сбора trace способом, совместимым с OpenTelemetry. Вы избегаете привязки к вендору и можете позже выбрать другие инструменты, такие как LangSmith или Langfuse. Затем визуализируйте стоимость и задержку, и в конце подключите оценку.

Q. Почему это особенно важно для агентов?

A. Сбои агентов проявляются не в одном вызове, а внутри многошаговых причинных цепочек. Без trace всей сессии вы не сможете точно определить, «какой шаг пошёл не так и почему», что делает отладку невозможной.