AIオブザーバビリティとは?LLM・エージェントの監視とトレースを初心者向けに
マルチエージェントの作り方で「増やす前に全ハンドオフを計測せよ」と書いた、その計測を本番で支える技術がAIオブザーバビリティ(可観測性)。LLMやエージェントが本番で実際に何をしているか(どのモデルをどんなプロンプトで呼び・どのツールや検索を使い・何を返し・何秒いくらかかったか)を記録し問題の原因まで遡れるようにする。普通のアプリ監視との決定的な違いは、AIは200 OK・50msで返しながら堂々と嘘(ハルシネーション)をつくことがある点で、AIの障害の多くはインフラ障害でなく品質障害(ハルシネーション・検索失敗・安全でない回答・タスク未完了・ツール誤用・プロンプト変更後の劣化)。オブザーバビリティは3本柱=トレース(1リクエストの実行経路をスパンの木で記録・AI観測の主役)・メトリクス(レイテンシ/コスト/トークン/エラー率を数値集計)・ログ(個別イベントの詳細)で語られ、業界標準のOpenTelemetry GenAI規約がプロンプト・応答・トークン・ツール呼び出しをベンダー非依存スキーマで扱う。最も混同しやすい評価(Evals)との違いは、オブザーバビリティが何が起きたかを見る(計測は簡単だが答えの正しさは分からない)のに対し評価は答えの質が良いかを測る(明示的なEvalsが必要)こと。コストとレイテンシは簡単に測れるが答えの質は評価がないと分からないため2026年の主要ツールはトレース表示+出力スコアリング+劣化アラートを一体提供する。見るべきメトリクスは運用系(コスト・レイテンシ・トークン・エラー率)と品質系(ハルシネーション・根拠性groundedness=RAGで最重要・安全性・タスク完了度)に分かれハルシネーション検知にはLLM-as-a-judge/意味的類似度/根拠性スコアを使う。主要ツールはLangSmith(LangChain系)・Langfuse(OSSセルフホスト)・Arize Phoenix(RAGデバッグ)・MLflow(ライフサイクル)・AgentOps(エージェント)・OpenTelemetry(標準規格)。始め方はトレース取得→運用メトリクス可視化→評価接続の順で本番前から入れること。とくにマルチエージェントでは失敗が多段の因果連鎖に隠れるためセッション全体のトレースが必須。観測+評価の両輪で初めて本番品質。数値・特徴は各種公表資料の引用で傾向の参考。