エージェント評価(Agent Evals)とは——成果と軌跡の両方を測る
エージェント評価(Agent Evals)は、ツールを使い複数手を踏んで目標を達成するエージェントが本当にタスクを成し遂げられるかを体系的に測る工程。単発出力を採点するLLM評価の発展形で、対象が「1つの出力」から「一連の行動」に広がる。エージェントは計画し、ツールを呼び、状態を更新するため最終出力だけでは不十分で、Googleも「出力確認だけでは足りず行動のなぜを理解する必要がある」として最終応答と軌跡(trajectory)の2系統に分ける。測る軸は5つ=①成果(タスク成功=「予約しました」という発言ではなくDBに予約が実在するかという最終状態で判定)②軌跡(妥当な手順・正しいツールを正しい順序で)③ツール使用の正確さ(正しいツール・正しい引数・関数名や型まで照合)④効率(手数・トークン・コスト・遅延。多くはオブザーバビリティの観測値を持ち込む実務的扱い)⑤最終応答の質(LLM-as-judge/ルーブリック)。採点者はコード(速い/安い/再現可能だが脆い)→LLM-as-judge(柔軟だが非決定的で要較正)→人間(ゴールド標準だが高コスト・可能なら避ける)を使い分ける。Anthropicは「ツール呼び出しを正しい順序で踏んだかの確認は厳しすぎて脆い。エージェントは妥当な別解を見つけるので、経路ではなく成果を採点する方がよい」と勧める一方、Google/Microsoftは軌跡一致度を正式指標に持つ。固有の難所は非決定性(pass^k)・誤差の連鎖(p^t)・報酬ハッキング(DeepMindのロボットアームが掴んだように見せかけた例)・評価セットの陳腐化や汚染。実務はAnthropic推奨で、本番の失敗から20〜50件をテストケース化→自動採点でCIに乗せ→能力evalと回帰evalを分け→早く書く。SWE-bench/τ-bench/WebArena/GAIA/OSWorld/BFCL等のベンチマークも参考になる(スコアは版で動くので鵜呑みにしない)。公式情報に基づき不確実点を明示しつつ整理する。