Что такое Agent Evals? Измеряем и результат, и trajectory
Agent Evals — это процесс систематического измерения того, способен ли агент, который использует инструменты и делает несколько шагов к цели, действительно выполнять свои задачи. Это эволюция LLM evals, расширяющая объект оценки с «одного вывода» до «последовательности действий». Поскольку агент планирует, вызывает инструменты и обновляет состояние, одного финального вывода недостаточно; Google отмечает, что нужно понимать «почему» за действиями агента, и делит оценку на финальный ответ и trajectory. Пять измерений: outcome (успех задачи, судят по финальному состоянию — существует ли бронь в DB, а не по высказыванию «я забронировал»), trajectory (разумные шаги, правильные инструменты в правильном порядке), корректность использования инструментов (правильный инструмент и аргументы, проверка имён функций и типов), эффективность (шаги, токены, стоимость, задержка — часто сигналы observability, привнесённые в оценку) и качество финального ответа (через LLM-as-judge или рубрику). Грейдеры — это код (быстрый/дешёвый/воспроизводимый, но хрупкий), LLM-as-judge (гибкий, но недетерминированный и требует калибровки) и человек (золотой стандарт, но дорогой — избегайте по возможности). Anthropic рекомендует оценивать результат, а не путь: механическое сопоставление trajectory «слишком жёсткое и хрупкое», поскольку агенты находят допустимые альтернативы, тогда как Google и Microsoft предлагают метрики сопоставления trajectory для диагностики провалов. Уникальные подводные камни — недетерминированность (pass^k), накапливающиеся ошибки (p^t), reward hacking (роботизированная рука DeepMind, имитирующая захват) и устаревшие или загрязнённые наборы eval. Практический приём, по Anthropic: превратить 20–50 продакшен-провалов в тест-кейсы, запустить автоматическую оценку в CI, разделить capability и regression evals и писать их рано. Бенчмарки вроде SWE-bench, tau-bench, WebArena, GAIA, OSWorld и BFCL полезны как референсы (оценки меняются от версии, поэтому не принимайте их за чистую монету). На основе официальной информации, с пометкой неопределённостей.