Перейти к содержимому

Руководства, сравнения и новости об инструментах ИИ

Руководства, сравнения и новости об инструментах ИИ для начинающих

Рекомендуемая статья

Что такое Agent Evals? Измеряем и результат, и trajectory
Claude AI-разработка Для начинающих

Что такое Agent Evals? Измеряем и результат, и trajectory

Agent Evals — это процесс систематического измерения того, способен ли агент, который использует инструменты и делает несколько шагов к цели, действительно выполнять свои задачи. Это эволюция LLM evals, расширяющая объект оценки с «одного вывода» до «последовательности действий». Поскольку агент планирует, вызывает инструменты и обновляет состояние, одного финального вывода недостаточно; Google отмечает, что нужно понимать «почему» за действиями агента, и делит оценку на финальный ответ и trajectory. Пять измерений: outcome (успех задачи, судят по финальному состоянию — существует ли бронь в DB, а не по высказыванию «я забронировал»), trajectory (разумные шаги, правильные инструменты в правильном порядке), корректность использования инструментов (правильный инструмент и аргументы, проверка имён функций и типов), эффективность (шаги, токены, стоимость, задержка — часто сигналы observability, привнесённые в оценку) и качество финального ответа (через LLM-as-judge или рубрику). Грейдеры — это код (быстрый/дешёвый/воспроизводимый, но хрупкий), LLM-as-judge (гибкий, но недетерминированный и требует калибровки) и человек (золотой стандарт, но дорогой — избегайте по возможности). Anthropic рекомендует оценивать результат, а не путь: механическое сопоставление trajectory «слишком жёсткое и хрупкое», поскольку агенты находят допустимые альтернативы, тогда как Google и Microsoft предлагают метрики сопоставления trajectory для диагностики провалов. Уникальные подводные камни — недетерминированность (pass^k), накапливающиеся ошибки (p^t), reward hacking (роботизированная рука DeepMind, имитирующая захват) и устаревшие или загрязнённые наборы eval. Практический приём, по Anthropic: превратить 20–50 продакшен-провалов в тест-кейсы, запустить автоматическую оценку в CI, разделить capability и regression evals и писать их рано. Бенчмарки вроде SWE-bench, tau-bench, WebArena, GAIA, OSWorld и BFCL полезны как референсы (оценки меняются от версии, поэтому не принимайте их за чистую монету). На основе официальной информации, с пометкой неопределённостей.

Обзор по категориям

Stable Diffusion

Смотреть все

Другие ИИ

Смотреть все

Для начинающих

Смотреть все

AI-разработка

Смотреть все

Среда разработки и инфраструктура

Смотреть все

AI-агенты и автоматизация

Смотреть все

Эффективность работы

Смотреть все

Анализ данных

Смотреть все

Обучение

Смотреть все

Заработок и монетизация

Смотреть все

Разработка игр

Смотреть все

Безопасность и управление ИИ

Смотреть все

Риски и влияние ИИ

Смотреть все