Agent Evals — это процесс систематического измерения того, способен ли агент, который использует инструменты и делает несколько шагов к цели, действительно выполнять свои задачи. Это эволюция LLM evals, расширяющая объект оценки с «одного вывода» до «последовательности действий». Поскольку агент планирует, вызывает инструменты и обновляет состояние, одного финального вывода недостаточно; Google отмечает, что нужно понимать «почему» за действиями агента, и делит оценку на финальный ответ и trajectory. Пять измерений: outcome (успех задачи, судят по финальному состоянию — существует ли бронь в DB, а не по высказыванию «я забронировал»), trajectory (разумные шаги, правильные инструменты в правильном порядке), корректность использования инструментов (правильный инструмент и аргументы, проверка имён функций и типов), эффективность (шаги, токены, стоимость, задержка — часто сигналы observability, привнесённые в оценку) и качество финального ответа (через LLM-as-judge или рубрику). Грейдеры — это код (быстрый/дешёвый/воспроизводимый, но хрупкий), LLM-as-judge (гибкий, но недетерминированный и требует калибровки) и человек (золотой стандарт, но дорогой — избегайте по возможности). Anthropic рекомендует оценивать результат, а не путь: механическое сопоставление trajectory «слишком жёсткое и хрупкое», поскольку агенты находят допустимые альтернативы, тогда как Google и Microsoft предлагают метрики сопоставления trajectory для диагностики провалов. Уникальные подводные камни — недетерминированность (pass^k), накапливающиеся ошибки (p^t), reward hacking (роботизированная рука DeepMind, имитирующая захват) и устаревшие или загрязнённые наборы eval. Практический приём, по Anthropic: превратить 20–50 продакшен-провалов в тест-кейсы, запустить автоматическую оценку в CI, разделить capability и regression evals и писать их рано. Бенчмарки вроде SWE-bench, tau-bench, WebArena, GAIA, OSWorld и BFCL полезны как референсы (оценки меняются от версии, поэтому не принимайте их за чистую монету). На основе официальной информации, с пометкой неопределённостей.

2026/06/20

Последние статьи

Смотреть все

Claude AI-разработка Для начинающих

Что такое Agent Evals? Измеряем и результат, и trajectory

2026/06/20

Claude AI-разработка Для начинающих

Что такое хуки Claude Code? Запуск shell-команд детерминированно

Хуки Claude Code — это определяемые пользователем shell-команды, которые автоматически запускаются в определённых точках жизненного цикла Claude Code, делая «это должно происходить всегда» реальным и детерминированным, не полагаясь на усмотрение LLM. Классических событий девять — SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact — из которых PreToolUse и другие могут блокировать (останавливая правки защищённых файлов или опасные команды). Настраиваете вы их в settings.json под ключом «hooks» как имя события -> matcher -> type + command. Контракт ввода/вывода: хук получает JSON на stdin (session_id, tool_input и т. д.) и возвращает результат через код выхода 0 (успех) / 2 (блок, со stderr, переданным обратно Claude) или структурированный JSON (continue, decision:block, permissionDecision: deny/allow/ask). Ключевой принцип: «хуки могут ужесточать, но не ослаблять ограничения» (deny всегда побеждает, блокирует даже при bypassPermissions). Классические сценарии: автоформат после правок (PostToolUse + Edit|Write), защита критичных файлов, остановка опасных команд, повторное внедрение контекста (SessionStart), уведомления/аудит и тесты перед остановкой (Stop). О безопасности: хуки выполняют произвольные shell-команды с вашими правами, поэтому настраивайте только доверенные и проверяйте/заключайте в кавычки входные данные; конфигурация хуков фиксируется при старте сессии (защитная функция), поэтому изменения в середине сессии не применяются. На основе официальной документации, с опорой на девять классических событий и контракт ввода/вывода.

2026/06/20

Claude AI-разработка Для начинающих

Что такое checkpointing и /rewind в Claude Code? Откат изменений

Checkpointing и /rewind — это страховка: Claude Code автоматически отслеживает правки файлов, сделанные Claude, по мере работы, так что вы можете откатиться к состоянию "до того, как всё пошло не так" за несколько нажатий клавиш. Снимок делается перед каждым редактированием, каждый отправленный вами промпт становится точкой восстановления, а checkpoint-ы сохраняются между сессиями. Чтобы воспользоваться, введите /rewind или дважды нажмите Esc при пустом поле ввода, чтобы открыть меню, затем выберите точку и действие: Restore code and conversation / Restore conversation / Restore code (учтите: если в поле есть текст, двойное Esc вместо этого очистит его). Самая важная оговорка: восстанавливаются только изменения, сделанные инструментами редактирования Claude (Write/Edit/NotebookEdit) — изменения файлов командами bash (rm/mv/cp), изменения вне сессии или из других сессий, операции с каталогами, удалённые файлы и состояние базы данных откатом НЕ отменяются. В документации это формулируется как "checkpoint-ы = локальная отмена, Git = постоянная история": он дополняет, но не заменяет контроль версий, поэтому делать коммиты в Git на ключевых этапах — правило. /rewind также является средством восстановления при ошибке 400, связанной с параллелизмом tool-use и блоками размышления (продукт сам предлагает его запустить), хотя версии до v2.1.156 могут её не устранять, поэтому сначала идёт claude update. Включён по умолчанию в интерактивном CLI, opt-in в Agent SDK, хранится вместе с сессиями 30 дней (настраивается). На основе официальной документации, с пометками о неопределённостях.

2026/06/20

Claude AI-разработка Для начинающих

Что такое Claude Managed Agents? Полностью управляемое облако Anthropic

Claude Managed Agents вышел в виде публичной беты 8 апреля 2026 года как набор компонуемых API для создания и развёртывания облачных агентов в любом масштабе. Вместо того чтобы строить собственный цикл агента, выполнение инструментов и среду исполнения, вы получаете полностью управляемую среду, где Claude может безопасно читать файлы, выполнять команды, просматривать веб и запускать код, с встроенными кэшированием промптов, компактизацией контекста, песочницей и сохранением состояния. Сервис организован вокруг четырёх понятий (Agent, Environment, Session, Events), и Environment может быть облачной песочницей под управлением Anthropic или self-hosted. Отличие от self-hosted Agent SDK (где цикл, инструменты и инфраструктуру запускаете вы) — это «запускаете вы vs запускает Anthropic»: не конкуренты, а выбор о том, сколько операций вы оставляете за собой. Характерная черта — постоянная память (memory store) с областью видимости рабочего пространства, смонтированная в песочнице по пути /mnt/memory, которую агент читает и пишет обычными файловыми операциями и которая сохраняется между сессиями (неизменяемые версии, хранение 30 дней, ограничения вроде 100 kB на запись). Dreaming — асинхронная задача, которая читает существующую память и прошлые транскрипты, чтобы создать реорганизованный memory store: объединяет дубликаты, обновляет устаревшие значения и выводит на поверхность новые инсайты (research preview, требующий доступа; некоторые называют это «запланированным», но документация описывает асинхронную задачу по требованию). Также есть оценка по результатам (отдельный грейдер оценивает по вашей рубрике; заявлено улучшение до 10 пунктов) и мультиагентная оркестрация. Цена — токены + $0.08 за час сессии (тарификация до миллисекунды, только пока работает; около $0.705 за часовую сессию Opus 4.8). Включено по умолчанию для всех API-аккаунтов, но stateful, поэтому не подпадает под ZDR и HIPAA BAA. На основе официальной информации, с пометками о неопределённостях.

2026/06/20

Claude AI-разработка Для начинающих

Что такое plugin для Claude Code и marketplace: создание и публикация

plugin для Claude Code объединяет ваши слэш-команды, субагентов, серверы MCP и хуки в один блок, который можно версионировать, передавать и переиспользовать между командами и проектами, а marketplace — это место их распространения. В статье на основе официальной документации разбираем, что такое plugin, его структуру (манифест .claude-plugin/plugin.json), как пользоваться через /plugin marketplace add и /plugin install, что такое официальный и общественный marketplace, как создать и опубликовать свой через git, а также область распространения (user / project / local / managed) и безопасность — ведь plugins могут выполнять произвольный код.

2026/06/20

Claude AI-разработка Для начинающих

Subagents против Agent Teams в Claude Code: в чём разница

В Claude Code есть два похожих, но разных механизма для распределения работы между ИИ — subagents и Agent Teams. Subagents встроены и иерархичны: главный агент делегирует узкую задачу помощнику со свежим контекстом и получает обратно только сводку. Agent Teams — экспериментальная, по умолчанию выключенная функция (нужен флаг CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1): независимые сессии координируются как равные через общий список задач. Разбираем решающее различие, что выбрать и как использовать.

2026/06/20

ИИ без границ.

Что предлагает AI Arte

Статьи об ИИ

Тест на знание ИИ

Курсы ИИ

Тест на знание ИИ

Тест по основам ИИ

Тест навыков промптинга

Тест применения ИИ

Рекомендуемая статья

Что такое Agent Evals? Измеряем и результат, и trajectory

Последние статьи

Что такое Agent Evals? Измеряем и результат, и trajectory

Что такое хуки Claude Code? Запуск shell-команд детерминированно

Что такое checkpointing и /rewind в Claude Code? Откат изменений

Что такое Claude Managed Agents? Полностью управляемое облако Anthropic

Что такое plugin для Claude Code и marketplace: создание и публикация

Subagents против Agent Teams в Claude Code: в чём разница