Перейти к содержимому

Руководства, сравнения и новости об инструментах ИИ

Руководства, сравнения и новости об инструментах ИИ для начинающих

Рекомендуемая статья

Что такое Agent Evals? Измеряем и результат, и trajectory
Claude AI-разработка Для начинающих

Что такое Agent Evals? Измеряем и результат, и trajectory

Agent Evals — это процесс систематического измерения того, способен ли агент, который использует инструменты и делает несколько шагов к цели, действительно выполнять свои задачи. Это эволюция LLM evals, расширяющая объект оценки с «одного вывода» до «последовательности действий». Поскольку агент планирует, вызывает инструменты и обновляет состояние, одного финального вывода недостаточно; Google отмечает, что нужно понимать «почему» за действиями агента, и делит оценку на финальный ответ и trajectory. Пять измерений: outcome (успех задачи, судят по финальному состоянию — существует ли бронь в DB, а не по высказыванию «я забронировал»), trajectory (разумные шаги, правильные инструменты в правильном порядке), корректность использования инструментов (правильный инструмент и аргументы, проверка имён функций и типов), эффективность (шаги, токены, стоимость, задержка — часто сигналы observability, привнесённые в оценку) и качество финального ответа (через LLM-as-judge или рубрику). Грейдеры — это код (быстрый/дешёвый/воспроизводимый, но хрупкий), LLM-as-judge (гибкий, но недетерминированный и требует калибровки) и человек (золотой стандарт, но дорогой — избегайте по возможности). Anthropic рекомендует оценивать результат, а не путь: механическое сопоставление trajectory «слишком жёсткое и хрупкое», поскольку агенты находят допустимые альтернативы, тогда как Google и Microsoft предлагают метрики сопоставления trajectory для диагностики провалов. Уникальные подводные камни — недетерминированность (pass^k), накапливающиеся ошибки (p^t), reward hacking (роботизированная рука DeepMind, имитирующая захват) и устаревшие или загрязнённые наборы eval. Практический приём, по Anthropic: превратить 20–50 продакшен-провалов в тест-кейсы, запустить автоматическую оценку в CI, разделить capability и regression evals и писать их рано. Бенчмарки вроде SWE-bench, tau-bench, WebArena, GAIA, OSWorld и BFCL полезны как референсы (оценки меняются от версии, поэтому не принимайте их за чистую монету). На основе официальной информации, с пометкой неопределённостей.

Последние статьи

145 статей
Что такое Agent Evals? Измеряем и результат, и trajectory

Что такое Agent Evals? Измеряем и результат, и trajectory

Agent Evals — это процесс систематического измерения того, способен ли агент, который использует инструменты и делает несколько шагов к цели, действительно выполнять свои задачи. Это эволюция LLM evals, расширяющая объект оценки с «одного вывода» до «последовательности действий». Поскольку агент планирует, вызывает инструменты и обновляет состояние, одного финального вывода недостаточно; Google отмечает, что нужно понимать «почему» за действиями агента, и делит оценку на финальный ответ и trajectory. Пять измерений: outcome (успех задачи, судят по финальному состоянию — существует ли бронь в DB, а не по высказыванию «я забронировал»), trajectory (разумные шаги, правильные инструменты в правильном порядке), корректность использования инструментов (правильный инструмент и аргументы, проверка имён функций и типов), эффективность (шаги, токены, стоимость, задержка — часто сигналы observability, привнесённые в оценку) и качество финального ответа (через LLM-as-judge или рубрику). Грейдеры — это код (быстрый/дешёвый/воспроизводимый, но хрупкий), LLM-as-judge (гибкий, но недетерминированный и требует калибровки) и человек (золотой стандарт, но дорогой — избегайте по возможности). Anthropic рекомендует оценивать результат, а не путь: механическое сопоставление trajectory «слишком жёсткое и хрупкое», поскольку агенты находят допустимые альтернативы, тогда как Google и Microsoft предлагают метрики сопоставления trajectory для диагностики провалов. Уникальные подводные камни — недетерминированность (pass^k), накапливающиеся ошибки (p^t), reward hacking (роботизированная рука DeepMind, имитирующая захват) и устаревшие или загрязнённые наборы eval. Практический приём, по Anthropic: превратить 20–50 продакшен-провалов в тест-кейсы, запустить автоматическую оценку в CI, разделить capability и regression evals и писать их рано. Бенчмарки вроде SWE-bench, tau-bench, WebArena, GAIA, OSWorld и BFCL полезны как референсы (оценки меняются от версии, поэтому не принимайте их за чистую монету). На основе официальной информации, с пометкой неопределённостей.

Что такое хуки Claude Code? Запуск shell-команд детерминированно

Что такое хуки Claude Code? Запуск shell-команд детерминированно

Хуки Claude Code — это определяемые пользователем shell-команды, которые автоматически запускаются в определённых точках жизненного цикла Claude Code, делая «это должно происходить всегда» реальным и детерминированным, не полагаясь на усмотрение LLM. Классических событий девять — SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact — из которых PreToolUse и другие могут блокировать (останавливая правки защищённых файлов или опасные команды). Настраиваете вы их в settings.json под ключом «hooks» как имя события -> matcher -> type + command. Контракт ввода/вывода: хук получает JSON на stdin (session_id, tool_input и т. д.) и возвращает результат через код выхода 0 (успех) / 2 (блок, со stderr, переданным обратно Claude) или структурированный JSON (continue, decision:block, permissionDecision: deny/allow/ask). Ключевой принцип: «хуки могут ужесточать, но не ослаблять ограничения» (deny всегда побеждает, блокирует даже при bypassPermissions). Классические сценарии: автоформат после правок (PostToolUse + Edit|Write), защита критичных файлов, остановка опасных команд, повторное внедрение контекста (SessionStart), уведомления/аудит и тесты перед остановкой (Stop). О безопасности: хуки выполняют произвольные shell-команды с вашими правами, поэтому настраивайте только доверенные и проверяйте/заключайте в кавычки входные данные; конфигурация хуков фиксируется при старте сессии (защитная функция), поэтому изменения в середине сессии не применяются. На основе официальной документации, с опорой на девять классических событий и контракт ввода/вывода.

Что такое checkpointing и /rewind в Claude Code? Откат изменений

Что такое checkpointing и /rewind в Claude Code? Откат изменений

Checkpointing и /rewind — это страховка: Claude Code автоматически отслеживает правки файлов, сделанные Claude, по мере работы, так что вы можете откатиться к состоянию "до того, как всё пошло не так" за несколько нажатий клавиш. Снимок делается перед каждым редактированием, каждый отправленный вами промпт становится точкой восстановления, а checkpoint-ы сохраняются между сессиями. Чтобы воспользоваться, введите /rewind или дважды нажмите Esc при пустом поле ввода, чтобы открыть меню, затем выберите точку и действие: Restore code and conversation / Restore conversation / Restore code (учтите: если в поле есть текст, двойное Esc вместо этого очистит его). Самая важная оговорка: восстанавливаются только изменения, сделанные инструментами редактирования Claude (Write/Edit/NotebookEdit) — изменения файлов командами bash (rm/mv/cp), изменения вне сессии или из других сессий, операции с каталогами, удалённые файлы и состояние базы данных откатом НЕ отменяются. В документации это формулируется как "checkpoint-ы = локальная отмена, Git = постоянная история": он дополняет, но не заменяет контроль версий, поэтому делать коммиты в Git на ключевых этапах — правило. /rewind также является средством восстановления при ошибке 400, связанной с параллелизмом tool-use и блоками размышления (продукт сам предлагает его запустить), хотя версии до v2.1.156 могут её не устранять, поэтому сначала идёт claude update. Включён по умолчанию в интерактивном CLI, opt-in в Agent SDK, хранится вместе с сессиями 30 дней (настраивается). На основе официальной документации, с пометками о неопределённостях.

Что такое Claude Managed Agents? Полностью управляемое облако Anthropic

Что такое Claude Managed Agents? Полностью управляемое облако Anthropic

Claude Managed Agents вышел в виде публичной беты 8 апреля 2026 года как набор компонуемых API для создания и развёртывания облачных агентов в любом масштабе. Вместо того чтобы строить собственный цикл агента, выполнение инструментов и среду исполнения, вы получаете полностью управляемую среду, где Claude может безопасно читать файлы, выполнять команды, просматривать веб и запускать код, с встроенными кэшированием промптов, компактизацией контекста, песочницей и сохранением состояния. Сервис организован вокруг четырёх понятий (Agent, Environment, Session, Events), и Environment может быть облачной песочницей под управлением Anthropic или self-hosted. Отличие от self-hosted Agent SDK (где цикл, инструменты и инфраструктуру запускаете вы) — это «запускаете вы vs запускает Anthropic»: не конкуренты, а выбор о том, сколько операций вы оставляете за собой. Характерная черта — постоянная память (memory store) с областью видимости рабочего пространства, смонтированная в песочнице по пути /mnt/memory, которую агент читает и пишет обычными файловыми операциями и которая сохраняется между сессиями (неизменяемые версии, хранение 30 дней, ограничения вроде 100 kB на запись). Dreaming — асинхронная задача, которая читает существующую память и прошлые транскрипты, чтобы создать реорганизованный memory store: объединяет дубликаты, обновляет устаревшие значения и выводит на поверхность новые инсайты (research preview, требующий доступа; некоторые называют это «запланированным», но документация описывает асинхронную задачу по требованию). Также есть оценка по результатам (отдельный грейдер оценивает по вашей рубрике; заявлено улучшение до 10 пунктов) и мультиагентная оркестрация. Цена — токены + $0.08 за час сессии (тарификация до миллисекунды, только пока работает; около $0.705 за часовую сессию Opus 4.8). Включено по умолчанию для всех API-аккаунтов, но stateful, поэтому не подпадает под ZDR и HIPAA BAA. На основе официальной информации, с пометками о неопределённостях.

Что такое plugin для Claude Code и marketplace: создание и публикация

Что такое plugin для Claude Code и marketplace: создание и публикация

plugin для Claude Code объединяет ваши слэш-команды, субагентов, серверы MCP и хуки в один блок, который можно версионировать, передавать и переиспользовать между командами и проектами, а marketplace — это место их распространения. В статье на основе официальной документации разбираем, что такое plugin, его структуру (манифест .claude-plugin/plugin.json), как пользоваться через /plugin marketplace add и /plugin install, что такое официальный и общественный marketplace, как создать и опубликовать свой через git, а также область распространения (user / project / local / managed) и безопасность — ведь plugins могут выполнять произвольный код.

Subagents против Agent Teams в Claude Code: в чём разница

Subagents против Agent Teams в Claude Code: в чём разница

В Claude Code есть два похожих, но разных механизма для распределения работы между ИИ — subagents и Agent Teams. Subagents встроены и иерархичны: главный агент делегирует узкую задачу помощнику со свежим контекстом и получает обратно только сводку. Agent Teams — экспериментальная, по умолчанию выключенная функция (нужен флаг CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1): независимые сессии координируются как равные через общий список задач. Разбираем решающее различие, что выбрать и как использовать.

Что такое Claude Design и команда /design-sync

Что такое Claude Design и команда /design-sync

Claude Design — это инструмент дизайна от Anthropic Labs, позволяющий создавать UI, прототипы, слайды и одностраничники в диалоге. Обновление от 17 июня 2026 года добавило импорт дизайн-систем и двустороннюю синхронизацию с Claude Code через команду /design-sync. Разбираем суть обновления, два направления синхронизации, условия доступа и почему это сокращает число итераций между дизайнерами и разработчиками.

Что такое Claude Code Artifacts: сессия как живая общая страница

Что такое Claude Code Artifacts: сессия как живая общая страница

18 июня 2026 года Anthropic выпустила Claude Code Artifacts (бета) — функцию, превращающую сессию кодирования в терминале в живую веб-страницу, которой может поделиться вся команда. Вместо бесконечного вывода git diff и логов текстом Claude Code публикует аннотированный разбор PR, самообновляющийся дашборд, таймлайн инцидента или чек-лист релиза как одну страницу по приватному URL на claude.ai. В статье разбираем, что это такое, чем отличается от claude.ai Artifacts 2024 года, как пользоваться (без команды /artifact — вы просите обычными словами), ограничения (слепок работы, а не приложение) и доступность для Team / Enterprise.

Claude Code: Invalid API key и Not logged in — почему и как исправить

Claude Code: Invalid API key и Not logged in — почему и как исправить

Ошибки аутентификации Claude Code (Not logged in, Invalid API key, organization has been disabled, OAuth token expired) — это в основном 401/403, проблема учётных данных. Самая частая причина — переменная окружения ANTHROPIC_API_KEY, которая молча перекрывает вход по подписке и приводит к неожиданным оплатам. Разбираем порядок диагностики: сначала /status, затем поиск лишнего ключа, unset и чистый повторный вход.

Claude Code: command not found — установка и ошибки PATH

Claude Code: command not found — установка и ошибки PATH

Ошибка «command not found: claude» в Claude Code почти всегда означает лишь, что папка установки (~/.local/bin) не добавлена в PATH — бинарник существует. Разбираем способы установки и их расположение, как починить PATH, ошибку прав npm (EACCES) без sudo, конфликты нескольких установок, ловушки Windows и обновление через claude doctor.

Claude Code: ошибки сети и proxy — connection, TLS, файрвол

Claude Code: ошибки сети и proxy — connection, TLS, файрвол

Сетевые и прокси-ошибки Claude Code (Unable to connect, fetch failed, SSL certificate verification failed) означают, что запрос не дошёл до сервера Anthropic. Это не 401/403, не 529/500 и не 429. Разбираем настройку HTTPS_PROXY, корпоративные CA через NODE_EXTRA_CA_CERTS (без отключения проверки), домены для файрвола и пошаговую диагностику с curl и /doctor.

Claude Code: ошибки 529 Overloaded и 500 — что это и как исправить

Claude Code: ошибки 529 Overloaded и 500 — что это и как исправить

Ошибки 529 Overloaded и 500 в Claude Code означают, что API Anthropic временно перегружен или столкнулся с внутренней ошибкой — это на стороне сервера, не ошибка вашего запроса и не исчерпание лимита. Claude Code автоматически повторяет запрос до 10 раз с экспоненциальной задержкой. Разбираем, чем они отличаются от 429 и usage limit, и как действовать пользователю и разработчику.

Обзор по категориям

Stable Diffusion

Смотреть все

Другие ИИ

Смотреть все

Для начинающих

Смотреть все

AI-разработка

Смотреть все

Среда разработки и инфраструктура

Смотреть все

AI-агенты и автоматизация

Смотреть все

Эффективность работы

Смотреть все

Анализ данных

Смотреть все

Обучение

Смотреть все

Заработок и монетизация

Смотреть все

Разработка игр

Смотреть все

Безопасность и управление ИИ

Смотреть все

Риски и влияние ИИ

Смотреть все