Перейти к содержимому
AI Platform

ИИ без границ.

Понятные руководства по ИИ, полезные советы и последние новости.
А также бесплатные курсы и тест навыков ИИ.

Что предлагает AI Arte

Тест на знание ИИ

Доступно

Тест по основам ИИ

Проверьте знания ИИ в 20 вопросах.

Скоро

Тест навыков промптинга

Оцените умение составлять эффективные промпты.

Скоро

Тест применения ИИ

Проверьте практические навыки использования ИИ.

Рекомендуемая статья

Что такое Agent Evals? Измеряем и результат, и trajectory

Что такое Agent Evals? Измеряем и результат, и trajectory

Agent Evals — это процесс систематического измерения того, способен ли агент, который использует инструменты и делает несколько шагов к цели, действительно выполнять свои задачи. Это эволюция LLM evals, расширяющая объект оценки с «одного вывода» до «последовательности действий». Поскольку агент планирует, вызывает инструменты и обновляет состояние, одного финального вывода недостаточно; Google отмечает, что нужно понимать «почему» за действиями агента, и делит оценку на финальный ответ и trajectory. Пять измерений: outcome (успех задачи, судят по финальному состоянию — существует ли бронь в DB, а не по высказыванию «я забронировал»), trajectory (разумные шаги, правильные инструменты в правильном порядке), корректность использования инструментов (правильный инструмент и аргументы, проверка имён функций и типов), эффективность (шаги, токены, стоимость, задержка — часто сигналы observability, привнесённые в оценку) и качество финального ответа (через LLM-as-judge или рубрику). Грейдеры — это код (быстрый/дешёвый/воспроизводимый, но хрупкий), LLM-as-judge (гибкий, но недетерминированный и требует калибровки) и человек (золотой стандарт, но дорогой — избегайте по возможности). Anthropic рекомендует оценивать результат, а не путь: механическое сопоставление trajectory «слишком жёсткое и хрупкое», поскольку агенты находят допустимые альтернативы, тогда как Google и Microsoft предлагают метрики сопоставления trajectory для диагностики провалов. Уникальные подводные камни — недетерминированность (pass^k), накапливающиеся ошибки (p^t), reward hacking (роботизированная рука DeepMind, имитирующая захват) и устаревшие или загрязнённые наборы eval. Практический приём, по Anthropic: превратить 20–50 продакшен-провалов в тест-кейсы, запустить автоматическую оценку в CI, разделить capability и regression evals и писать их рано. Бенчмарки вроде SWE-bench, tau-bench, WebArena, GAIA, OSWorld и BFCL полезны как референсы (оценки меняются от версии, поэтому не принимайте их за чистую монету). На основе официальной информации, с пометкой неопределённостей.

Последние статьи

Смотреть все
Что такое Agent Evals? Измеряем и результат, и trajectory

Что такое Agent Evals? Измеряем и результат, и trajectory

Agent Evals — это процесс систематического измерения того, способен ли агент, который использует инструменты и делает несколько шагов к цели, действительно выполнять свои задачи. Это эволюция LLM evals, расширяющая объект оценки с «одного вывода» до «последовательности действий». Поскольку агент планирует, вызывает инструменты и обновляет состояние, одного финального вывода недостаточно; Google отмечает, что нужно понимать «почему» за действиями агента, и делит оценку на финальный ответ и trajectory. Пять измерений: outcome (успех задачи, судят по финальному состоянию — существует ли бронь в DB, а не по высказыванию «я забронировал»), trajectory (разумные шаги, правильные инструменты в правильном порядке), корректность использования инструментов (правильный инструмент и аргументы, проверка имён функций и типов), эффективность (шаги, токены, стоимость, задержка — часто сигналы observability, привнесённые в оценку) и качество финального ответа (через LLM-as-judge или рубрику). Грейдеры — это код (быстрый/дешёвый/воспроизводимый, но хрупкий), LLM-as-judge (гибкий, но недетерминированный и требует калибровки) и человек (золотой стандарт, но дорогой — избегайте по возможности). Anthropic рекомендует оценивать результат, а не путь: механическое сопоставление trajectory «слишком жёсткое и хрупкое», поскольку агенты находят допустимые альтернативы, тогда как Google и Microsoft предлагают метрики сопоставления trajectory для диагностики провалов. Уникальные подводные камни — недетерминированность (pass^k), накапливающиеся ошибки (p^t), reward hacking (роботизированная рука DeepMind, имитирующая захват) и устаревшие или загрязнённые наборы eval. Практический приём, по Anthropic: превратить 20–50 продакшен-провалов в тест-кейсы, запустить автоматическую оценку в CI, разделить capability и regression evals и писать их рано. Бенчмарки вроде SWE-bench, tau-bench, WebArena, GAIA, OSWorld и BFCL полезны как референсы (оценки меняются от версии, поэтому не принимайте их за чистую монету). На основе официальной информации, с пометкой неопределённостей.

Что такое хуки Claude Code? Запуск shell-команд детерминированно

Что такое хуки Claude Code? Запуск shell-команд детерминированно

Хуки Claude Code — это определяемые пользователем shell-команды, которые автоматически запускаются в определённых точках жизненного цикла Claude Code, делая «это должно происходить всегда» реальным и детерминированным, не полагаясь на усмотрение LLM. Классических событий девять — SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact — из которых PreToolUse и другие могут блокировать (останавливая правки защищённых файлов или опасные команды). Настраиваете вы их в settings.json под ключом «hooks» как имя события -> matcher -> type + command. Контракт ввода/вывода: хук получает JSON на stdin (session_id, tool_input и т. д.) и возвращает результат через код выхода 0 (успех) / 2 (блок, со stderr, переданным обратно Claude) или структурированный JSON (continue, decision:block, permissionDecision: deny/allow/ask). Ключевой принцип: «хуки могут ужесточать, но не ослаблять ограничения» (deny всегда побеждает, блокирует даже при bypassPermissions). Классические сценарии: автоформат после правок (PostToolUse + Edit|Write), защита критичных файлов, остановка опасных команд, повторное внедрение контекста (SessionStart), уведомления/аудит и тесты перед остановкой (Stop). О безопасности: хуки выполняют произвольные shell-команды с вашими правами, поэтому настраивайте только доверенные и проверяйте/заключайте в кавычки входные данные; конфигурация хуков фиксируется при старте сессии (защитная функция), поэтому изменения в середине сессии не применяются. На основе официальной документации, с опорой на девять классических событий и контракт ввода/вывода.

Что такое checkpointing и /rewind в Claude Code? Откат изменений

Что такое checkpointing и /rewind в Claude Code? Откат изменений

Checkpointing и /rewind — это страховка: Claude Code автоматически отслеживает правки файлов, сделанные Claude, по мере работы, так что вы можете откатиться к состоянию "до того, как всё пошло не так" за несколько нажатий клавиш. Снимок делается перед каждым редактированием, каждый отправленный вами промпт становится точкой восстановления, а checkpoint-ы сохраняются между сессиями. Чтобы воспользоваться, введите /rewind или дважды нажмите Esc при пустом поле ввода, чтобы открыть меню, затем выберите точку и действие: Restore code and conversation / Restore conversation / Restore code (учтите: если в поле есть текст, двойное Esc вместо этого очистит его). Самая важная оговорка: восстанавливаются только изменения, сделанные инструментами редактирования Claude (Write/Edit/NotebookEdit) — изменения файлов командами bash (rm/mv/cp), изменения вне сессии или из других сессий, операции с каталогами, удалённые файлы и состояние базы данных откатом НЕ отменяются. В документации это формулируется как "checkpoint-ы = локальная отмена, Git = постоянная история": он дополняет, но не заменяет контроль версий, поэтому делать коммиты в Git на ключевых этапах — правило. /rewind также является средством восстановления при ошибке 400, связанной с параллелизмом tool-use и блоками размышления (продукт сам предлагает его запустить), хотя версии до v2.1.156 могут её не устранять, поэтому сначала идёт claude update. Включён по умолчанию в интерактивном CLI, opt-in в Agent SDK, хранится вместе с сессиями 30 дней (настраивается). На основе официальной документации, с пометками о неопределённостях.

Что такое Claude Managed Agents? Полностью управляемое облако Anthropic

Что такое Claude Managed Agents? Полностью управляемое облако Anthropic

Claude Managed Agents вышел в виде публичной беты 8 апреля 2026 года как набор компонуемых API для создания и развёртывания облачных агентов в любом масштабе. Вместо того чтобы строить собственный цикл агента, выполнение инструментов и среду исполнения, вы получаете полностью управляемую среду, где Claude может безопасно читать файлы, выполнять команды, просматривать веб и запускать код, с встроенными кэшированием промптов, компактизацией контекста, песочницей и сохранением состояния. Сервис организован вокруг четырёх понятий (Agent, Environment, Session, Events), и Environment может быть облачной песочницей под управлением Anthropic или self-hosted. Отличие от self-hosted Agent SDK (где цикл, инструменты и инфраструктуру запускаете вы) — это «запускаете вы vs запускает Anthropic»: не конкуренты, а выбор о том, сколько операций вы оставляете за собой. Характерная черта — постоянная память (memory store) с областью видимости рабочего пространства, смонтированная в песочнице по пути /mnt/memory, которую агент читает и пишет обычными файловыми операциями и которая сохраняется между сессиями (неизменяемые версии, хранение 30 дней, ограничения вроде 100 kB на запись). Dreaming — асинхронная задача, которая читает существующую память и прошлые транскрипты, чтобы создать реорганизованный memory store: объединяет дубликаты, обновляет устаревшие значения и выводит на поверхность новые инсайты (research preview, требующий доступа; некоторые называют это «запланированным», но документация описывает асинхронную задачу по требованию). Также есть оценка по результатам (отдельный грейдер оценивает по вашей рубрике; заявлено улучшение до 10 пунктов) и мультиагентная оркестрация. Цена — токены + $0.08 за час сессии (тарификация до миллисекунды, только пока работает; около $0.705 за часовую сессию Opus 4.8). Включено по умолчанию для всех API-аккаунтов, но stateful, поэтому не подпадает под ZDR и HIPAA BAA. На основе официальной информации, с пометками о неопределённостях.

Что такое plugin для Claude Code и marketplace: создание и публикация

Что такое plugin для Claude Code и marketplace: создание и публикация

plugin для Claude Code объединяет ваши слэш-команды, субагентов, серверы MCP и хуки в один блок, который можно версионировать, передавать и переиспользовать между командами и проектами, а marketplace — это место их распространения. В статье на основе официальной документации разбираем, что такое plugin, его структуру (манифест .claude-plugin/plugin.json), как пользоваться через /plugin marketplace add и /plugin install, что такое официальный и общественный marketplace, как создать и опубликовать свой через git, а также область распространения (user / project / local / managed) и безопасность — ведь plugins могут выполнять произвольный код.

Subagents против Agent Teams в Claude Code: в чём разница

Subagents против Agent Teams в Claude Code: в чём разница

В Claude Code есть два похожих, но разных механизма для распределения работы между ИИ — subagents и Agent Teams. Subagents встроены и иерархичны: главный агент делегирует узкую задачу помощнику со свежим контекстом и получает обратно только сводку. Agent Teams — экспериментальная, по умолчанию выключенная функция (нужен флаг CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1): независимые сессии координируются как равные через общий список задач. Разбираем решающее различие, что выбрать и как использовать.