Перейти к содержимому

Руководства, сравнения и новости об инструментах ИИ

Руководства, сравнения и новости об инструментах ИИ для начинающих

Рекомендуемая статья

Что такое Agent Evals? Измеряем и результат, и trajectory
Claude AI-разработка Для начинающих

Что такое Agent Evals? Измеряем и результат, и trajectory

Agent Evals — это процесс систематического измерения того, способен ли агент, который использует инструменты и делает несколько шагов к цели, действительно выполнять свои задачи. Это эволюция LLM evals, расширяющая объект оценки с «одного вывода» до «последовательности действий». Поскольку агент планирует, вызывает инструменты и обновляет состояние, одного финального вывода недостаточно; Google отмечает, что нужно понимать «почему» за действиями агента, и делит оценку на финальный ответ и trajectory. Пять измерений: outcome (успех задачи, судят по финальному состоянию — существует ли бронь в DB, а не по высказыванию «я забронировал»), trajectory (разумные шаги, правильные инструменты в правильном порядке), корректность использования инструментов (правильный инструмент и аргументы, проверка имён функций и типов), эффективность (шаги, токены, стоимость, задержка — часто сигналы observability, привнесённые в оценку) и качество финального ответа (через LLM-as-judge или рубрику). Грейдеры — это код (быстрый/дешёвый/воспроизводимый, но хрупкий), LLM-as-judge (гибкий, но недетерминированный и требует калибровки) и человек (золотой стандарт, но дорогой — избегайте по возможности). Anthropic рекомендует оценивать результат, а не путь: механическое сопоставление trajectory «слишком жёсткое и хрупкое», поскольку агенты находят допустимые альтернативы, тогда как Google и Microsoft предлагают метрики сопоставления trajectory для диагностики провалов. Уникальные подводные камни — недетерминированность (pass^k), накапливающиеся ошибки (p^t), reward hacking (роботизированная рука DeepMind, имитирующая захват) и устаревшие или загрязнённые наборы eval. Практический приём, по Anthropic: превратить 20–50 продакшен-провалов в тест-кейсы, запустить автоматическую оценку в CI, разделить capability и regression evals и писать их рано. Бенчмарки вроде SWE-bench, tau-bench, WebArena, GAIA, OSWorld и BFCL полезны как референсы (оценки меняются от версии, поэтому не принимайте их за чистую монету). На основе официальной информации, с пометкой неопределённостей.

Последние статьи

145 статей
Claude Code «usage limit reached»: причины и решения — 5-часовой и недельный лимиты, запасной выход через API

Claude Code «usage limit reached»: причины и решения — 5-часовой и недельный лимиты, запасной выход через API

Вы работаете в Claude Code и вдруг видите «Claude usage limit reached. Your limit will reset at 3pm», и всё останавливается. Это не ошибка и не баг: так устроены лимиты использования подписки Pro/Max. В статье разобраны двухуровневая структура (скользящее 5-часовое окно + недельное окно, а на Max ещё отдельный недельный лимит для Opus), факт общего лимита с приложениями Claude, четыре главных фактора расхода, пять способов продолжить работу при достижении лимита, как посмотреть остаток через /usage и Settings → Usage, и разница между лимитами подписки и API (429, retry-after, Tier).

Claude Code «Prompt is too long»: почему окно контекста переполняется и как это исправить

Claude Code «Prompt is too long»: почему окно контекста переполняется и как это исправить

Вы видите «Prompt is too long» (а в API — «233153 tokens > 200000 maximum») в Claude Code, и работа останавливается. Это не usage limit и не обрезка вывода по max_tokens: ваш ввод (история диалога + файлы + определения инструментов) просто превысил окно контекста модели. В статье разобрано, что заполняет окно, чем различаются размеры 200K и 1M, как быстро освободить место через /compact, /clear и subagent, и как отличить эту ошибку от трёх похожих.

Claude Code не подключается к серверу MCP: как читать статус и устранять ошибки

Claude Code не подключается к серверу MCP: как читать статус и устранять ошибки

Вы настроили сервер MCP в Claude Code, но /mcp показывает failed, needs authentication или pending — и инструменты не работают. Причины делятся на три семейства: сбой запуска локального подпроцесса, удалённая аутентификация и ошибки конфигурации, и статус подсказывает, какое из них перед вами. В статье разобраны чтение статуса, устранение причин по отдельности, главная ловушка npx на Windows и рабочий процесс диагностики.

Claude Code: когда «court» и теги invoke утекают в чат, а инструмент не запускается

Claude Code: когда «court» и теги invoke утекают в чат, а инструмент не запускается

В длинных сессиях Claude Code иногда на экран утекает строка с «court» (или «call») и сырыми тегами <invoke> / <parameter>, при этом команда не выполняется. Это не ошибка вашего окружения или команды, а сбой на стороне модели (семейство Opus 4.8 / 4.7), которая генерирует управляющий токен вызова инструмента в битой форме; харнесс отклоняет его по принципу fail-closed, поэтому риска запуска неверной команды нет. По-настоящему неприятна цепная реакция: битый блок остаётся в истории, модель его имитирует, и повторы в той же сессии бьют рикошетом. Главное правило — «промахнулся дважды, уходи в свежую сессию (/clear)». В статье разобраны механизм, две первопричины, типичные заблуждения, исправления для пользователей и разработчиков, отличие от похожих ошибок и официальный статус.

Как не получить блокировку аккаунтов ChatGPT и Claude (OpenAI / Anthropic)

Как не получить блокировку аккаунтов ChatGPT и Claude (OpenAI / Anthropic)

Однажды аккаунт ChatGPT или Claude внезапно перестаёт работать: в 2026 году число сообщений о блокировках (банах) и предупреждениях растёт, и страшнее всего то, что заблокировать могут за случайное нарушение условий даже без злого умысла. В статье собрано то, что нужно знать, чтобы не потерять аккаунт в OpenAI (ChatGPT, Codex) и Anthropic (Claude, Claude Code), на основе опубликованных правил использования и сообщений (это не руководство по обходу обнаружения, а руководство по соблюдению правил). Пять общих триггеров для обеих компаний: запрещённый контент / jailbreak (незаконная или вредоносная генерация, попытки обойти защитные фильтры промптами; серьёзные нарушения могут означать мгновенную постоянную блокировку), несанкционированная автоматизация / скрейпинг (боты, скрипты, обманный массовый доступ вроде спама/фишинга), передача или перепродажа аккаунтов/ключей API, подозрительные паттерны доступа (частая смена IP/страны, активный VPN, переключение устройств — воспринимается как аномальные входы) и несоответствие оплаты/мошенничество. Главная ловушка 2026 года: использование токенов OAuth личного тарифа Claude (Free/Pro/Max) в любом продукте, кроме официального приложения, включая обвязки вроде Agent SDK, — нарушение Consumer ToS, вызвавшее крупную волну блокировок; правильный подход — запускать приложения/агентов через API (оплата по факту), а личные тарифы воспринимать как общение в официальном приложении. Специфика OpenAI: обход защиты/ограничений доступа, автоматизация/скрейпинг, неправомерное повторное использование ключей API, незаконное использование. Специфика Anthropic: неправильное использование токенов OAuth личного тарифа, неофициальный сторонний доступ, положения о запрете дистилляции/конкурирующих моделей, jailbreak. Чек-лист профилактики из 7 пунктов (прочитать правила, подобрать тариф под задачу, не помещать личные токены в сторонние инструменты, без jailbreak/запрещённого контента, не передавать и не перепродавать, оплата по региону и стабильный доступ, реагировать на предупреждения сразу). Предупреждения — шанс исправиться, и большинство могут продолжать; незначительные или случайные нарушения можно обжаловать, но серьёзные нарушения постоянны и восстановление затруднено. Правильный тариф, по правильному назначению, честно. Всегда сверяйтесь с актуальными официальными условиями каждой компании.

Что такое LoRA? Настройка ИИ с помощью крошечного дообучения

Что такое LoRA? Настройка ИИ с помощью крошечного дообучения

Переобучать гигантский ИИ с нуля слишком дорого, но хочется настроить его под себя; LoRA (Low-Rank Adaptation) исполняет это желание, замораживая исходную модель и обучая лишь крошечную навесную деталь (адаптер), сокращая обучаемые параметры примерно на 90%. LoRA делает файнтюнинг заметно дешевле и быстрее и чрезвычайно популярна в генерации изображений вроде Stable Diffusion как маленький файл, добавляющий персонажа или стиль. Статья объясняет её через аналогию заплатки. LoRA — флагман параметрически эффективного файнтюнинга (PEFT): огромные исходные веса остаются замороженными, в каждый слой вставляется небольшая навесная матрица, и обучается только она (W = W0 + BA, где W0 заморожена, а BA — небольшая добавленная часть). В основе — открытие, что адаптация ИИ не требует больших изменений (достаточно низкого ранга). Преимущества: примерно на 90% меньше обучаемых параметров (по сообщениям, в 10,000x раз меньше на масштабе GPT-3), меньше памяти GPU (примерно в 3x раза), быстрее и дешевле обучение, без задержки при инференсе после слияния адаптера и ниже риск переобучения. Главная сила — сменные адаптеры: держите одну общую базу и мгновенно меняйте маленькие файлы LoRA (в несколько МБ) под каждый случай (поддержка, тон компании, конкретный персонаж). Многие впервые встречают LoRA в генерации изображений, где широко распространяются LoRA для Stable Diffusion, обучённые персонажу, стилю или объекту (добавить стиль, обучить персонажу, лёгкие и удобные для обмена). QLoRA сочетается с квантизацией, обучая LoRA поверх базы на 4-bit ради ~4x меньшей памяти, чем стандартная LoRA, позволяя дообучать огромные модели на потребительском GPU (иногда CPU) с минимальной потерей точности. По сравнению с полным файнтюнингом (обучение всех весов) LoRA отличается обучаемыми весами, стоимостью, результатом и областью применения; для большинства задач LoRA достаточно. Базу оставь как есть, приправляй понемногу. Цифры взяты из публичных материалов, ориентировочно.

Что такое квантизация? Уменьшаем модели ИИ, чтобы запускать их на своей машине

Что такое квантизация? Уменьшаем модели ИИ, чтобы запускать их на своей машине

Огромная модель 70B, работающая на одном домашнем игровом ПК вместо стойки дата-центровых GPU, возможна благодаря квантизации, которая снижает числовую точность весов модели, чтобы резко уменьшить размер и память. Если дистилляция переносит знания в отдельную меньшую модель, то квантизация делает ту же модель легче. Статья объясняет это через аналогию со сжатием фотографии. Квантизация заменяет веса, хранящиеся как дробные FP16/FP32, целыми INT8 (8-бит) или INT4 (4-бит), сокращая байты на вес (FP32=4, INT8=1, INT4=0,5); как сжатие RAW-фото в JPEG, жертвуем малой точностью ради большого выигрыша, и удивляет, как мало вы теряете. По памяти 4-bit использует около четверти от FP16: модель 70B падает с ~140GB до ~35GB, а 8B при 4-bit — ~4.5-5GB, умещаясь в средний GPU с 8GB VRAM для локального запуска (демократизация LLM). По точности INT8 почти без потерь, а INT4 деградирует менее чем на 4% на обычных Q&A и задачах на здравый смысл, но потеря заметнее для математики, генерации кода и сложных рассуждений (проявляется как небольшой рост перплексии), поэтому выбирайте разрядность под задачу. Основные методы: GPTQ (первопроходец точного 4-bit), AWQ (защищает ~1% самых важных весов, часто на 1-2% точнее и быстрее), GGUF (формат llama.cpp/Ollama, Q2_K-Q8_0, гибрид CPU+GPU, для локального) и QLoRA (4-bit база плюс LoRA для файнтюнинга на потребительском GPU). Это отличается от дистилляции (перенос в отдельную малую модель) и файнтюнинга (добавление знаний задачи), и эти три обычно комбинируют (квантизовать дистиллированную модель; файнтюнить квантизованную базу). Чтобы начать, запустите модель GGUF с Ollama одной командой, выберите Q4/Q8 по VRAM и избегайте INT4 для кода или точной математики. Большинство крупных моделей поставляются уже квантизованными, так что вы просто скачиваете и используете их. Сохраняем ум, убираем только вес. Цифры взяты из публичных материалов, ориентировочны.

Что такое дистилляция моделей? Перенос знаний от большого ИИ к маленькому

Что такое дистилляция моделей? Перенос знаний от большого ИИ к маленькому

Огромный, высокопроизводительный ИИ умён, но тяжёл и дорог; дистилляция моделей (knowledge distillation) решает это, перенося знания крупной модели-учителя в небольшую модель-ученика и сохраняя 95%+ производительности учителя при десятикратно меньшем размере и скорости. Статья объясняет это через аналогию «учитель — ученик». Ключ — soft labels: обычное обучение учит только «ответ — кошка» (hard label), а дистилляция передаёт всё распределение вероятностей учителя, например «90% кошка, 8% собака, 2% лиса», чья степень сомнения несёт богатую информацию; параметр temperature смягчает вероятности, открывая тонкие отношения (реальный пример: GPT-4o mini дистиллирована из GPT-4o). Преимущества: быстро и дёшево, ~в 10 раз компактнее при сохранении 95%+ производительности, работа на edge, сила в специализации. Два подхода: white-box (полный доступ к весам и внутренним представлениям, более глубокий перенос; для своих или OSS-моделей) и black-box (видны только выходы/ответы API; чужой API как учитель может нарушать условия). Отличается от квантизации (сжатие точности весов той же модели) и fine-tuning (дообучение существующей модели под задачу) — дистилляция переносит знания в отдельную малую модель, и все три комбинируемы. Правовая сторона стала большой темой 2026 года: технология легитимна, но OpenAI, Anthropic, Mistral и xAI имеют анти-конкурентные положения о дистилляции, запрещающие использовать выходы для создания конкурирующих моделей, поэтому дистилляция конкурента из ограниченного API может нарушать условия. Спор OpenAI против DeepSeek (OpenAI заявила, что связанные с DeepSeek аккаунты обходили ограничения, чтобы получить выходы для дистилляции, тогда как условия DeepSeek, по сообщениям, разрешают дистиллировать её выходы) показывает, что оценка зависит от того, чьи условия API применяются, а Claude Fable 5/Mythos 5, по сообщениям, ограничивают ответы по работе, помеченной как дистилляция. Советы: используйте свои или лицензированные OSS-модели как учителя, проверяйте анти-дистилляционные положения перед использованием коммерческого API и оценивайте, не является ли использование «разработкой конкурирующей модели». Ум — от большой модели, эксплуатация — от малой, но выбор учителя меняет результат технически и юридически. Цифры приведены по открытым материалам, ориентировочно.

Что такое наблюдаемость ИИ? Мониторинг и трассировка LLM и агентов для новичков

Что такое наблюдаемость ИИ? Мониторинг и трассировка LLM и агентов для новичков

В статье «Как построить мультиагентную систему» мы советовали инструментировать каждую передачу управления до добавления агентов; технология, которая обеспечивает это в продакшене, — наблюдаемость ИИ. Она делает видимым то, что LLM и агенты на самом деле делают в продакшене (какая модель с каким промптом, какие инструменты и поиски, что возвращено, сколько времени и денег), чтобы можно было проследить путь до причины. Решающее отличие от обычного мониторинга: ИИ может вернуть 200 OK за 50ms и при этом уверенно галлюцинировать, поэтому большинство сбоев ИИ — это сбои качества (галлюцинации, слабое извлечение, небезопасные ответы, незавершённые задачи, плохое использование инструментов, регрессии после изменения промпта), а не инфраструктуры. Наблюдаемость опирается на три столпа: trace (один запрос как дерево span с вызовами LLM, инструментами, извлечением, цепочками рассуждений; главный элемент наблюдения ИИ), метрики (задержка, стоимость, токены, частота ошибок, пропускная способность) и логи (детали по событиям). Отраслевой стандарт — соглашения GenAI в OpenTelemetry — фиксирует промпты, ответы, использование токенов и вызовы инструментов/агентов в схеме без привязки к вендору, которую можно направить в Datadog/Grafana. Чаще всего путают наблюдаемость и оценку (evals): наблюдаемость показывает, что произошло (легко измерить, но нельзя сказать, верен ли ответ), а evals измеряют, хорош ли ответ (точность, groundedness, безопасность), и требуют явной оценки. Поскольку стоимость и задержку измерить легко, а качество ответа — нет, инструменты 2026 года совмещают показ trace с оценкой выходов и оповещениями о деградации. Метрики делятся на операционные (стоимость, задержка, токены, частота ошибок) и качественные (галлюцинация, groundedness/достоверность, важнейшая для RAG, безопасность, завершение задачи); обнаружение галлюцинаций — через LLM-as-a-judge, семантическое сходство и оценки groundedness. Основные инструменты: LangSmith (LangChain), Langfuse (open-source self-host), Arize Phoenix (отладка RAG), MLflow (жизненный цикл), AgentOps (агенты) и OpenTelemetry (стандарт). Начните со сбора trace (совместимо с OpenTelemetry), визуализируйте операционные метрики, затем подключите evals до выпуска. Для мультиагентных систем наблюдение необходимо, так как сбои прячутся в многошаговых цепочках, видимых только в trace всей сессии. Наблюдать плюс оценивать — вот что делает ИИ продакшен-уровнем. Иллюстрации и характеристики приведены по публичным материалам, как ориентир.

Как построить мультиагентную систему: практическое руководство по паттерну supervisor

Как построить мультиагентную систему: практическое руководство по паттерну supervisor

После того как вы усвоили концепцию в статье «Что такое мультиагентная система?», это практическое продолжение. На де-факто стандарте 2026 года — паттерне supervisor — оно проводит начинающих через построение за 5 шагов. Главный принцип: сначала стройте на одном агенте и добавляйте новых по минимуму, только упёршись в предел (около 80% сценариев обходятся одним; использование мульти для простой линейной работы раздувает стоимость в 3-10x и, по данным исследования Google, снижает точность на -39-70% на последовательных задачах). Три признака перехода на мульти: разделение специализаций, параллелизм, разделение решений. К паттерну supervisor (supervisor получает общую задачу, разбивает её, делегирует специализированным worker и агрегирует результаты) сошлись subagents в Claude Code, LangGraph Supervisor и handoffs в OpenAI Agents SDK — у него самая широкая поддержка фреймворков, известный режим отказа (избыточное делегирование, ограниченное лимитом итераций) и его легко аудировать. 5 шагов: 1) чётко разложить задачу заранее; 2) определить worker с одной ролью + инструменты + формат вывода (максимум 3-5); 3) спроектировать supervisor, явно перечислив имена вызываемых worker (жёсткий лимит) и тратя на это больше всего времени; 4) определить handoff и обмен контекстом, передавая только нужное (стандарт — A2A); 5) инструментировать каждый handoff до добавления агентов, ограничить итерации/токены/стоимость, настроить evals и ограждения. Псевдокод, не зависящий от фреймворка, показывает определения worker, жёстко ограниченный supervisor и цикл с лимитом итераций. Типичные ловушки и решения: избыточное делегирование (лимит + ограничение вызываемых worker), раздувание токенов (передача только нужного + кэш), нестабильность (держать 3-5 + фиксированный вывод), падение точности на последовательных задачах (вернуться к одному), неясный источник сбоя (наблюдаемость). Общий урок: промпты, проектирование инструментов и набор evals решают успех больше, чем фреймворк. Стройте мало, измеряйте, добавляйте только когда окупается. Цифры приведены по открытым материалам и исследованиям, зависят от условий.

Что такое мультиагентная система? Координация нескольких ИИ-агентов простыми словами

Что такое мультиагентная система? Координация нескольких ИИ-агентов простыми словами

«Разбить сложную задачу, с которой не справляется один ИИ-агент, между несколькими агентами» — вот идея мультиагентных систем. Этот гид для новичков разбирает механику, основные паттерны и крупнейшие фреймворки, и, что важнее всего, дает реальное правило выбора: когда нужны несколько агентов, а когда хватит одного, без хайпа. Мультиагентная система заставляет несколько ИИ с разными ролями работать вместе над одной крупной задачей; в отличие от одиночного агента, делающего всё (его хватает на ~80% сценариев, он дешев и легко отлаживается), она распределяет работу по специализациям для параллельной работы и взаимной проверки ценой более высоких затрат на координацию и расход токенов. Четыре доминирующих паттерна оркестрации: orchestrator-worker (руководитель разбивает работу, раздает исполнителям параллельно и объединяет; самый распространенный, с журналом действий), последовательная передача (передача контекста следующему агенту), групповой диалог (агенты спорят в одной ветке, селектор решает, кто говорит; хорошо для взаимной проверки) и граф-конечный автомат (агенты как узлы, переходы как ребра, явное состояние; силен для ветвления и контрольных точек). К 2026 году фреймворки сошлись к LangGraph (наибольшее присутствие в продакшене), CrewAI (низкий порог входа, прототипирование), AutoGen/AG2 (дебаты и проверка, исследования) и OpenAI Swarm (легкие передачи). Но это не панацея: сложные многодоменные задачи дают до +23% на бенчмарках рассуждений, однако на линейных последовательных задачах исследование Google показало −39-70% против одиночного агента, те же ресурсы у одного агента часто не уступают или выигрывают, а 7 из 10 внедрений, по сообщениям, увеличили затраты без отдачи при ≈15x расходе токенов (средний ROI 2.5-3.5x, верхний квартиль 4-6x при точном попадании). Рекомендуемый путь: сначала собрать на одном, определить конкретный потолок (размытые роли, распараллеливаемая работа), затем добавить минимальную команду из 2-3 агентов по схеме с руководителем с лимитом затрат и логированием и измерить, оправдывает ли прирост точности увеличение. A2A (протокол связи) и MCP (подключение инструментов) — базовые технологии, поддерживающие мультиагентность. Один — на 80%, мультиагентность — только на трудных участках. Цифры приводятся по опросам и исследованиям, зависят от условий и носят ориентировочный характер.

Что такое A2A (Agent2Agent)? Чем отличается от MCP, Agent Card и как это работает

Что такое A2A (Agent2Agent)? Чем отличается от MCP, Agent Card и как это работает

Теперь, когда ИИ-агенты стали обыденностью, следующий вызов — как заставить агентов работать сообща. Если MCP соединяет агента с его инструментами, то A2A (Agent2Agent) соединяет агента с другим агентом — это открытый стандарт, позволяющий ИИ, построенным на разных платформах и фреймворках, находить друг друга, общаться и сотрудничать через общую договорённость. Google выпустил его в апреле 2025 года, в июне передал Linux Foundation, и в 2026 году он достиг версии v1.0. Это руководство для новичков объясняет, что такое A2A (аналогия с этикетом делового партнёрства), зачем он нужен (специализированные агенты передают работу по эстафете — агент планирования, агент бронирования отелей, агент оплаты), чем отличается от MCP (MCP — это вертикаль, агент ↔ инструменты; A2A — это горизонталь, агент ↔ агент; совмещение обоих — стандартная двухслойная схема), как это работает (Agent Card — JSON-«визитка» по адресу /.well-known/agent-card.json — используется для обнаружения возможностей, затем Task несёт запрос через состояния working, input-required, completed, а Artifact возвращает результат, и всё это поверх HTTP, Server-Sent Events и JSON-RPC 2.0, причём агенты держат своё внутреннее устройство скрытым), а также каково текущее состояние и реализация (по состоянию на апрель 2026 года: 150+ организаций в продакшене, 22 000+ звёзд на GitHub, SDK на пяти языках — Python, JavaScript, Java, Go, .NET — при участии Microsoft, Salesforce, SAP и ServiceNow). Запомнить просто: подключение к инструментам = MCP, подключение к равным = A2A.

Обзор по категориям

Stable Diffusion

Смотреть все

Другие ИИ

Смотреть все

Для начинающих

Смотреть все

AI-разработка

Смотреть все

Среда разработки и инфраструктура

Смотреть все

AI-агенты и автоматизация

Смотреть все

Эффективность работы

Смотреть все

Анализ данных

Смотреть все

Обучение

Смотреть все

Заработок и монетизация

Смотреть все

Разработка игр

Смотреть все

Безопасность и управление ИИ

Смотреть все

Риски и влияние ИИ

Смотреть все