Перейти к содержимому
Темы

AI-агенты и автоматизация

Разберитесь в AI-агентах, RAG и автоматизации процессов. От концепций до реальных применений.

34 статей

Сортируйте статьи, чтобы найти нужное

Что такое наблюдаемость ИИ? Мониторинг и трассировка LLM и агентов для новичков

Что такое наблюдаемость ИИ? Мониторинг и трассировка LLM и агентов для новичков

В статье «Как построить мультиагентную систему» мы советовали инструментировать каждую передачу управления до добавления агентов; технология, которая обеспечивает это в продакшене, — наблюдаемость ИИ. Она делает видимым то, что LLM и агенты на самом деле делают в продакшене (какая модель с каким промптом, какие инструменты и поиски, что возвращено, сколько времени и денег), чтобы можно было проследить путь до причины. Решающее отличие от обычного мониторинга: ИИ может вернуть 200 OK за 50ms и при этом уверенно галлюцинировать, поэтому большинство сбоев ИИ — это сбои качества (галлюцинации, слабое извлечение, небезопасные ответы, незавершённые задачи, плохое использование инструментов, регрессии после изменения промпта), а не инфраструктуры. Наблюдаемость опирается на три столпа: trace (один запрос как дерево span с вызовами LLM, инструментами, извлечением, цепочками рассуждений; главный элемент наблюдения ИИ), метрики (задержка, стоимость, токены, частота ошибок, пропускная способность) и логи (детали по событиям). Отраслевой стандарт — соглашения GenAI в OpenTelemetry — фиксирует промпты, ответы, использование токенов и вызовы инструментов/агентов в схеме без привязки к вендору, которую можно направить в Datadog/Grafana. Чаще всего путают наблюдаемость и оценку (evals): наблюдаемость показывает, что произошло (легко измерить, но нельзя сказать, верен ли ответ), а evals измеряют, хорош ли ответ (точность, groundedness, безопасность), и требуют явной оценки. Поскольку стоимость и задержку измерить легко, а качество ответа — нет, инструменты 2026 года совмещают показ trace с оценкой выходов и оповещениями о деградации. Метрики делятся на операционные (стоимость, задержка, токены, частота ошибок) и качественные (галлюцинация, groundedness/достоверность, важнейшая для RAG, безопасность, завершение задачи); обнаружение галлюцинаций — через LLM-as-a-judge, семантическое сходство и оценки groundedness. Основные инструменты: LangSmith (LangChain), Langfuse (open-source self-host), Arize Phoenix (отладка RAG), MLflow (жизненный цикл), AgentOps (агенты) и OpenTelemetry (стандарт). Начните со сбора trace (совместимо с OpenTelemetry), визуализируйте операционные метрики, затем подключите evals до выпуска. Для мультиагентных систем наблюдение необходимо, так как сбои прячутся в многошаговых цепочках, видимых только в trace всей сессии. Наблюдать плюс оценивать — вот что делает ИИ продакшен-уровнем. Иллюстрации и характеристики приведены по публичным материалам, как ориентир.

Как построить мультиагентную систему: практическое руководство по паттерну supervisor

Как построить мультиагентную систему: практическое руководство по паттерну supervisor

После того как вы усвоили концепцию в статье «Что такое мультиагентная система?», это практическое продолжение. На де-факто стандарте 2026 года — паттерне supervisor — оно проводит начинающих через построение за 5 шагов. Главный принцип: сначала стройте на одном агенте и добавляйте новых по минимуму, только упёршись в предел (около 80% сценариев обходятся одним; использование мульти для простой линейной работы раздувает стоимость в 3-10x и, по данным исследования Google, снижает точность на -39-70% на последовательных задачах). Три признака перехода на мульти: разделение специализаций, параллелизм, разделение решений. К паттерну supervisor (supervisor получает общую задачу, разбивает её, делегирует специализированным worker и агрегирует результаты) сошлись subagents в Claude Code, LangGraph Supervisor и handoffs в OpenAI Agents SDK — у него самая широкая поддержка фреймворков, известный режим отказа (избыточное делегирование, ограниченное лимитом итераций) и его легко аудировать. 5 шагов: 1) чётко разложить задачу заранее; 2) определить worker с одной ролью + инструменты + формат вывода (максимум 3-5); 3) спроектировать supervisor, явно перечислив имена вызываемых worker (жёсткий лимит) и тратя на это больше всего времени; 4) определить handoff и обмен контекстом, передавая только нужное (стандарт — A2A); 5) инструментировать каждый handoff до добавления агентов, ограничить итерации/токены/стоимость, настроить evals и ограждения. Псевдокод, не зависящий от фреймворка, показывает определения worker, жёстко ограниченный supervisor и цикл с лимитом итераций. Типичные ловушки и решения: избыточное делегирование (лимит + ограничение вызываемых worker), раздувание токенов (передача только нужного + кэш), нестабильность (держать 3-5 + фиксированный вывод), падение точности на последовательных задачах (вернуться к одному), неясный источник сбоя (наблюдаемость). Общий урок: промпты, проектирование инструментов и набор evals решают успех больше, чем фреймворк. Стройте мало, измеряйте, добавляйте только когда окупается. Цифры приведены по открытым материалам и исследованиям, зависят от условий.

Что такое мультиагентная система? Координация нескольких ИИ-агентов простыми словами

Что такое мультиагентная система? Координация нескольких ИИ-агентов простыми словами

«Разбить сложную задачу, с которой не справляется один ИИ-агент, между несколькими агентами» — вот идея мультиагентных систем. Этот гид для новичков разбирает механику, основные паттерны и крупнейшие фреймворки, и, что важнее всего, дает реальное правило выбора: когда нужны несколько агентов, а когда хватит одного, без хайпа. Мультиагентная система заставляет несколько ИИ с разными ролями работать вместе над одной крупной задачей; в отличие от одиночного агента, делающего всё (его хватает на ~80% сценариев, он дешев и легко отлаживается), она распределяет работу по специализациям для параллельной работы и взаимной проверки ценой более высоких затрат на координацию и расход токенов. Четыре доминирующих паттерна оркестрации: orchestrator-worker (руководитель разбивает работу, раздает исполнителям параллельно и объединяет; самый распространенный, с журналом действий), последовательная передача (передача контекста следующему агенту), групповой диалог (агенты спорят в одной ветке, селектор решает, кто говорит; хорошо для взаимной проверки) и граф-конечный автомат (агенты как узлы, переходы как ребра, явное состояние; силен для ветвления и контрольных точек). К 2026 году фреймворки сошлись к LangGraph (наибольшее присутствие в продакшене), CrewAI (низкий порог входа, прототипирование), AutoGen/AG2 (дебаты и проверка, исследования) и OpenAI Swarm (легкие передачи). Но это не панацея: сложные многодоменные задачи дают до +23% на бенчмарках рассуждений, однако на линейных последовательных задачах исследование Google показало −39-70% против одиночного агента, те же ресурсы у одного агента часто не уступают или выигрывают, а 7 из 10 внедрений, по сообщениям, увеличили затраты без отдачи при ≈15x расходе токенов (средний ROI 2.5-3.5x, верхний квартиль 4-6x при точном попадании). Рекомендуемый путь: сначала собрать на одном, определить конкретный потолок (размытые роли, распараллеливаемая работа), затем добавить минимальную команду из 2-3 агентов по схеме с руководителем с лимитом затрат и логированием и измерить, оправдывает ли прирост точности увеличение. A2A (протокол связи) и MCP (подключение инструментов) — базовые технологии, поддерживающие мультиагентность. Один — на 80%, мультиагентность — только на трудных участках. Цифры приводятся по опросам и исследованиям, зависят от условий и носят ориентировочный характер.

Что такое A2A (Agent2Agent)? Чем отличается от MCP, Agent Card и как это работает

Что такое A2A (Agent2Agent)? Чем отличается от MCP, Agent Card и как это работает

Теперь, когда ИИ-агенты стали обыденностью, следующий вызов — как заставить агентов работать сообща. Если MCP соединяет агента с его инструментами, то A2A (Agent2Agent) соединяет агента с другим агентом — это открытый стандарт, позволяющий ИИ, построенным на разных платформах и фреймворках, находить друг друга, общаться и сотрудничать через общую договорённость. Google выпустил его в апреле 2025 года, в июне передал Linux Foundation, и в 2026 году он достиг версии v1.0. Это руководство для новичков объясняет, что такое A2A (аналогия с этикетом делового партнёрства), зачем он нужен (специализированные агенты передают работу по эстафете — агент планирования, агент бронирования отелей, агент оплаты), чем отличается от MCP (MCP — это вертикаль, агент ↔ инструменты; A2A — это горизонталь, агент ↔ агент; совмещение обоих — стандартная двухслойная схема), как это работает (Agent Card — JSON-«визитка» по адресу /.well-known/agent-card.json — используется для обнаружения возможностей, затем Task несёт запрос через состояния working, input-required, completed, а Artifact возвращает результат, и всё это поверх HTTP, Server-Sent Events и JSON-RPC 2.0, причём агенты держат своё внутреннее устройство скрытым), а также каково текущее состояние и реализация (по состоянию на апрель 2026 года: 150+ организаций в продакшене, 22 000+ звёзд на GitHub, SDK на пяти языках — Python, JavaScript, Java, Go, .NET — при участии Microsoft, Salesforce, SAP и ServiceNow). Запомнить просто: подключение к инструментам = MCP, подключение к равным = A2A.

Что такое реранкинг? Двухэтапный поиск, повышающий точность RAG — гид для новичков

Что такое реранкинг? Двухэтапный поиск, повышающий точность RAG — гид для новичков

Вы собрали RAG, но качество поиска посредственное — именно тогда помогает реранкинг. Реранкинг заново оценивает кандидатов, грубо собранных эмбеддинг-поиском (векторным поиском), по их релевантности запросу и переупорядочивает их, оставляя только лучшие; один этот шаг способен резко изменить качество ответов RAG-системы. Этот гид для новичков объясняет, что такое реранкинг (аналогия с первичным отбором и финальным собеседованием), зачем он нужен (эмбеддинг-поиск векторизует запрос и документы по отдельности, поэтому судит о релевантности лишь грубо, а плохой порядок напрямую снижает качество ответа — исследования сообщают о приросте точности RAG около 40% от добавления реранкинга, а его наложение поверх гибридного поиска стало стандартом 2026 года), как устроен двухэтапный поиск («собрать широко» быстрым эмбеддинг-поиском ради recall, затем «отсеять умно» реранкером ради precision и передать лучшее LLM), почему реранкер точнее (bi-encoder векторизует запрос и документ по отдельности — быстро, но приблизительно; cross-encoder подаёт их вместе и выдаёт оценку релевантности 0–1, точно, но тяжело — поэтому собирают быстрым bi-encoder и сужают точным cross-encoder), а также модели и реализацию (тип API вроде Cohere Rerank, Voyage и Jina; open-source вроде BGE reranker, mixedbread и FlashRank; и скоринг через LLM вроде RankLLM — просто извлеките 50–100 и сузьте до топ-5). Принцип: собрать широко, отсеять умно и подстроить числа с помощью оценки ИИ.

Что такое AI-гардрейлы? Защита от prompt injection и контроль входа/выхода — руководство для начинающих

Что такое AI-гардрейлы? Защита от prompt injection и контроль входа/выхода — руководство для начинающих

Когда вы уже умеете создавать AI-приложения, следующий этап — запускать их безопасно. LLM можно обмануть вредоносным вводом, они могут раскрыть конфиденциальные данные или с уверенностью утверждать чепуху; механизм безопасности, который этому препятствует, — это AI-гардрейлы, ставшие в 2026 году обязательной частью промышленной эксплуатации, ведь инциденты с AI-агентами происходят на самом деле. Гардрейлы — это правила и фильтры, которые сдерживают опасный ввод и нежелательный вывод, проверяя пользовательский ввод до того, как он дойдёт до LLM, и ответ до того, как он вернётся, — независимый слой безопасности, отдельный от самой модели. Главные угрозы — это prompt injection (самая опасная), jailbreak, утечка данных (конфиденциальные данные, PII, системный промпт), а также галлюцинации и вредный вывод. Защита работает на двух уровнях: гардрейлы входа (обнаружение инъекций и jailbreak, обнаружение/маскирование PII, ограничение тем, очистка) и гардрейлы выхода (фильтрация вредного контента, предотвращение утечек, проверка галлюцинаций, валидация формата). Prompt injection — стоящая на первом месте в OWASP LLM Top 10 — бывает прямой (пользователь вводит «забудь все предыдущие инструкции») и непрямой (команды, скрытые на веб-странице или в RAG-документе), и непрямая инъекция не блокируется одним лишь RAG, поэтому извлечённым документам нужна отдельная проверка. Это руководство для начинающих также охватывает инструменты (LLM Guard, Guardrails AI, NeMo Guardrails, Llama Guard и функции безопасности облаков от Azure, AWS и OpenAI) и практические принципы эшелонированной защиты, наименьших привилегий, одобрения человеком и непрерывного мониторинга.

Что такое embedding (вектор)? Как смысл превращается в числа, применение и выбор модели

Что такое embedding (вектор)? Как смысл превращается в числа, применение и выбор модели

RAG, семантический поиск и рекомендации опираются на незаметного труженика — embedding (вектор). Embedding это смысл текста (или изображения), преобразованный в последовательность чисел, то есть в вектор. Слово «собака» превращается в список из сотен или тысяч чисел, которые служат «координатами смысла», поэтому близкие по смыслу слова располагаются рядом («собака» и «щенок» близки; «собака» и «машина» далеки), а близость измеряется такими мерами, как косинусная близость (cosine similarity). Знаменитый пример: «король − мужчина + женщина ≈ королева». Благодаря этому машина может определить, близок ли смысл, даже когда символы не совпадают. Это руководство для новичков охватывает: что такое embedding («карта смыслов»), почему близость измеряет смысл (измерения и косинусная близость), для чего применяется (RAG, семантический поиск, классификация и дедупликация, рекомендации, мультимодальность), как выбрать модель эмбеддингов (через API — OpenAI text-embedding-3, Cohere, Gemini, Voyage; open-source — BGE-M3, Nomic, Qwen3; а также Matryoshka, позволяющая сократить 3 072 измерения до 1 024, сохраняя около 95% качества примерно за треть стоимости), и векторные БД (Pinecone, Weaviate, Qdrant, Chroma, pgvector) со стартом в три шага (выбрать модель, векторизовать и сохранить документы, векторизовать вопрос и выполнить поиск). Эмбеддинги — основа внедрения RAG.

Что такое AI evals (и LLM-as-judge)? Как это работает, предвзятость и инструменты — гид для начинающих

Что такое AI evals (и LLM-as-judge)? Как это работает, предвзятость и инструменты — гид для начинающих

Вы доработали промпты, добавили знания с RAG и, возможно, провели fine-tuning — но как убедиться, что результат действительно стал лучше? Здесь на первый план выходят AI evals, и к 2026 году оценка стала настолько важной, что её называют «инфраструктурой». AI evals — это систематическое измерение качества вывода LLM (точность, галлюцинации, соблюдение формата, тон) по фиксированной мерке, а не на глазок; без них улучшение остаётся лишь догадкой. Есть два метода: оценка на основе кода для механически измеримого (точное совпадение, формат, нужные/запрещённые слова — быстро, дёшево, стабильно) и LLM-as-judge для субъективного (мощная LLM в роли арбитра оценивает вывод через попарное сравнение или оценку одного ответа). Принцип: измеряйте кодом всё, что код может измерить. У LLM-as-judge есть предвзятость к многословию, к позиции и предпочтение себя; меры — другая модель-оценщик, смена порядка и двойная оценка, краткость в рубрике, калибровка по людям. Грубые шкалы (pass/fail или 1–3) точнее детальной 1–10. На практике запускают три уровня — мгновенные проверки кодом при каждом изменении, ночные регрессионные тесты на LLM-as-judge и непрерывный мониторинг продакшена — с инструментами DeepEval, Promptfoo и RAGAS для CI плюс Braintrust, LangSmith и Arize для мониторинга. Начните с 10 хороших и 10 плохих ответов и оцените их.

Что такое Spec-Driven Development (SDD)? Четыре шага, инструменты и отличие от vibe coding

Что такое Spec-Driven Development (SDD)? Четыре шага, инструменты и отличие от vibe coding

В эпоху, когда код пишет ИИ, более ценный навык смещается от «писать код» к «писать спецификацию» — и подход, который улавливает этот сдвиг, называется спецификационно-ориентированной разработкой (Spec-Driven Development, SDD). SDD ставит спецификацию в центр проекта как источник истины, а ИИ-агент выводит из неё проектирование, разбивку и реализацию вместо того, чтобы сразу писать код. Главное — что каждый шаг оставляет документ (часто Markdown), который читает следующий шаг. Это понятное новичку руководство охватывает: что такое SDD (спецификация каноническая, код — производное), почему это важно именно сейчас (он предотвращает «стену трёх месяцев» технического долга и дрейф требований vibe coding ещё на этапе проектирования — GitHub сообщает о снижении числа циклов «перегенерировать с нуля» примерно на порядок), базовые четыре шага (Specify → Plan → Tasks → Implement), основные инструменты (GitHub Spec Kit с 90 000+ звёзд и более чем 30 поддерживаемыми агентами, AWS Kiro с потоком Requirements → Design → Tasks и роутером Auto, а также BMAD, OpenSpec, Tessl, Google Antigravity и Cursor), когда выбирать SDD вместо vibe coding (гибрид: vibe для исследования, SDD для выпуска, с обязательной проверкой человеком) и как попробовать прямо сегодня. В эпоху ИИ поднимаются те, кто умеет точно определить, что нужно построить, а не те, кто быстрее всех пишет код.

Что такое context engineering? Следующий навык после промптов и как победить «context rot»

Что такое context engineering? Следующий навык после промптов и как победить «context rot»

Центр тяжести в работе с ИИ смещается от prompt engineering к context engineering. Если воспользоваться определением Anthropic, context engineering — это «набор стратегий для подбора и поддержания оптимального набора токенов (информации), который вы передаёте модели во время инференса», охватывающий не только промпт, но и всё, что попадает в контекстное окно: системный промпт, инструменты, историю диалога и внешние данные. Это важно из-за «context rot» (деградации контекста): чем больше токенов вы добавляете, тем сильнее на самом деле падает точность. Исследование Chroma 2025 года проверило 18 ведущих моделей (GPT, Claude, Gemini и другие), и каждая деградировала по мере удлинения ввода, причём информацию в середине длинных контекстов особенно легко упустить («lost in the middle»). Это понятное новичкам руководство объясняет, что такое context engineering и как оно связано с prompt engineering, почему возникает context rot (внимание — конечный бюджет), что на самом деле входит в контекст, шесть ключевых техник (инструкции правильного уровня, отбор инструментов, извлечение just-in-time, compaction/сжатие через резюме, заметки как внешняя память и изоляция через суб-агентов), как это связано с RAG и Claude Skills, а также привычки, которыми можно пользоваться уже сегодня: начинать новую сессию при смене темы и вставлять только ключевые моменты. Главная идея: оставлять только самые малые и самые значимые токены.

Что такое Claude Skills (Agent Skills)? Как они работают, как создать навык и чем отличаются от MCP

Что такое Claude Skills (Agent Skills)? Как они работают, как создать навык и чем отличаются от MCP

Понятный новичкам гид по Claude Skills (Agent Skills) — механизму, который избавляет от мучительной необходимости снова и снова объяснять Claude одну и ту же процедуру. Навык упаковывает инструкции, скрипты и справочные материалы в одну папку, выстроенную вокруг файла SKILL.md, где хранятся name, description и шаги. Большую часть времени Claude читает лишь короткое описание каждого навыка и разворачивает тело только тогда, когда ваш запрос ему соответствует, — этот подход называется прогрессивным раскрытием и держит контекст лёгким даже при десятках установленных навыков. В статье разбираем, что такое Skills, зачем они нужны (больше никаких повторных вставок промптов), как написать SKILL.md и минимальную структуру папки, как создать навык (официальным skill-creator или вручную, положив в .claude/skills, с мгновенной перезагрузкой с января 2026 года), чем Skills отличаются от MCP (связь с внешним миром) и субагентов (изоляция контекста), что это за открытый стандарт, принятый Codex CLI, Cursor, Gemini CLI и GitHub Copilot помимо приложений Claude, Claude Code, API и Agent SDK, а также конкретные сценарии вроде генерации документов и соблюдения внутренних правил. Анонсировано Anthropic 16 октября 2025 года и названо Саймоном Уиллисоном «возможно, событием покрупнее, чем MCP».

Насколько ИИ способен автоматизировать работу в браузере? Реальность заполнения форм, бронирования и поиска

Насколько ИИ способен автоматизировать работу в браузере? Реальность заполнения форм, бронирования и поиска

«Я попросил ИИ — и он открыл браузер, всё нашёл и даже заполнил форму». В 2026 году это уже не постановочная демонстрация: агентные браузеры (ChatGPT Atlas, Claude for Chrome, Gemini/Chrome, Perplexity Comet) появились разом. Так насколько далеко они действительно автоматизируют? Реальность чётко делится на три уровня. (1) Исследование = готово к работе: на WebVoyager (реальные сайты) лучшие агенты достигают 89-98%, почти насыщая бенчмарк, и поскольку неверное действие здесь почти ничего не стоит, именно отсюда стоит начинать делегирование. (2) Заполнение форм = возможно, но проверяйте: сам ввод поддерживается, но агенты могут неправильно подписать поля или нажать не ту кнопку отправки, поэтому «ИИ составляет черновик, человек отправляет» — безопасный подход, а многие продукты вроде Atlas запрашивают подтверждение перед важными действиями. (3) Бронирование/оплата = пока делайте сами: агенты спотыкаются о CAPTCHA, сложное оформление заказа на JavaScript, двухфакторную аутентификацию и управление сессиями, и на WebArena (сложные многошаговые задачи) даже лучшие набирают ~47-68% против ~78% человеческого ориентира; сама причина, по которой OpenAI закрыла самостоятельный Operator (2025/8/31), — ненадёжность оформления заказа. Статья сначала описывает два подхода (потребительский браузер/расширение против разработческого API/OSS), затем расклад игроков 2026 года (Atlas как отдельный браузер, который по задумке не может выполнять код или читать пароли; Claude for Chrome как боковая панель-расширение; Project Mariner от Google завершился 2026/5/4 и встроен в Gemini/Chrome; Operator перешёл в ChatGPT Agent и Agents SDK; OSS browser-use с 78k+ звёзд). Объясняются четыре стены, из-за которых бронирование проваливается (защита от ботов, сложное оформление, 2FA, цена отмены), затем разбирается главная ловушка: непрямой prompt injection (Perplexity Comet оказался уязвим к zero-click краже учётных данных и исправил это в феврале 2026; успех атаки 23.6% до защиты падает до ~11% при базовой и ~1% при сильнейшей, но не до нуля). Завершается пятью принципами безопасности (начните с чтения, человек подтверждает отправку/оплату, не передавайте пароли, не запускайте на недоверенных сайтах, минимум привилегий в отдельном профиле). Отличный партнёр для исследований; действия, двигающие деньги, делайте сами. Цифры приведены из публичных материалов и анонсов как ориентировочные.