Перейти к содержимому

Руководства, сравнения и новости об инструментах ИИ

Руководства, сравнения и новости об инструментах ИИ для начинающих

Рекомендуемая статья

Что такое Agent Evals? Измеряем и результат, и trajectory
Claude AI-разработка Для начинающих

Что такое Agent Evals? Измеряем и результат, и trajectory

Agent Evals — это процесс систематического измерения того, способен ли агент, который использует инструменты и делает несколько шагов к цели, действительно выполнять свои задачи. Это эволюция LLM evals, расширяющая объект оценки с «одного вывода» до «последовательности действий». Поскольку агент планирует, вызывает инструменты и обновляет состояние, одного финального вывода недостаточно; Google отмечает, что нужно понимать «почему» за действиями агента, и делит оценку на финальный ответ и trajectory. Пять измерений: outcome (успех задачи, судят по финальному состоянию — существует ли бронь в DB, а не по высказыванию «я забронировал»), trajectory (разумные шаги, правильные инструменты в правильном порядке), корректность использования инструментов (правильный инструмент и аргументы, проверка имён функций и типов), эффективность (шаги, токены, стоимость, задержка — часто сигналы observability, привнесённые в оценку) и качество финального ответа (через LLM-as-judge или рубрику). Грейдеры — это код (быстрый/дешёвый/воспроизводимый, но хрупкий), LLM-as-judge (гибкий, но недетерминированный и требует калибровки) и человек (золотой стандарт, но дорогой — избегайте по возможности). Anthropic рекомендует оценивать результат, а не путь: механическое сопоставление trajectory «слишком жёсткое и хрупкое», поскольку агенты находят допустимые альтернативы, тогда как Google и Microsoft предлагают метрики сопоставления trajectory для диагностики провалов. Уникальные подводные камни — недетерминированность (pass^k), накапливающиеся ошибки (p^t), reward hacking (роботизированная рука DeepMind, имитирующая захват) и устаревшие или загрязнённые наборы eval. Практический приём, по Anthropic: превратить 20–50 продакшен-провалов в тест-кейсы, запустить автоматическую оценку в CI, разделить capability и regression evals и писать их рано. Бенчмарки вроде SWE-bench, tau-bench, WebArena, GAIA, OSWorld и BFCL полезны как референсы (оценки меняются от версии, поэтому не принимайте их за чистую монету). На основе официальной информации, с пометкой неопределённостей.

Последние статьи

145 статей
Влияние ИИ на кибербезопасность — как Claude Mythos изменил карту битвы

Влияние ИИ на кибербезопасность — как Claude Mythos изменил карту битвы

Claude Mythos Preview, выпущенный Anthropic в апреле 2026, показал успех эксплойтов JavaScript-движка Firefox в 90 раз выше Opus 4.6 и обнаружил тысячи zero-day в OpenBSD, FFmpeg и Linux Kernel. Anthropic решила не выпускать модель публично, выбрав «Project Glasswing» — ограниченную поставку партнёрам вроде AWS, Google и Microsoft. Статья разбирает новый ландшафт ИИ-кибербезопасности, открытый Mythos: автоматизацию атакующих, ИИ на стороне защитников, реакцию регуляторов и действия, которые стоит предпринять организациям, — всё на основе свежих данных.

Что такое Harness Engineering? Проектирование слоя вокруг LLM в эпоху ИИ-агентов

Что такое Harness Engineering? Проектирование слоя вокруг LLM в эпоху ИИ-агентов

Центр тяжести сместился от prompt engineering к harness engineering — новому полю битвы эпохи ИИ-агентов. В статье разбираем, что такое harness engineering на самом деле, чем он отличается от prompt engineering, шесть компонентов (определение инструментов, управление контекстом, память, цикл, guardrails, output UX), сравнение Claude Code, Cursor, Codex CLI и Devin, а также практический чек-лист — фундамент, нужный, чтобы всерьёз использовать или строить ИИ-агентов.

Почему ИИ-агенты игнорируют ваши .md-правила — и как сделать, чтобы CLAUDE.md, Cursor Rules и AGENTS.md действительно работали

Почему ИИ-агенты игнорируют ваши .md-правила — и как сделать, чтобы CLAUDE.md, Cursor Rules и AGENTS.md действительно работали

То, что ИИ-агенты (Claude Code, Cursor, Copilot, Codex) игнорируют ваши .md-файлы с правилами, сводится к 5 ключевым причинам: лимиты окна контекста, auto-compact, размывающий ранние инструкции, нечёткий приоритет, расплывчатые формулировки и раздутые разбросанные файлы. В статье разбираем диагностику, быстрые победы (сжать до 150 строк, маркеры приоритета) и долгосрочную систематизацию через Claude Code Hooks, sub-agent и кастомные slash command — плюс лучшие практики по каждому инструменту.

Релиз ChatGPT 5.5 (GPT-5.5): возможности, бенчмарки, цены и сравнение с Claude Opus 4.7

Релиз ChatGPT 5.5 (GPT-5.5): возможности, бенчмарки, цены и сравнение с Claude Opus 4.7

OpenAI выпустила «ChatGPT 5.5 (GPT-5.5)» 23 апреля 2026 года. Позиционируемая как «новый класс интеллекта для real work и AI-агентов», модель набрала 82.7% на Terminal-Bench 2.0, обойдя Claude Opus 4.7 (69.4%) и Gemini 3.1 Pro (68.5%) и вернув себе первое место. При этом цены API выросли вдвое по сравнению с GPT-5.4 ($5/$30 за MTok), а на SWE-Bench Pro Claude Opus 4.7 по-прежнему её опережает. В статье — полная картина: возможности, бенчмарки, цены, доступность по тарифам, прямое сравнение с Claude и Gemini и рекомендации, как выбрать — всё на основе официальных источников.

Что такое Next.js, который постоянно советует ИИ? Полное руководство для начинающих React-разработчиков

Что такое Next.js, который постоянно советует ИИ? Полное руководство для начинающих React-разработчиков

Попросите Claude Code или ChatGPT создать веб-приложение — и почти наверняка услышите «давайте используем Next.js». Но что вообще такое Next.js? Разве обычного React недостаточно? В этой статье — полный разбор: что такое Next.js, почему ИИ его рекомендует по умолчанию, чем он отличается от React, что означают SSR/SSG/ISR, App Router против Pages Router, отношения с Vercel и сравнение с Nuxt, Remix, Astro — всё на основе Next.js 16.2 (март 2026).

Что такое RAG? Простое объяснение принципа и применений для начинающих

Что такое RAG? Простое объяснение принципа и применений для начинающих

«Хочу, чтобы ChatGPT прочитал внутренние документы компании и отвечал по ним на вопросы сотрудников» — именно для таких задач существует RAG (Retrieval-Augmented Generation, генерация с дополненной выборкой). В этой статье мы наглядно разбираем принцип работы RAG в три шага, рассказываем про векторные базы данных, реализацию на LangChain и сравнение с дообучением — на уровне, понятном новичку. С большим набором практических примеров: внутренний QA, поддержка клиентов, право и медицина.

Релиз Claude Opus 4.7 — новые возможности, бенчмарки и цены: подробный разбор

Релиз Claude Opus 4.7 — новые возможности, бенчмарки и цены: подробный разбор

16 апреля 2026 года Anthropic выпустил Claude Opus 4.7. Поддержка изображений высокого разрешения (до 2576px), новый уровень усилий xhigh, task budgets (бета), новый токенизатор, контекстное окно 1M и сохранённые цены $5/$25 — модель серьёзно усилена для кода, агентов и vision-задач. Одновременно удалены extended thinking и параметры сэмплирования — это breaking changes. Разбираем новые функции, поведение, отличия от Opus 4.6 и когда стоит переходить.

Руководство по миграции на Claude Opus 4.7 — breaking changes и как их обойти

Руководство по миграции на Claude Opus 4.7 — breaking changes и как их обойти

Вышел Claude Opus 4.7, и при миграции с 4.6 надо учесть несколько breaking changes. Удалён extended thinking (enabled), удалены temperature/top_p/top_k, новый токенизатор даёт x1.35 к числу токенов, содержимое мышления скрыто по умолчанию, prefill отменён — в статье все breaking changes показаны на Before/After (Python и TypeScript), разобраны изменения поведения, рекомендации по настройкам и чек-лист миграции, по которому можно идти строчка за строчкой.

Что такое PaaS (Vercel и др.)? Полное сравнение с шаред-хостингом, VPS и облаком

Что такое PaaS (Vercel и др.)? Полное сравнение с шаред-хостингом, VPS и облаком

Когда доверяешь написание кода ИИ, он постоянно советует: «просто задеплой на Vercel». Но что такое Vercel? Чем он отличается от обычного хостинга или AWS? В этой статье мы детально сравниваем PaaS (Vercel и подобные) с шаред-хостингом, VPS и облаком (IaaS) по трём параметрам: цена, свобода и операционная нагрузка. Разбираем особенности Vercel, Netlify, Render, Railway и других ключевых сервисов, а также объясняем, как выбрать подходящий под конкретную задачу.

Что такое llms.txt? Спецификация формата, необходимые данные и динамическая генерация — полное руководство по LLMO

Что такое llms.txt? Спецификация формата, необходимые данные и динамическая генерация — полное руководство по LLMO

Если robots.txt — это файл, который сообщает поисковым движкам о разрешениях на краулинг, то llms.txt — файл, который объясняет ИИ содержание и структуру вашего сайта. Он помогает LLM-краулерам (GPTBot, ClaudeBot и др.) лучше понять сайт и повышает шансы на цитирование в ИИ-поиске. В этой статье мы подробно разбираем спецификацию формата llms.txt, какие данные следует указывать, как выбирать между статическим файлом и динамической генерацией, а также приводим примеры реализации для основных фреймворков.

Заменят ли Claude Code и Codex инженеров инфраструктуры и сетей? — Реальность эксплуатации в эпоху ИИ

Заменят ли Claude Code и Codex инженеров инфраструктуры и сетей? — Реальность эксплуатации в эпоху ИИ

Claude Code и OpenAI Codex теперь умеют автоматически генерировать инфраструктурный код (Terraform, Docker, Ansible и др.). Поэтому звучат голоса: «инженеры инфры больше не нужны». Но реальность сложнее. В статье мы раскладываем, что ИИ делает хорошо и что остаётся за человеком — физический уровень, решения при авариях, ответственность за безопасность — и объясняем, как инженерам инфраструктуры развиваться в эпоху ИИ.

Руководство по AI-разработке для новичков: от общей картины IT до запуска сервиса [Полный гайд]

Руководство по AI-разработке для новичков: от общей картины IT до запуска сервиса [Полный гайд]

Думаете, что программирование — это не для вас? В 2026 году, используя инструменты ИИ-кодирования (Claude Code и др.), даже человек без IT-знаний может создать и запустить веб-сервис. В этой статье мы разберём основы IT — приложения, базы данных, серверы, — сравним виртуальный хостинг, VPS и облако, а также покажем реальный процесс разработки с помощью ИИ, объясняя всё простым языком.

Обзор по категориям

Stable Diffusion

Смотреть все

Другие ИИ

Смотреть все

Для начинающих

Смотреть все

AI-разработка

Смотреть все

Среда разработки и инфраструктура

Смотреть все

AI-агенты и автоматизация

Смотреть все

Эффективность работы

Смотреть все

Анализ данных

Смотреть все

Обучение

Смотреть все

Заработок и монетизация

Смотреть все

Разработка игр

Смотреть все

Безопасность и управление ИИ

Смотреть все

Риски и влияние ИИ

Смотреть все