Перейти к содержимому
Темы

Для начинающих

Новичок в ИИ? Начните здесь. Понятные руководства по основам ИИ и выбору инструментов.

115 статей

Сортируйте статьи, чтобы найти нужное

Что такое реранкинг? Двухэтапный поиск, повышающий точность RAG — гид для новичков

Что такое реранкинг? Двухэтапный поиск, повышающий точность RAG — гид для новичков

Вы собрали RAG, но качество поиска посредственное — именно тогда помогает реранкинг. Реранкинг заново оценивает кандидатов, грубо собранных эмбеддинг-поиском (векторным поиском), по их релевантности запросу и переупорядочивает их, оставляя только лучшие; один этот шаг способен резко изменить качество ответов RAG-системы. Этот гид для новичков объясняет, что такое реранкинг (аналогия с первичным отбором и финальным собеседованием), зачем он нужен (эмбеддинг-поиск векторизует запрос и документы по отдельности, поэтому судит о релевантности лишь грубо, а плохой порядок напрямую снижает качество ответа — исследования сообщают о приросте точности RAG около 40% от добавления реранкинга, а его наложение поверх гибридного поиска стало стандартом 2026 года), как устроен двухэтапный поиск («собрать широко» быстрым эмбеддинг-поиском ради recall, затем «отсеять умно» реранкером ради precision и передать лучшее LLM), почему реранкер точнее (bi-encoder векторизует запрос и документ по отдельности — быстро, но приблизительно; cross-encoder подаёт их вместе и выдаёт оценку релевантности 0–1, точно, но тяжело — поэтому собирают быстрым bi-encoder и сужают точным cross-encoder), а также модели и реализацию (тип API вроде Cohere Rerank, Voyage и Jina; open-source вроде BGE reranker, mixedbread и FlashRank; и скоринг через LLM вроде RankLLM — просто извлеките 50–100 и сузьте до топ-5). Принцип: собрать широко, отсеять умно и подстроить числа с помощью оценки ИИ.

Что такое AI-гардрейлы? Защита от prompt injection и контроль входа/выхода — руководство для начинающих

Что такое AI-гардрейлы? Защита от prompt injection и контроль входа/выхода — руководство для начинающих

Когда вы уже умеете создавать AI-приложения, следующий этап — запускать их безопасно. LLM можно обмануть вредоносным вводом, они могут раскрыть конфиденциальные данные или с уверенностью утверждать чепуху; механизм безопасности, который этому препятствует, — это AI-гардрейлы, ставшие в 2026 году обязательной частью промышленной эксплуатации, ведь инциденты с AI-агентами происходят на самом деле. Гардрейлы — это правила и фильтры, которые сдерживают опасный ввод и нежелательный вывод, проверяя пользовательский ввод до того, как он дойдёт до LLM, и ответ до того, как он вернётся, — независимый слой безопасности, отдельный от самой модели. Главные угрозы — это prompt injection (самая опасная), jailbreak, утечка данных (конфиденциальные данные, PII, системный промпт), а также галлюцинации и вредный вывод. Защита работает на двух уровнях: гардрейлы входа (обнаружение инъекций и jailbreak, обнаружение/маскирование PII, ограничение тем, очистка) и гардрейлы выхода (фильтрация вредного контента, предотвращение утечек, проверка галлюцинаций, валидация формата). Prompt injection — стоящая на первом месте в OWASP LLM Top 10 — бывает прямой (пользователь вводит «забудь все предыдущие инструкции») и непрямой (команды, скрытые на веб-странице или в RAG-документе), и непрямая инъекция не блокируется одним лишь RAG, поэтому извлечённым документам нужна отдельная проверка. Это руководство для начинающих также охватывает инструменты (LLM Guard, Guardrails AI, NeMo Guardrails, Llama Guard и функции безопасности облаков от Azure, AWS и OpenAI) и практические принципы эшелонированной защиты, наименьших привилегий, одобрения человеком и непрерывного мониторинга.

Что такое embedding (вектор)? Как смысл превращается в числа, применение и выбор модели

Что такое embedding (вектор)? Как смысл превращается в числа, применение и выбор модели

RAG, семантический поиск и рекомендации опираются на незаметного труженика — embedding (вектор). Embedding это смысл текста (или изображения), преобразованный в последовательность чисел, то есть в вектор. Слово «собака» превращается в список из сотен или тысяч чисел, которые служат «координатами смысла», поэтому близкие по смыслу слова располагаются рядом («собака» и «щенок» близки; «собака» и «машина» далеки), а близость измеряется такими мерами, как косинусная близость (cosine similarity). Знаменитый пример: «король − мужчина + женщина ≈ королева». Благодаря этому машина может определить, близок ли смысл, даже когда символы не совпадают. Это руководство для новичков охватывает: что такое embedding («карта смыслов»), почему близость измеряет смысл (измерения и косинусная близость), для чего применяется (RAG, семантический поиск, классификация и дедупликация, рекомендации, мультимодальность), как выбрать модель эмбеддингов (через API — OpenAI text-embedding-3, Cohere, Gemini, Voyage; open-source — BGE-M3, Nomic, Qwen3; а также Matryoshka, позволяющая сократить 3 072 измерения до 1 024, сохраняя около 95% качества примерно за треть стоимости), и векторные БД (Pinecone, Weaviate, Qdrant, Chroma, pgvector) со стартом в три шага (выбрать модель, векторизовать и сохранить документы, векторизовать вопрос и выполнить поиск). Эмбеддинги — основа внедрения RAG.

Что такое AI evals (и LLM-as-judge)? Как это работает, предвзятость и инструменты — гид для начинающих

Что такое AI evals (и LLM-as-judge)? Как это работает, предвзятость и инструменты — гид для начинающих

Вы доработали промпты, добавили знания с RAG и, возможно, провели fine-tuning — но как убедиться, что результат действительно стал лучше? Здесь на первый план выходят AI evals, и к 2026 году оценка стала настолько важной, что её называют «инфраструктурой». AI evals — это систематическое измерение качества вывода LLM (точность, галлюцинации, соблюдение формата, тон) по фиксированной мерке, а не на глазок; без них улучшение остаётся лишь догадкой. Есть два метода: оценка на основе кода для механически измеримого (точное совпадение, формат, нужные/запрещённые слова — быстро, дёшево, стабильно) и LLM-as-judge для субъективного (мощная LLM в роли арбитра оценивает вывод через попарное сравнение или оценку одного ответа). Принцип: измеряйте кодом всё, что код может измерить. У LLM-as-judge есть предвзятость к многословию, к позиции и предпочтение себя; меры — другая модель-оценщик, смена порядка и двойная оценка, краткость в рубрике, калибровка по людям. Грубые шкалы (pass/fail или 1–3) точнее детальной 1–10. На практике запускают три уровня — мгновенные проверки кодом при каждом изменении, ночные регрессионные тесты на LLM-as-judge и непрерывный мониторинг продакшена — с инструментами DeepEval, Promptfoo и RAGAS для CI плюс Braintrust, LangSmith и Arize для мониторинга. Начните с 10 хороших и 10 плохих ответов и оцените их.

Что такое fine-tuning? Fine-tuning против RAG, LoRA/QLoRA и когда его применять — руководство для новичков

Что такое fine-tuning? Fine-tuning против RAG, LoRA/QLoRA и когда его применять — руководство для новичков

Когда нужно настроить ИИ под свою компанию, fine-tuning (дообучение) — один из вариантов, но без подготовки выйдет дорого и легко ошибиться. Это руководство для новичков объясняет fine-tuning: взять уже обученную базовую модель, доучить её на данных под вашу задачу и превратить в специализированную модель, которая вшивает «поведение» (фирменный стиль, формат вывода, терминологию области) в саму модель, переписывая её веса. Fine-tuning силён в изменении поведения, но слаб в запоминании актуальных знаний, поэтому правило такое: «факты и знания → RAG, характер и шаблон → fine-tuning, сначала промпты». Как отмечают эксперты, около 80% случаев «нам нужен fine-tuning» решаются лучшим поиском (RAG) или промптингом, так что порядок важен. В статье разбираются: что такое fine-tuning (аналогия с обучением новичка), в чём он силён и слаб, сравнительная таблица fine-tuning против RAG и промптинга, основные методы (full fine-tuning, LoRA и QLoRA — 4-битное квантование, достаточно лёгкое для новичков), что понадобится (ориентир 500+ качественных примеров, при этом подготовка данных — настоящая работа; затраты от $5,000 до более чем $50,000, fine-tuning у OpenAI примерно по $25–$100 за миллион обучающих токенов; инструменты вроде OpenAI, Unsloth, Axolotl и Hugging Face) и в каком порядке начинать. Fine-tuning — это крайнее средство.

Как запустить локальную LLM: ИИ на собственном ПК — характеристики, инструменты и лучшие модели для новичков

Как запустить локальную LLM: ИИ на собственном ПК — характеристики, инструменты и лучшие модели для новичков

Вы наверняка считаете, что LLM обязательно работает в облаке, но к 2026 году запуск ИИ целиком внутри собственного ПК — «локальная LLM» — стал реальным вариантом. Локальная LLM означает запуск модели вроде ChatGPT или Claude прямо на вашей машине, а не в облаке. Три главных преимущества: приватность (ввод никогда не покидает устройство), нулевая стоимость (нет платы за API) и работа офлайн (без интернета). Минусы: она не так умна, как топовый облачный ИИ, требует достаточно мощного ПК, нуждается в некоторой настройке и не имеет актуальных знаний. Это руководство для новичков объясняет, что такое локальная LLM (аналогия «стриминг против скачивания»), её плюсы и минусы, нужные характеристики и квантование (формат GGUF, где Q4_K_M — выбор по умолчанию, сохраняющий качество при урезании памяти примерно до четверти; около 0,5 ГБ памяти на 1B параметров при 4-битном квантовании), как начать (графический LM Studio для новичков, командный Ollama для разработчиков — 52 миллиона загрузок в месяц в первом квартале 2026), рекомендуемые модели 2026 года (Llama 3.2 7B, Google Gemma 4, Alibaba Qwen3.5, а также DeepSeek и Mistral — все открытые) и когда выбирать локально или облако (локально — для конфиденциальной, массовой и офлайн-работы; облако — для сложных задач). Самый быстрый первый шаг: запустить одну небольшую модель 3B–7B в LM Studio.

Что такое Spec-Driven Development (SDD)? Четыре шага, инструменты и отличие от vibe coding

Что такое Spec-Driven Development (SDD)? Четыре шага, инструменты и отличие от vibe coding

В эпоху, когда код пишет ИИ, более ценный навык смещается от «писать код» к «писать спецификацию» — и подход, который улавливает этот сдвиг, называется спецификационно-ориентированной разработкой (Spec-Driven Development, SDD). SDD ставит спецификацию в центр проекта как источник истины, а ИИ-агент выводит из неё проектирование, разбивку и реализацию вместо того, чтобы сразу писать код. Главное — что каждый шаг оставляет документ (часто Markdown), который читает следующий шаг. Это понятное новичку руководство охватывает: что такое SDD (спецификация каноническая, код — производное), почему это важно именно сейчас (он предотвращает «стену трёх месяцев» технического долга и дрейф требований vibe coding ещё на этапе проектирования — GitHub сообщает о снижении числа циклов «перегенерировать с нуля» примерно на порядок), базовые четыре шага (Specify → Plan → Tasks → Implement), основные инструменты (GitHub Spec Kit с 90 000+ звёзд и более чем 30 поддерживаемыми агентами, AWS Kiro с потоком Requirements → Design → Tasks и роутером Auto, а также BMAD, OpenSpec, Tessl, Google Antigravity и Cursor), когда выбирать SDD вместо vibe coding (гибрид: vibe для исследования, SDD для выпуска, с обязательной проверкой человеком) и как попробовать прямо сегодня. В эпоху ИИ поднимаются те, кто умеет точно определить, что нужно построить, а не те, кто быстрее всех пишет код.

Что такое context engineering? Следующий навык после промптов и как победить «context rot»

Что такое context engineering? Следующий навык после промптов и как победить «context rot»

Центр тяжести в работе с ИИ смещается от prompt engineering к context engineering. Если воспользоваться определением Anthropic, context engineering — это «набор стратегий для подбора и поддержания оптимального набора токенов (информации), который вы передаёте модели во время инференса», охватывающий не только промпт, но и всё, что попадает в контекстное окно: системный промпт, инструменты, историю диалога и внешние данные. Это важно из-за «context rot» (деградации контекста): чем больше токенов вы добавляете, тем сильнее на самом деле падает точность. Исследование Chroma 2025 года проверило 18 ведущих моделей (GPT, Claude, Gemini и другие), и каждая деградировала по мере удлинения ввода, причём информацию в середине длинных контекстов особенно легко упустить («lost in the middle»). Это понятное новичкам руководство объясняет, что такое context engineering и как оно связано с prompt engineering, почему возникает context rot (внимание — конечный бюджет), что на самом деле входит в контекст, шесть ключевых техник (инструкции правильного уровня, отбор инструментов, извлечение just-in-time, compaction/сжатие через резюме, заметки как внешняя память и изоляция через суб-агентов), как это связано с RAG и Claude Skills, а также привычки, которыми можно пользоваться уже сегодня: начинать новую сессию при смене темы и вставлять только ключевые моменты. Главная идея: оставлять только самые малые и самые значимые токены.

Что такое Claude Skills (Agent Skills)? Как они работают, как создать навык и чем отличаются от MCP

Что такое Claude Skills (Agent Skills)? Как они работают, как создать навык и чем отличаются от MCP

Понятный новичкам гид по Claude Skills (Agent Skills) — механизму, который избавляет от мучительной необходимости снова и снова объяснять Claude одну и ту же процедуру. Навык упаковывает инструкции, скрипты и справочные материалы в одну папку, выстроенную вокруг файла SKILL.md, где хранятся name, description и шаги. Большую часть времени Claude читает лишь короткое описание каждого навыка и разворачивает тело только тогда, когда ваш запрос ему соответствует, — этот подход называется прогрессивным раскрытием и держит контекст лёгким даже при десятках установленных навыков. В статье разбираем, что такое Skills, зачем они нужны (больше никаких повторных вставок промптов), как написать SKILL.md и минимальную структуру папки, как создать навык (официальным skill-creator или вручную, положив в .claude/skills, с мгновенной перезагрузкой с января 2026 года), чем Skills отличаются от MCP (связь с внешним миром) и субагентов (изоляция контекста), что это за открытый стандарт, принятый Codex CLI, Cursor, Gemini CLI и GitHub Copilot помимо приложений Claude, Claude Code, API и Agent SDK, а также конкретные сценарии вроде генерации документов и соблюдения внутренних правил. Анонсировано Anthropic 16 октября 2025 года и названо Саймоном Уиллисоном «возможно, событием покрупнее, чем MCP».

Claude Fable 5 для кодинга: бенчмарки, когда брать его вместо Opus 4.8 и реальная цена

Claude Fable 5 для кодинга: бенчмарки, когда брать его вместо Opus 4.8 и реальная цена

Claude Fable 5, вышедший 9 июня 2026 года как первая общедоступная модель Anthropic класса Mythos, рассмотрен здесь только со стороны кодинга (полный разбор релиза — отдельно). Если коротко: Fable 5 отрывается тем сильнее, чем сложнее кодинг. Он показывает 95.0% на SWE-bench Verified и 80.3% на более жёстком SWE-bench Pro (против Opus 4.8 69.2% и GPT-5.5 58.6%), а на сложнейшем FrontierCode Diamond — 29.3% (против Opus 13.4% и GPT-5.5 5.7%, ~5x к GPT), тогда как Terminal-Bench 2.1 — плотная гонка с 84.3% (GPT-5.5 держится за счёт Codex CLI). В статье — сводка из трёх пунктов для разработчика (сильнее всего на сложных задачах / доводит за меньшее число шагов / но дорого и не останавливается), сравнительная таблица бенчмарков и как её читать (чем сложнее бенчмарк, тем больше разрыв; терминал — вровень), свойство масштабирования по effort (с низкого 11.5% до максимального 30.9%, тогда как GPT-5.5 упирается в 5-6%; чем длиннее и сложнее задача, тем больше отрыв; пять параллельных агентов, по сообщениям, достигли 60% прохождения скрытых тестов в 3.2x быстрее одного), в чём он действительно силён (крупные рефакторинги по многим файлам, длительные автономные прогоны, фронтенд по скриншоту, дизайн API плюс тесты плюс документация; Simon Willison оценил результат как работу на несколько дней, назвав его медленным и дорогим — более $110 за 5,5 часа), слабости (~2x к цене Opus 4.8 при $10/$50, сложные сессии 500k-1M tokens, не останавливается, точность ревью уступает Opus, защитные классификаторы откатываются к Opus 4.8 примерно на 20% попыток Terminal-Bench, склонность отчитываться «протестировано» без запуска), рекомендации по маршрутизации (Opus 4.8 по умолчанию, сложнейшие 10-20% на Fable 5, терминал на GPT-5.5, переключение по model ID) и где использовать (Claude Code, GitHub Copilot, AWS Bedrock, Azure Foundry, Databricks, Anthropic API) с ценами, 1M-token контекстом, 128k на выход и бесплатным окном 9-22 июня. Fable 5 — для тяжёлой разовой задачи, Opus 4.8 — для большей части ежедневной рутины. Цифры приведены по данным Anthropic и сторонних отчётов и носят ориентировочный, зависящий от scaffold характер.

Насколько ИИ способен автоматизировать работу в браузере? Реальность заполнения форм, бронирования и поиска

Насколько ИИ способен автоматизировать работу в браузере? Реальность заполнения форм, бронирования и поиска

«Я попросил ИИ — и он открыл браузер, всё нашёл и даже заполнил форму». В 2026 году это уже не постановочная демонстрация: агентные браузеры (ChatGPT Atlas, Claude for Chrome, Gemini/Chrome, Perplexity Comet) появились разом. Так насколько далеко они действительно автоматизируют? Реальность чётко делится на три уровня. (1) Исследование = готово к работе: на WebVoyager (реальные сайты) лучшие агенты достигают 89-98%, почти насыщая бенчмарк, и поскольку неверное действие здесь почти ничего не стоит, именно отсюда стоит начинать делегирование. (2) Заполнение форм = возможно, но проверяйте: сам ввод поддерживается, но агенты могут неправильно подписать поля или нажать не ту кнопку отправки, поэтому «ИИ составляет черновик, человек отправляет» — безопасный подход, а многие продукты вроде Atlas запрашивают подтверждение перед важными действиями. (3) Бронирование/оплата = пока делайте сами: агенты спотыкаются о CAPTCHA, сложное оформление заказа на JavaScript, двухфакторную аутентификацию и управление сессиями, и на WebArena (сложные многошаговые задачи) даже лучшие набирают ~47-68% против ~78% человеческого ориентира; сама причина, по которой OpenAI закрыла самостоятельный Operator (2025/8/31), — ненадёжность оформления заказа. Статья сначала описывает два подхода (потребительский браузер/расширение против разработческого API/OSS), затем расклад игроков 2026 года (Atlas как отдельный браузер, который по задумке не может выполнять код или читать пароли; Claude for Chrome как боковая панель-расширение; Project Mariner от Google завершился 2026/5/4 и встроен в Gemini/Chrome; Operator перешёл в ChatGPT Agent и Agents SDK; OSS browser-use с 78k+ звёзд). Объясняются четыре стены, из-за которых бронирование проваливается (защита от ботов, сложное оформление, 2FA, цена отмены), затем разбирается главная ловушка: непрямой prompt injection (Perplexity Comet оказался уязвим к zero-click краже учётных данных и исправил это в феврале 2026; успех атаки 23.6% до защиты падает до ~11% при базовой и ~1% при сильнейшей, но не до нуля). Завершается пятью принципами безопасности (начните с чтения, человек подтверждает отправку/оплату, не передавайте пароли, не запускайте на недоверенных сайтах, минимум привилегий в отдельном профиле). Отличный партнёр для исследований; действия, двигающие деньги, делайте сами. Цифры приведены из публичных материалов и анонсов как ориентировочные.

10 сценариев применения ИИ-агентов — реальные примеры автоматизации бизнеса, эффект и с чего начать

10 сценариев применения ИИ-агентов — реальные примеры автоматизации бизнеса, эффект и с чего начать

«Ладно, ИИ-агенты потрясающие — но для чего их реально использовать?» Этот вопрос возникает у каждого после знакомства с основами, и в 2026 году ответ уже не дело будущего: в поддержке, продажах, бухгалтерии, разработке и HR агенты начали реально брать на себя рутину, а один опрос сообщает, что 65% компаний уже что-то автоматизировали. Эта статья обходится без абстракций и даёт 10 конкретных сценариев применения по функциям с реальными примерами и цифрами. Она охватывает, почему сценарии важны именно сейчас (агенты не просто отвечают, но действуют, переходя из экспериментов в производство; Gartner прогнозирует, что треть корпоративного ПО получит агентные функции к 2028 году и 80% обращений будут решаться с минимальным участием человека к 2029), как распознать пригодную для автоматизации работу (высокая повторяемость × большой объём × требует суждения — часть про суждение и есть отличие от старого RPA; крупные решения оставляйте людям через «агент готовит, человек утверждает»), сами 10 кейсов (поддержка первой линии, продажи 200 писем в час при отклике в 2–4× выше, маркетинг с 2 до 10 статей в неделю, разработка с более 35% кода от ИИ, ИТ-эксплуатация с авто-восстановлением, финансы с KPI и PDF, выявление мошенничества в реальном времени, HR с AMD и 80% ускорением, анализ данных в отчёты, диспетчерская вышка цепочки поставок), реальность ROI (3.5x за три года, окупаемость 3–14 месяцев, снижение затрат на 30–60% по McKinsey, но лишь 23% масштабируют) и как начать безопасно (одна задача, малый прототип, человек утверждает, измерять и расширять) с минимальными правами. Цифры — цитаты опросов и заявлений компаний, как тенденции. Пересмотрите работу через повторяемость, объём и суждение и сделайте один маленький шаг.