Перейти к содержимому
Темы

AI-разработка

Разрабатывайте эффективнее с ИИ. Генерация кода, создание приложений, отладка и автоматизация.

63 статей

Сортируйте статьи, чтобы найти нужное

Что такое embedding (вектор)? Как смысл превращается в числа, применение и выбор модели

Что такое embedding (вектор)? Как смысл превращается в числа, применение и выбор модели

RAG, семантический поиск и рекомендации опираются на незаметного труженика — embedding (вектор). Embedding это смысл текста (или изображения), преобразованный в последовательность чисел, то есть в вектор. Слово «собака» превращается в список из сотен или тысяч чисел, которые служат «координатами смысла», поэтому близкие по смыслу слова располагаются рядом («собака» и «щенок» близки; «собака» и «машина» далеки), а близость измеряется такими мерами, как косинусная близость (cosine similarity). Знаменитый пример: «король − мужчина + женщина ≈ королева». Благодаря этому машина может определить, близок ли смысл, даже когда символы не совпадают. Это руководство для новичков охватывает: что такое embedding («карта смыслов»), почему близость измеряет смысл (измерения и косинусная близость), для чего применяется (RAG, семантический поиск, классификация и дедупликация, рекомендации, мультимодальность), как выбрать модель эмбеддингов (через API — OpenAI text-embedding-3, Cohere, Gemini, Voyage; open-source — BGE-M3, Nomic, Qwen3; а также Matryoshka, позволяющая сократить 3 072 измерения до 1 024, сохраняя около 95% качества примерно за треть стоимости), и векторные БД (Pinecone, Weaviate, Qdrant, Chroma, pgvector) со стартом в три шага (выбрать модель, векторизовать и сохранить документы, векторизовать вопрос и выполнить поиск). Эмбеддинги — основа внедрения RAG.

Что такое AI evals (и LLM-as-judge)? Как это работает, предвзятость и инструменты — гид для начинающих

Что такое AI evals (и LLM-as-judge)? Как это работает, предвзятость и инструменты — гид для начинающих

Вы доработали промпты, добавили знания с RAG и, возможно, провели fine-tuning — но как убедиться, что результат действительно стал лучше? Здесь на первый план выходят AI evals, и к 2026 году оценка стала настолько важной, что её называют «инфраструктурой». AI evals — это систематическое измерение качества вывода LLM (точность, галлюцинации, соблюдение формата, тон) по фиксированной мерке, а не на глазок; без них улучшение остаётся лишь догадкой. Есть два метода: оценка на основе кода для механически измеримого (точное совпадение, формат, нужные/запрещённые слова — быстро, дёшево, стабильно) и LLM-as-judge для субъективного (мощная LLM в роли арбитра оценивает вывод через попарное сравнение или оценку одного ответа). Принцип: измеряйте кодом всё, что код может измерить. У LLM-as-judge есть предвзятость к многословию, к позиции и предпочтение себя; меры — другая модель-оценщик, смена порядка и двойная оценка, краткость в рубрике, калибровка по людям. Грубые шкалы (pass/fail или 1–3) точнее детальной 1–10. На практике запускают три уровня — мгновенные проверки кодом при каждом изменении, ночные регрессионные тесты на LLM-as-judge и непрерывный мониторинг продакшена — с инструментами DeepEval, Promptfoo и RAGAS для CI плюс Braintrust, LangSmith и Arize для мониторинга. Начните с 10 хороших и 10 плохих ответов и оцените их.

Что такое fine-tuning? Fine-tuning против RAG, LoRA/QLoRA и когда его применять — руководство для новичков

Что такое fine-tuning? Fine-tuning против RAG, LoRA/QLoRA и когда его применять — руководство для новичков

Когда нужно настроить ИИ под свою компанию, fine-tuning (дообучение) — один из вариантов, но без подготовки выйдет дорого и легко ошибиться. Это руководство для новичков объясняет fine-tuning: взять уже обученную базовую модель, доучить её на данных под вашу задачу и превратить в специализированную модель, которая вшивает «поведение» (фирменный стиль, формат вывода, терминологию области) в саму модель, переписывая её веса. Fine-tuning силён в изменении поведения, но слаб в запоминании актуальных знаний, поэтому правило такое: «факты и знания → RAG, характер и шаблон → fine-tuning, сначала промпты». Как отмечают эксперты, около 80% случаев «нам нужен fine-tuning» решаются лучшим поиском (RAG) или промптингом, так что порядок важен. В статье разбираются: что такое fine-tuning (аналогия с обучением новичка), в чём он силён и слаб, сравнительная таблица fine-tuning против RAG и промптинга, основные методы (full fine-tuning, LoRA и QLoRA — 4-битное квантование, достаточно лёгкое для новичков), что понадобится (ориентир 500+ качественных примеров, при этом подготовка данных — настоящая работа; затраты от $5,000 до более чем $50,000, fine-tuning у OpenAI примерно по $25–$100 за миллион обучающих токенов; инструменты вроде OpenAI, Unsloth, Axolotl и Hugging Face) и в каком порядке начинать. Fine-tuning — это крайнее средство.

Что такое Spec-Driven Development (SDD)? Четыре шага, инструменты и отличие от vibe coding

Что такое Spec-Driven Development (SDD)? Четыре шага, инструменты и отличие от vibe coding

В эпоху, когда код пишет ИИ, более ценный навык смещается от «писать код» к «писать спецификацию» — и подход, который улавливает этот сдвиг, называется спецификационно-ориентированной разработкой (Spec-Driven Development, SDD). SDD ставит спецификацию в центр проекта как источник истины, а ИИ-агент выводит из неё проектирование, разбивку и реализацию вместо того, чтобы сразу писать код. Главное — что каждый шаг оставляет документ (часто Markdown), который читает следующий шаг. Это понятное новичку руководство охватывает: что такое SDD (спецификация каноническая, код — производное), почему это важно именно сейчас (он предотвращает «стену трёх месяцев» технического долга и дрейф требований vibe coding ещё на этапе проектирования — GitHub сообщает о снижении числа циклов «перегенерировать с нуля» примерно на порядок), базовые четыре шага (Specify → Plan → Tasks → Implement), основные инструменты (GitHub Spec Kit с 90 000+ звёзд и более чем 30 поддерживаемыми агентами, AWS Kiro с потоком Requirements → Design → Tasks и роутером Auto, а также BMAD, OpenSpec, Tessl, Google Antigravity и Cursor), когда выбирать SDD вместо vibe coding (гибрид: vibe для исследования, SDD для выпуска, с обязательной проверкой человеком) и как попробовать прямо сегодня. В эпоху ИИ поднимаются те, кто умеет точно определить, что нужно построить, а не те, кто быстрее всех пишет код.

Что такое context engineering? Следующий навык после промптов и как победить «context rot»

Что такое context engineering? Следующий навык после промптов и как победить «context rot»

Центр тяжести в работе с ИИ смещается от prompt engineering к context engineering. Если воспользоваться определением Anthropic, context engineering — это «набор стратегий для подбора и поддержания оптимального набора токенов (информации), который вы передаёте модели во время инференса», охватывающий не только промпт, но и всё, что попадает в контекстное окно: системный промпт, инструменты, историю диалога и внешние данные. Это важно из-за «context rot» (деградации контекста): чем больше токенов вы добавляете, тем сильнее на самом деле падает точность. Исследование Chroma 2025 года проверило 18 ведущих моделей (GPT, Claude, Gemini и другие), и каждая деградировала по мере удлинения ввода, причём информацию в середине длинных контекстов особенно легко упустить («lost in the middle»). Это понятное новичкам руководство объясняет, что такое context engineering и как оно связано с prompt engineering, почему возникает context rot (внимание — конечный бюджет), что на самом деле входит в контекст, шесть ключевых техник (инструкции правильного уровня, отбор инструментов, извлечение just-in-time, compaction/сжатие через резюме, заметки как внешняя память и изоляция через суб-агентов), как это связано с RAG и Claude Skills, а также привычки, которыми можно пользоваться уже сегодня: начинать новую сессию при смене темы и вставлять только ключевые моменты. Главная идея: оставлять только самые малые и самые значимые токены.

Claude Fable 5 для кодинга: бенчмарки, когда брать его вместо Opus 4.8 и реальная цена

Claude Fable 5 для кодинга: бенчмарки, когда брать его вместо Opus 4.8 и реальная цена

Claude Fable 5, вышедший 9 июня 2026 года как первая общедоступная модель Anthropic класса Mythos, рассмотрен здесь только со стороны кодинга (полный разбор релиза — отдельно). Если коротко: Fable 5 отрывается тем сильнее, чем сложнее кодинг. Он показывает 95.0% на SWE-bench Verified и 80.3% на более жёстком SWE-bench Pro (против Opus 4.8 69.2% и GPT-5.5 58.6%), а на сложнейшем FrontierCode Diamond — 29.3% (против Opus 13.4% и GPT-5.5 5.7%, ~5x к GPT), тогда как Terminal-Bench 2.1 — плотная гонка с 84.3% (GPT-5.5 держится за счёт Codex CLI). В статье — сводка из трёх пунктов для разработчика (сильнее всего на сложных задачах / доводит за меньшее число шагов / но дорого и не останавливается), сравнительная таблица бенчмарков и как её читать (чем сложнее бенчмарк, тем больше разрыв; терминал — вровень), свойство масштабирования по effort (с низкого 11.5% до максимального 30.9%, тогда как GPT-5.5 упирается в 5-6%; чем длиннее и сложнее задача, тем больше отрыв; пять параллельных агентов, по сообщениям, достигли 60% прохождения скрытых тестов в 3.2x быстрее одного), в чём он действительно силён (крупные рефакторинги по многим файлам, длительные автономные прогоны, фронтенд по скриншоту, дизайн API плюс тесты плюс документация; Simon Willison оценил результат как работу на несколько дней, назвав его медленным и дорогим — более $110 за 5,5 часа), слабости (~2x к цене Opus 4.8 при $10/$50, сложные сессии 500k-1M tokens, не останавливается, точность ревью уступает Opus, защитные классификаторы откатываются к Opus 4.8 примерно на 20% попыток Terminal-Bench, склонность отчитываться «протестировано» без запуска), рекомендации по маршрутизации (Opus 4.8 по умолчанию, сложнейшие 10-20% на Fable 5, терминал на GPT-5.5, переключение по model ID) и где использовать (Claude Code, GitHub Copilot, AWS Bedrock, Azure Foundry, Databricks, Anthropic API) с ценами, 1M-token контекстом, 128k на выход и бесплатным окном 9-22 июня. Fable 5 — для тяжёлой разовой задачи, Opus 4.8 — для большей части ежедневной рутины. Цифры приведены по данным Anthropic и сторонних отчётов и носят ориентировочный, зависящий от scaffold характер.

Что такое команда /loop в Claude Code? Применение, опрос и сравнение планирования

Что такое команда /loop в Claude Code? Применение, опрос и сравнение планирования

«Сообщи, когда сборка завершится». «Если CI станет красным — почини». «Следи за деплоем каждые 5 минут». Передать эти «прилипшие» рутинные дела целиком AI позволяет команда /loop, добавленная в Claude Code в 2026 году. Это руководство для новичков объясняет, что /loop — это планировщик в рамках сессии, который повторно запускает запрос или slash-команду с заданным вами (или AI) интервалом, а затем разбирает четыре способа применения (① /loop 5m X = фиксированный интервал cron ② /loop X = self-pacing, где AI определяет интервал ③ /loop 15m = встроенный обслуживающий запрос ④ /loop = авто-обслуживание), как записывать интервалы (число + единица s/m/h/d, минимум 1 минута, естественный язык вроде «every 2 hours», и можно зациклить slash-команду: /loop 20m /review-pr 1234), силу self-pacing (короче при активности, дольше при затишье, от 1 минуты до 1 часа, и — в отличие от обычного cron — он сам завершает цикл, когда считает задачу выполненной), практические рецепты (наблюдение за CI/деплоями, «нянченье» PR, проверки долгих сборок, напоминания, авто-обслуживание ветки), как остановить и на что обратить внимание (Esc для остановки, привязка к сессии, поэтому новый разговор её стирает, закрытие терминала останавливает, фиксированные интервалы живут до 7 дней, до 50 задач на сессию, срабатывает между ходами с джиттером, локальный часовой пояс), как выбрать между тремя функциями планирования (/loop для мониторинга в сессии, Desktop scheduled tasks для резидентной локальной работы, Routines для облачных операций без присмотра), а также настройку loop.md и отключение через CLAUDE_CODE_DISABLE_CRON=1 — всё на основе официальной документации (на 2026 год). /loop меняет временную ось работы, которую можно передать AI.

Как стать передовым ИИ-инженером (AI-native разработчиком): навыки и дорожная карта

Как стать передовым ИИ-инженером (AI-native разработчиком): навыки и дорожная карта

Окажетесь ли вы на стороне, у которой ИИ отбирает работу, или на стороне, что владеет ИИ и делает работу за десятерых? В 2026 году это развилка для инженеров. Статья представляет путь "AI-native разработчика" (создание приложений с LLM, агентами, RAG — в отличие от исследования моделей) как выстраиваемый набор навыков, а не докторскую степень, в трёх слоях: ① неизменный фундамент (Python как основной язык ИИ-разработки, Git, командная строка, HTTP/REST/JSON — основы нужны и в эпоху кода, написанного ИИ); ② 5 ключевых AI-native навыков (проектирование промптов/контекста, RAG как основа корпоративных агентов, создание агентов, MCP как де-факто стандарт подключения инструментов и проектирование evals — плюс оптимизация затрат, ограждения, наблюдаемость); ③ преимущество, которое большинство упускает, — проектирование evals и инженерия контекста (умение писать evals — сильнейший признак того, что человек "реально строил с LLM", а AGENTS.md/CLAUDE.md плюс небольшой набор evals — это скачок от "с помощником" к "native"). Добавлены дорожная карта на 8–12 месяцев (фундамент → LLM API/промптинг → постройте RAG без фреймворков → агенты + MCP → evals + развёртывание + публикация), стратегия портфолио, где развёрнутая работа важнее диплома, подводные камни (болото туториалов, коллекционирование инструментов, пренебрежение основами) и цифры рынка/спроса (на основе данных США, большой разброс по регионам). Граница — используете ли вы ИИ как систему.

Полное руководство по оптимизации затрат на AI-кодинг: сократите счёт на 70–85%

Полное руководство по оптимизации затрат на AI-кодинг: сократите счёт на 70–85%

«Счёт за API в прошлом месяце… $1 800?» В 2026 году о серьёзном запуске Claude Code как агента сообщалось как о достигающем $500–2 000 в месяц. Но достаточно изменить то, как вы пользуетесь инструментами, и вы сможете сократить затраты на 70–85% без снижения качества результата (к этому сходятся многочисленные практические отчёты). В этом руководстве сначала разобрано истинное лицо высоких затрат (дорогая модель, длинный контекст, лишние вызовы; как работает тарификация по токенам; агенты, потребляющие примерно в 7x больше одной сессии), затем точка безубыточности между подпиской и API (API выигрывает примерно лишь до 50 сессий в месяц; по одной оценке подписка до 36x дешевле при ежедневном использовании), обзор цен (Copilot Pro $10 / Cursor Pro $20, $60–100 при интенсивном использовании / Claude Pro $20, Max $100; Copilot перешёл на оплату по факту AI Credits 1 июня 2026), шесть рычагов снижения затрат (① маршрутизация моделей для −40–70% ② кэширование промптов примерно на −90% с долей попаданий 60–80% ③ управление контекстом ④ выбор между подпиской и API ⑤ проверка дублирующихся подписок ⑥ функции памяти), чек-лист экономии, применимый уже сегодня, и подводные камни — ложная экономия, скрытая стоимость труда, двойная оплата, шок от счётчика, чрезмерное доверие к кэшу — плюс рекомендуемые конфигурации по типам. Оптимизация — это не скупость, а проектирование того, чтобы платить нужную сумму за нужную вещь.

Руководство по vector DB / RAG — от наивного RAG к продакшену

Руководство по vector DB / RAG — от наивного RAG к продакшену

Вы знаете, «что такое RAG», но при сборке ответ выходит мимо — потому что это всё ещё наивный RAG: небрежная нарезка и обычный векторный поиск. Как практическое продолжение статьи 030, здесь поэтапно разбирается практический конвейер RAG 2026 года (умный chunking, embedding, vector DB, гибридный поиск, reranking): стратегии chunking (recursive 512 как дефолт, semantic/structural/parent-child, Contextual Retrieval, по сообщениям сокращающий неудачи извлечения вплоть до 67%), выбор модели embedding (text-embedding-3-large и др.), сравнение шести vector DB (Chroma для прототипирования, pgvector с Postgres, низколатентный Qdrant, полностью управляемый Pinecone, чемпион по гибриду Weaviate, крупномасштабный Milvus), гибридный поиск со слиянием BM25 + плотных векторов через RRF, retrieve-then-rerank с bi-encoder, затем cross-encoder (Cohere/Voyage/BGE/Jina), разделение LlamaIndex (извлечение) против LangChain/LangGraph (управление), почему окно в 1M токенов не заменяет RAG (lost in the middle, отвлечение) и нюансы вывода в продакшн, такие как построение набора для eval в первую очередь.

Как построить ИИ-агента — руководство для новичков (без кода и с кодом)

Как построить ИИ-агента — руководство для новичков (без кода и с кодом)

Вы знаете, «что такое ИИ-агент» — так как же построить его? В 2026 году без кода можно запустить рабочий агент за один вечер простым перетаскиванием, а современные SDK позволяют собрать практичный менее чем в 100 строк. Как практическое дополнение к «что такое ИИ-агент», здесь разбираются анатомия (мозг LLM + инструкции + инструменты + память + автономный цикл), два пути (без кода и с кодом), универсальный каркас сборки из 5 шагов (очерти задачу, выбери основу, напиши инструкции, подключи инструменты, тестируй на малом), сравнение инструментов без кода (Dify как полноценная платформа, n8n для бизнес-интеграции, Flowise для прототипирования и самые простые Custom GPT/Gemini Gems/Claude Projects), сравнение кодовых фреймворков (надёжные Claude Agent SDK/OpenAI Agents SDK, LangGraph для сложного контроля, CrewAI для координации ролей), конкретный разобранный пример (суммировать письмо в поддержку, затем уведомить в Slack), стоимость (~$10-$50/месяц за платформу плюс использование модели) и ориентиры по срокам, а также ловушки (не расширяй область чрезмерно, права доступа и контроль над «разносом», остерегайся «только PoC»). Большинству людей правильный ход — сначала собрать один агент без кода.

Частые ошибки Claude Code и их исправление — полный справочник

Частые ошибки Claude Code и их исправление — полный справочник

Claude Code внезапно останавливается с «войдите снова», «лимит запросов», «слишком длинный промпт», «MCP не подключается» — а гуглить каждую утомительно. Это практический справочник, который каталогизирует часто встречающиеся ошибки, с причиной и командой для запуска по каждой. Он начинается с трёх диагностических команд, которые стоит запустить первыми (claude doctor для полной диагностики, /status для активной авторизации, /context для разбивки контекста), затем фокусируется на четырёх частых семействах (использование/лимиты запросов, переполнение контекста, истёкшая авторизация, сбои подключения MCP) с таблицами симптом→причина→команда по авторизации и входу, использованию/лимитам (Claude Code сжигает в 10-100 раз больше токенов, чем чат), контексту и токенам (слишком длинный промпт, пробуксовка сжатия), серверу и модели (500/529/тайм-аут/model not found), установке/PATH/обновлению, сети и прокси (ECONNREFUSED, TLS), MCP, разрешениям (deny побеждает bypass) и прочему (400 thinking blocks, изображения/PDF, IDE). Завершается шпаргалкой «ошибка→исправление» и FAQ. На основе официальной документации Claude Code (по состоянию на 2026): застряли — запустите три диагностические команды, и если не исправилось, выполните claude update.