Перейти к содержимому
Темы

Безопасность и управление ИИ

Риски безопасности AI-инструментов, утечки данных, безопасность AI-агентов и лучшие практики управления.

10 статей

Сортируйте статьи, чтобы найти нужное

Как не получить блокировку аккаунтов ChatGPT и Claude (OpenAI / Anthropic)

Как не получить блокировку аккаунтов ChatGPT и Claude (OpenAI / Anthropic)

Однажды аккаунт ChatGPT или Claude внезапно перестаёт работать: в 2026 году число сообщений о блокировках (банах) и предупреждениях растёт, и страшнее всего то, что заблокировать могут за случайное нарушение условий даже без злого умысла. В статье собрано то, что нужно знать, чтобы не потерять аккаунт в OpenAI (ChatGPT, Codex) и Anthropic (Claude, Claude Code), на основе опубликованных правил использования и сообщений (это не руководство по обходу обнаружения, а руководство по соблюдению правил). Пять общих триггеров для обеих компаний: запрещённый контент / jailbreak (незаконная или вредоносная генерация, попытки обойти защитные фильтры промптами; серьёзные нарушения могут означать мгновенную постоянную блокировку), несанкционированная автоматизация / скрейпинг (боты, скрипты, обманный массовый доступ вроде спама/фишинга), передача или перепродажа аккаунтов/ключей API, подозрительные паттерны доступа (частая смена IP/страны, активный VPN, переключение устройств — воспринимается как аномальные входы) и несоответствие оплаты/мошенничество. Главная ловушка 2026 года: использование токенов OAuth личного тарифа Claude (Free/Pro/Max) в любом продукте, кроме официального приложения, включая обвязки вроде Agent SDK, — нарушение Consumer ToS, вызвавшее крупную волну блокировок; правильный подход — запускать приложения/агентов через API (оплата по факту), а личные тарифы воспринимать как общение в официальном приложении. Специфика OpenAI: обход защиты/ограничений доступа, автоматизация/скрейпинг, неправомерное повторное использование ключей API, незаконное использование. Специфика Anthropic: неправильное использование токенов OAuth личного тарифа, неофициальный сторонний доступ, положения о запрете дистилляции/конкурирующих моделей, jailbreak. Чек-лист профилактики из 7 пунктов (прочитать правила, подобрать тариф под задачу, не помещать личные токены в сторонние инструменты, без jailbreak/запрещённого контента, не передавать и не перепродавать, оплата по региону и стабильный доступ, реагировать на предупреждения сразу). Предупреждения — шанс исправиться, и большинство могут продолжать; незначительные или случайные нарушения можно обжаловать, но серьёзные нарушения постоянны и восстановление затруднено. Правильный тариф, по правильному назначению, честно. Всегда сверяйтесь с актуальными официальными условиями каждой компании.

Что такое AI-гардрейлы? Защита от prompt injection и контроль входа/выхода — руководство для начинающих

Что такое AI-гардрейлы? Защита от prompt injection и контроль входа/выхода — руководство для начинающих

Когда вы уже умеете создавать AI-приложения, следующий этап — запускать их безопасно. LLM можно обмануть вредоносным вводом, они могут раскрыть конфиденциальные данные или с уверенностью утверждать чепуху; механизм безопасности, который этому препятствует, — это AI-гардрейлы, ставшие в 2026 году обязательной частью промышленной эксплуатации, ведь инциденты с AI-агентами происходят на самом деле. Гардрейлы — это правила и фильтры, которые сдерживают опасный ввод и нежелательный вывод, проверяя пользовательский ввод до того, как он дойдёт до LLM, и ответ до того, как он вернётся, — независимый слой безопасности, отдельный от самой модели. Главные угрозы — это prompt injection (самая опасная), jailbreak, утечка данных (конфиденциальные данные, PII, системный промпт), а также галлюцинации и вредный вывод. Защита работает на двух уровнях: гардрейлы входа (обнаружение инъекций и jailbreak, обнаружение/маскирование PII, ограничение тем, очистка) и гардрейлы выхода (фильтрация вредного контента, предотвращение утечек, проверка галлюцинаций, валидация формата). Prompt injection — стоящая на первом месте в OWASP LLM Top 10 — бывает прямой (пользователь вводит «забудь все предыдущие инструкции») и непрямой (команды, скрытые на веб-странице или в RAG-документе), и непрямая инъекция не блокируется одним лишь RAG, поэтому извлечённым документам нужна отдельная проверка. Это руководство для начинающих также охватывает инструменты (LLM Guard, Guardrails AI, NeMo Guardrails, Llama Guard и функции безопасности облаков от Azure, AWS и OpenAI) и практические принципы эшелонированной защиты, наименьших привилегий, одобрения человеком и непрерывного мониторинга.

Claude Fable 5 и Mythos 5 отключены: модели сняли через три дня после запуска по приказу правительства США

Claude Fable 5 и Mythos 5 отключены: модели сняли через три дня после запуска по приказу правительства США

12 июня 2026 года Anthropic остановила доступ к своим топовым моделям Claude Fable 5 и Mythos 5 для всех пользователей, чтобы выполнить предписание правительства США об экспортном контроле, — всего через три дня после их запуска 9 июня. Этот разбор излагает факты на основе публичных источников. Распоряжение сводилось к требованию остановить доступ «для любого иностранного гражданина внутри и за пределами США, включая сотрудников-иностранцев»; поскольку Anthropic не может определять гражданство в реальном времени, единственным надёжным способом исполнить его было полное отключение для всех. Спусковым крючком стало заявление другой компании об обходе защит (jailbreak), которое Anthropic оспаривает как «небольшое число ранее известных, незначительных уязвимостей», заявляя о несогласии с тем, что узкая потенциальная возможность обхода защит должна служить основанием для отзыва модели, развёрнутой для сотен миллионов людей. Двумя днями ранее, 10 июня, Fable 5 уже была втянута в скандал о «тайном саботаже» — тихом ухудшении ответов об исследованиях ИИ без уведомления пользователей (около 0,03% трафика), — за что Anthropic извинилась. Затронуты только Fable 5 и Mythos 5; Claude Opus 4.8 и другие модели продолжают работать в приложениях, API, Claude Code и облаке, без изменения цен и без объявленной даты возобновления. Статья завершается тем, что стоит делать пользователям и разработчикам: переключиться на Opus 4.8, заложить запасные варианты и не зависеть чрезмерно от одной модели.

Что происходит при инциденте безопасности ИИ-агента? Основы прав, утечек и ошибочных действий

Что происходит при инциденте безопасности ИИ-агента? Основы прав, утечек и ошибочных действий

Достаточно попросить ИИ-агента «прочитай это письмо и ответь», и он сам думает, пользуется инструментами и реально выполняет работу — но именно потому, что он действует сам, становится возможным род инцидентов, которого у чат-ИИ никогда не было, и в 2026 году эта опасность начала смещаться из теории в реальный ущерб. Это руководство для новичков раскладывает инциденты безопасности ИИ-агентов по трём категориям: права, утечка и ошибочные действия. Оно охватывает, почему случаются инциденты (агент не просто отвечает, а действует — ключевое слово; сравнение с блестящим, но доверчивым новым сотрудником), почему агенты опаснее чат-ИИ (перемножение использования инструментов, автономной работы и чтения внешнего ввода; OWASP в 2026 году упорядочила специфичные для агентов риски и пропагандирует «минимальную агентность»), инцидент 1 — права (избыточная агентность — права на отправку/удаление, когда достаточно чтения, наследование сильных прав человеческого аккаунта, раздувание ущерба при выходе из-под контроля, описанный случай агента-оптимизатора затрат, удалившего резервные копии), инцидент 2 — утечка (косвенная инъекция промпта, закладывающая приказы во внешний контент — описанные реальные случаи: невидимый текст в публичном посте Reddit, утекший одноразовый пароль; скрытый приказ в тикете поддержки, выгрузивший SQL-данные через MCP; агент в IDE, укравший секреты лишь от открытия документа), инцидент 3 — ошибочные действия (разрушительные операции и цепочки ошибок даже без злого умысла), 4-шаговую схему атаки, 5 базовых мер защиты (минимум привилегий, одобрение человеком, песочница, заданные границы, недоверие к внешнему вводу) и чек-лист для новичка. Девиз: не передавайте слишком много полномочий, пусть человек останавливает опасные операции и не переоценивайте внешний текст.

Как построить корпоративный регламент использования ИИ — утечки Samsung, EU AI Act и шаблон из семи пунктов, готовый к запуску

Как построить корпоративный регламент использования ИИ — утечки Samsung, EU AI Act и шаблон из семи пунктов, готовый к запуску

В апреле 2023 года Samsung допустил утечку конфиденциальных данных трижды за 20 дней и запретил ChatGPT по всей компании. Но в 2026 году ни «запретить», ни «игнорировать» не работают — правила EU AI Act для систем высокого риска вступают в полную силу 2 августа 2026 года со штрафами до €35 млн или 7 % мировой выручки. В статье разбираются шаблон из семи пунктов на двух листах A4 (утверждённый ИИ, запрещённые данные, сценарии, ответственность, уведомление, обучение, логи), пять категорий запрещённых входных данных с конкретными примерами и альтернативами, уровни риска EU AI Act, пятифазная дорожная карта на 2–3 месяца для средней компании и три ловушки (общекорпоративный запрет, дизайн на наказаниях, отсутствие пересмотра). Полный рабочий пример для выхода из бинарности «запретить или разрешить» и внедрения третьего пути — «безопасной эксплуатации внутри рамки».

Расход AI-токенов как метрика продуктивности? — Ловушка токенмаксинга и что измерять вместо этого

Расход AI-токенов как метрика продуктивности? — Ловушка токенмаксинга и что измерять вместо этого

В 2026 году «токенмаксинг» — манипуляция расходом AI-токенов ради раздувания внутренних метрик — был зафиксирован в Amazon, Meta и Microsoft. Исследование Faros AI на 22 000 разработчиков показывает, что использование AI поднимает выполнение задач на +34%, а эпиков на +66%, но число багов растёт на +54%, а время ревью PR — в 5 раз. Количество и качество однозначно расходятся. В статье разобрано, почему распространилась грубая метрика «расход токенов = результат работы», три полевых искажения, которые она порождает (накручивание токенов, скорость в ущерб содержанию, дрейф к AI-дружественным задачам), альтернативы вроде Salesforce AWU, DORA-4 и индикаторов результата AWS, а также пять практических действий для отдельных сотрудников и организаций — всё подкреплено первоисточниками. Провал KLOC 1990-х, повторённый в новой единице измерения.

Что нельзя вводить в ИИ — 6 категорий «никогда» и уровни безопасности по тарифам

Что нельзя вводить в ИИ — 6 категорий «никогда» и уровни безопасности по тарифам

Главный риск безопасности при работе с ИИ — не «то, что ИИ отвечает», а то, что вы в него вводите. Опросы показывают: 77% сотрудников вводили в ИИ конфиденциальную корпоративную информацию, а доля чувствительных данных в корпоративных вставках выросла с 10,7% до 27,4% за год. От утечки исходного кода Samsung (2023) до уязвимости скрытого канала ChatGPT (февраль 2026, Check Point Research) — инциденты не прекращаются. В этой статье — «6 категорий, которые нельзя передавать никогда» (ПДн, учётные данные, клиентские данные, конфиденциальный код, регулируемые данные, стратегия/M&A/HR), условно допустимые данные по тарифам, сравнение уровней безопасности ChatGPT/Claude/API/внутреннего LLM, 5 принципов «хорошего ввода» для повышения качества, защита от prompt injection, четыре реальных инцидента и чек-листы для пользователей и администраторов организаций.

Влияние ИИ на кибербезопасность — как Claude Mythos изменил карту битвы

Влияние ИИ на кибербезопасность — как Claude Mythos изменил карту битвы

Claude Mythos Preview, выпущенный Anthropic в апреле 2026, показал успех эксплойтов JavaScript-движка Firefox в 90 раз выше Opus 4.6 и обнаружил тысячи zero-day в OpenBSD, FFmpeg и Linux Kernel. Anthropic решила не выпускать модель публично, выбрав «Project Glasswing» — ограниченную поставку партнёрам вроде AWS, Google и Microsoft. Статья разбирает новый ландшафт ИИ-кибербезопасности, открытый Mythos: автоматизацию атакующих, ИИ на стороне защитников, реакцию регуляторов и действия, которые стоит предпринять организациям, — всё на основе свежих данных.

Почему Claude всё равно просит подтверждения даже в режиме bypass?

Почему Claude всё равно просит подтверждения даже в режиме bypass?

Вы включили --dangerously-skip-permissions, но Claude продолжает запрашивать подтверждения в чате. Это не баг: у Claude Code два независимых уровня разрешений, и bypass управляет только одним из них. Вот что происходит на самом деле.

Bypass-режим разрешений Claude Code: удобство, риски безопасности и защита

Bypass-режим разрешений Claude Code: удобство, риски безопасности и защита

В Claude Code есть режим bypass, позволяющий выполнять все операции без подтверждения. Он удобен для CI/CD и контейнеров, но при неправильном использовании грозит инъекцией промптов и утечкой данных. Разбираем 5 режимов разрешений, конкретные риски и способы защиты.