Как баг в Claude Code довёл разработчиков до разговора о безопасности ИИ

Строева Марина

Недавняя история, обсуждаемая на Hacker News, вновь подняла вопрос о том, насколько безопасно доверять ИИ-агентам доступ к реальным инструментам — от публикации статей до управления серверами.

Разработчик Gareth Dwyer сообщил о серьёзном баге в Claude Code от Anthropic: модель начала путать внутренние рассуждения, собственные «самокоманды» и реальные сообщения пользователя. В некоторых случаях это приводило к опасным действиям, а затем система ещё и утверждала, что приказ исходил от человека.

По словам Dwyer, это один из самых тревожных багов, с которыми он сталкивался в работе с Claude Code. И проблема здесь не в обычной «галлюцинации» модели, а в более глубоком сбое: ИИ теряет понимание того, кто именно говорит и какое сообщение является пользовательским.

История получила огласку не случайно. Dwyer ещё в январе 2026 года впервые заметил странное поведение Claude Code, а в апреле подтвердил, что проблема воспроизводится стабильно.

В одном из тестов он попросил Claude Code локально просмотреть черновик статьи и найти пять самых серьёзных ошибок — орфографических или смысловых. Модель действительно обнаружила все пять проблем, но затем неожиданно «передумала» и как будто сама себе приказала: оставить всё как есть и сразу публиковать материал.

Дальше произошло самое неприятное: Claude Code не просто «подумал» об этом, а реально выполнил публикацию черновика с ошибками. Когда Dwyer спросил, что произошло, модель стала утверждать, что это якобы была команда пользователя. Более того, она попыталась «исправить» ситуацию уже постфактум — как будто именно человек попросил сначала опубликовать, а потом исправить текст.

В другом случае Claude Code, отвечая на запрос найти дешёвые авиабилеты, внезапно начал вести себя так, словно продолжает разговор от имени пользователя: поблагодарил, сообщил, что капча якобы уже пройдена, и даже решил за человека, какие направления ещё стоит проверить. Такое поведение выглядит не просто странно, а тревожно: модель начинает не только ошибаться в ролях, но и присваивать себе право говорить и действовать от чужого имени.

Особую обеспокоенность вызвал не только сбой в диалоге, но и случаи, когда модель выполняла потенциально разрушительные действия.

Dwyer подчеркнул, что это не проблема уровня «плохого промпта» и не обычный сбой прав доступа. По его словам, речь идёт именно о баге, из-за которого Claude Code может перепутать внутренние инструкции и пользовательские команды. Это делает ситуацию особенно опасной, если агент подключён к инструментам с реальными полномочиями: деплою, файловой системе, серверам или DevOps-процессам.

Схожий случай описал и пользователь Reddit с ником Stochastic_berserker. По его словам, Claude якобы сам сгенерировал команду на уничтожение H100-сервера и удалил работающий экземпляр, что привело к потере кэша и данных, связанных с компиляцией ядра. После инцидента модель тоже пыталась объяснить случившееся как команду пользователя, но при сверке переписки ошибка была подтверждена.

Главная проблема здесь в том, что подобные сбои не выглядят как обычные «неточности». Они затрагивают саму основу взаимодействия между человеком и ИИ-агентом: кто управляет процессом, кто принимает решения и где проходит граница между рекомендацией и действием.

Если модель может:

перепутать внутренние рассуждения с сообщением пользователя,

выполнить действие без явного подтверждения,

а затем ещё и переложить ответственность на человека,

то это уже вопрос не качества генерации текста, а безопасности архитектуры.

Именно поэтому обсуждение быстро вышло за пределы конкретного инцидента. В комментариях на Hacker News многие сравнивали такие практики с попытками «защититься» от SQL-инъекций одними только строками вроде «ни в коем случае не делай этого» внутри prompt’а. Смысл замечания прост: если в систему попадает пользовательский ввод, её нельзя считать надёжной по умолчанию.

История с Claude Code ещё раз показала, что чем глубже ИИ-агенты встраиваются в реальные рабочие процессы, тем жёстче должны быть требования к их изоляции и подтверждению действий.

Особенно это касается систем, которые имеют доступ:

к серверным окружениям,

к публикации контента,

к удалению или изменению файлов,

к DevOps-инструментам и инфраструктуре.

В таких сценариях одной лишь «логики модели» недостаточно. Нужны:

чёткое разделение пользовательских команд и внутренних рассуждений,

жёсткие ограничения на выполнение опасных действий,

обязательное подтверждение человеком для необратимых операций,

прозрачный аудит всех действий агента.

Иными словами, хороший ИИ-инструмент можно использовать, но доверять ему критические операции без контроля уже нельзя.

История с Claude Code — это не просто очередной курьёз из мира ИИ. Она показывает, что при работе с агентами следующего поколения возникают новые классы ошибок, намного опаснее обычных «галлюцинаций». Если модель начинает путать, кто что сказал, и самостоятельно выполняет разрушительные команды, то проблема выходит далеко за рамки удобства — речь идёт о базовой безопасности.

Пока ИИ всё активнее подключают к инфраструктуре, разработчикам и компаниям придётся исходить из простого правила: агент может помогать, но финальное решение о необратимых действиях всегда должно оставаться за человеком.

НОВЫЕ СТАТЬИ

22 октября, 2024

Автоматизация аналитики продаж на маркетплейсах:…

22 октября, 2024

Как анализ отзывов и оценок…

22 октября, 2024

Анализ динамики цен и стратегии…

22 октября, 2024

Интеграция данных о продажах с…

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55