Интеллектуальные агенты — новый вектор атак. Чему OpenAI учат проверки перед выпуском моделей

Строева Марина
Социальные сети

В интервью InfoQ Зико Колтер — директор департамента машинного обучения КарнегиМеллон и председатель комитета по безопасности OpenAI — дал системное объяснение, как внутри компании проверяют модели перед выпуском и почему сейчас главное не «научить модель не врать», а сузить и держать под контролем расширяющуюся поверхность атак, возникающую вместе с агентными (agentic) системами.

Kolter входит в совет OpenAI и возглавляет Safety & Security Committee (SSC). Это надзорный орган: он не пишет код, но проверяет документацию, тесты и оценки команд безопасности.

Перед крупными релизами SSC организует встречи, на которых команды (preparedness, alignment, model policy и др.) представляют результаты тестирования, внешние оценки и планы по защитам. По итогам комитет может потребовать дополнительной валидации или отсрочки релиза.

OpenAI использует публичный Preparedness Framework — набор требований и порогов для моделей, особенно в отношении «катастрофических рисков» (bio, cyber, selfimprovement).

Обсуждение рисков переходит от «что делает модель» к «что делает экосистема моделей»: агентные системы, интеграция с инструментами и предоставление реальных привилегий расширяют возможности злоупотреблений.

Модель, интегрированная с инструментами (интернетдоступ, исполнение команд, доступ к ключам), делает классические проблемы безопасности гораздо серьёзнее — один удачный prompt injection вместе с правами доступа может привести к утечке или исполнению команд.

Kolter предлагает делить риск на четыре класса:

Ошибки модели (галлюцинации, неверные выводы, prompt injection как частный случай).

Злоупотребления (модель думает хорошо — и это может помочь злоумышленникам).

Социальноэкономические эффекты (влияние на рабочие процессы, доверие, поведение людей).

Сценарии потери контроля (selfimprovement, автономное расширение возможностей).

Более мощные модели не становятся автоматически более безопасными. Чтобы повысить безопасность, нужны целенаправленные технические меры: внешние классификаторы, мониторинг, многослойные защитные механизмы, специальные датасеты для обучения на безопасность.

Многие улучшения в безопасности — результат инженерной работы, дополнительной подготовки и модульных защит, а не просто увеличения размера модели.

Защита строится многослойно: inputклассификаторы, инструментконтейнеры, outputфильтры, поведенческий мониторинг аккаунтов и оперативная безопасность. Это классическая «швейцарская сырная» модель — отверстия на разных слоях не должны совпадать.

Атаки тоже стали сложнее: злоумышленники тестируют границы классификаторов, комбинируют jailbreak для модели и обход внешних детекторов; часто такие атаки требуют большого количества запросов, которые можно детектировать.

Агент, который читает внешние данные и принимает решения, потенциально может получить вредоносные инструкции из этих данных. Если у агента есть привилегии (почта, APIключи, доступ к БД), inject может привести к утечке или выполнению команд.

Поэтому при проектировании агентов важны: строгое разграничение прав, песочницы, проверка доверия к источникам и анализ того, какие привилегии действительно необходимы.

Kolter и коллеги внесли в сообщество методы систематического поиска jailbreak (например, GCG), показавшие, что некоторые атаки могут быть «переносимыми» между моделями.

В ответ индустрия вводит внешние классификаторы, режимы рассуждения (reasoning models) и другие слои, которые усложняют прямые атаки.

Kolter также считает, что механизмная интерпретируемость (mechanistic interpretability) получает новое дыхание: автоматизированные средства и агенты позволяют масштабно искать и объяснять внутренние механизмы модели, что делает исследования менее «адхокными» и более системными.

Глобально появляются институты и практики: preparednessфреймворки у крупных лабораторий, национальные AIинституты, сотрудничество исследователей и регулирующих органов.

Kolter критикует ярлыки «ускорители» vs «пессимисты»: большинство исследователей занимают прагматичный центр — поддерживают развитие, но требуют серьёзного внимания к безопасности.

Kolter ожидает, что системы станут в целом безопаснее: появляются более зрелые слои защиты, улучшенные процессы релиза и подготовленности. Однако риск растёт параллельно с расширением «контроля» моделей — больше прав, больше интеграций, больше автоматизации.

Поэтому задача — обеспечить, чтобы темп наращивания защитных мер хотя бы соответствовал темпу расширения возможностей моделей.

Оригинальное видео беседы: YouTube.

НОВЫЕ СТАТЬИ

22 октября, 2024

Автоматизация аналитики продаж на маркетплейсах:…

22 октября, 2024

Как анализ отзывов и оценок…

22 октября, 2024

Анализ динамики цен и стратегии…

22 октября, 2024

Интеграция данных о продажах с…

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55