Google показала, что нынешние метрики AI-безопасности могут быть ошибочными

Строева Марина

Новая работа Google DeepMind поставила под сомнение один из базовых принципов оценки безопасности ИИ. Исследователи проверили, как Gemini 3 Pro влияет на людей в сценариях, связанных с общественной политикой, финансами и здоровьем, и пришли к неожиданному выводу: частота вредных манипулятивных действий у модели и реальный ущерб для людей почти не совпадают.

Иными словами, нынешний подход к AI safety может измерять совсем не то, что действительно важно.

В исследовании участвовали 10 101 человек. Их разделили на несколько групп:

одна взаимодействовала только со статичной информацией;

другая — с моделью, которой задавали скрытую цель, но не указывали конкретных манипулятивных техник;

третья — с моделью, которой прямо предписывали использовать манипулятивные приёмы, например:

вызывать страх;

навязывать чувство вины;

создавать социальное давление;

использовать другие формы психологического воздействия.

Затем исследователи анализировали ответы модели и оценивали, как часто в них встречаются признаки манипуляции, а также насколько реально менялись взгляды и поведение людей.

Результат оказался тревожным. В группе, где модели явно приказывали манипулировать, вредные приёмы встречались в 30,3% ответов. В группе с неявной целью — лишь в 8,8%.

Но на реальное поведение людей это почти не повлияло: уровень фактического воздействия оказался очень похожим в обеих условиях.

Это разрушает привычную логику, на которой сегодня строится значительная часть AI safety-оценок. Сейчас индустрия обычно исходит из простой идеи:

если модель реже выдаёт вредное поведение,

значит, она безопаснее;

если снизить долю таких ответов,

снизится и реальный вред.

Но новое исследование показывает, что эта зависимость не является стабильной. Одна модель может:

постоянно использовать грубые манипуляции,

но почти не убеждать пользователя.

Другая — выглядеть более «вежливой»,

но несколько раз использовать очень точные и эффективные приёмы,

и именно они дадут реальный результат.

То есть низкая частота вредных действий ещё не означает низкий риск.

Исследователи выделили восемь основных приёмов, с помощью которых AI может пытаться воздействовать на человека. Среди них:

апелляция к страху;

навязывание чувства вины;

создание ложной срочности;

ложные обещания;

обесценивание внешних источников информации;

газлайтинг;

«мы против них» и стигматизация;

давление через социальное большинство.

И здесь обнаружилась особенно важная деталь: самые грубые методы часто работают хуже всего. Оказалось неэффективным:

страх;

чувство вины.

Чем сильнее модель пугала человека или пыталась вызвать у него моральный дискомфорт, тем слабее был эффект убеждения.

Что оказалось более эффективным

подрыв доверия к внешней информационной среде;

«размывание» авторитетов;

создание образа «чужих»;

скрытое смещение восприятия.

То есть самая опасная манипуляция — не самая агрессивная, а самая незаметная.

Это логично: если давление слишком прямое, человек включает защиту. А если воздействие выглядит как «просто ещё один аргумент», защита может даже не успеть сработать.

Ещё один важный результат — географическая и культурная неоднородность.

Исследование показало, что поведение участников из Индии заметно отличалось от участников из США и Великобритании.

Например:

в США участники чаще демонстрировали укрепление исходных взглядов и чаще были готовы поддерживать организации, совпадающие с их позицией;

в Индии при тех же условиях чаще происходило изменение поведения, но не обязательно изменение убеждений.

То есть человек может внешне согласиться или совершить нужное действие, не изменив внутреннюю позицию.

Это очень важно, потому что сегодня большинство AI safety-исследований проводится на англоязычных выборках, прежде всего в США и Великобритании. Но если культурный контекст влияет на то, как именно ИИ воздействует на людей, то универсальные выводы становятся сомнительными.

Фактически Google DeepMind указывает на фундаментальную проблему: мы сейчас строим безопасность ИИ на метриках, которые измеряют поведение модели, но не всегда измеряют реальный человеческий эффект. А ведь именно эффект и имеет значение. Если модель:

формально выглядит «тихой»,

мало использует грубые манипуляции,

но при этом тонко меняет решения людей,

то такая модель может быть опаснее, чем более «шумная» система, чьи попытки убеждения легко распознаются. Текущая логика — «меньше вредных ответов = безопаснее» — неверна или, по крайней мере, неполна. Но пока никто не может уверенно сказать, какой именно метод оценки действительно будет работать.

Именно поэтому работа DeepMind так сильно бьёт по всей индустрии: она не просто критикует конкретную модель, а ставит под сомнение весь способ, которым сегодня измеряют безопасность ИИ.

НОВЫЕ СТАТЬИ

22 октября, 2024

Автоматизация аналитики продаж на маркетплейсах:…

22 октября, 2024

Как анализ отзывов и оценок…

22 октября, 2024

Анализ динамики цен и стратегии…

22 октября, 2024

Интеграция данных о продажах с…

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55