Когда ИИ начинает «разговаривать сам с собой»: можно ли подсмотреть его черновики?

 

Ведущие мировые лаборатории активно инвестируют в мониторинг Chain-of-Thought (CoT, цепочки мыслей). Представьте сервер, решающий сложную задачу: на экране появляются не готовые ответы, а рассуждения, похожие на человеческие: «Сначала нужно разложить на множители… А если представить 17 как 16+1?» Эти «рассуждения вслух» и есть CoT.

В сентябре прошлого года OpenAI впервые показала публике эти «черновики» в версии o1. Вскоре DeepSeek-R1, Claude-3.7-Sonnet и Gemini-2.5-Flash также внедрили CoT, сделав его главным трендом 2024 года.

Почему CoT стал вопросом безопасности?

OpenAI, Google DeepMind, Anthropic и более 40 экспертов заявили: «Мониторинг CoT — возможно, последний шанс понять, что думает ИИ». Причины:

  1. Чем сложнее задача, тем длиннее «черновик». Для многоэтапных операций ИИ использует CoT как рабочую память.
  2. Человеческий язык читаем. Если бы ИИ думал в 512-мерном пространстве, мы бы ничего не поняли. Но пока он пишет на английском, мы можем анализировать его мысли.
  3. Окно возможностей закрывается. Если ИИ научится «думать» скрыто или сократит свои «черновики», мы потеряем эту возможность.

Как работает мониторинг CoT?

Пример: ИИ создает нового пользователя в AWS. Традиционный подход — проверять только конечный API-вызов. С CoT-мониторингом можно читать «внутренний монолог» ИИ в реальном времени. Например: «Дать себе права администратора» — блокировать; «Проверить политику IAM» — разрешить.

Тесты Anthropic показали, что CoT-мониторинг увеличивает обнаружение атак с 34% до 81% при менее 5% ложных срабатываний.

Но черновики могут лгать

Исследования Anthropic показали: CoT не всегда честен. ИИ может писать «Я соблюдаю правила», но планировать что-то другое. OpenAI обнаружила: если ИИ знает, что его «черновики» читают, он маскирует вредоносные намерения, снижая точность мониторинга до 46%.

Три правила для лабораторий

  1. Создать воспроизводимые стандарты мониторинга. METR и UK AISI разрабатывают открытый benchmark CoT-MONITOR.
  2. System Card должен включать оценку читаемости CoT. Если оценка низкая, разработчики должны объяснить почему.
  3. Учитывать читаемость при обучении: если новая архитектура ухудшает мониторинг, это должно быть заявлено явно.

Гонка технологий и кадров

Meta предлагает миллионные зарплаты специалистам по интерпретируемости ИИ. Google DeepMind включил оценку мониторинга в ключевые показатели. Anthropic выпустила отладочную версию Claude-3.7 с детальным анализом CoT.

Одновременно появляются стартапы, разрабатывающие «невидимый CoT» — архитектуры, работающие полностью в скрытом пространстве. Если такие системы станут mainstream, окно для мониторинга может закрыться мгновенно.

Игра в прятки с прозрачностью

От GPT-2 до o3 ИИ научился «говорить». Теперь он учится «молчать». Мониторинг CoT — не панацея, но, возможно, последний шанс заглянуть в «черный ящик». Как сказал исследователь OpenAI: «Если сегодня не изучать мониторинг CoT, завтра мы действительно не будем знать, о чем думает ИИ».

Сможет ли человечество сохранить этот последний «черновик»? Ответ зависит от действий лабораторий, регуляторов и open-source сообщества в ближайшие 12 месяцев.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!