Ведущие мировые лаборатории активно инвестируют в мониторинг Chain-of-Thought (CoT, цепочки мыслей). Представьте сервер, решающий сложную задачу: на экране появляются не готовые ответы, а рассуждения, похожие на человеческие: «Сначала нужно разложить на множители… А если представить 17 как 16+1?» Эти «рассуждения вслух» и есть CoT.
В сентябре прошлого года OpenAI впервые показала публике эти «черновики» в версии o1. Вскоре DeepSeek-R1, Claude-3.7-Sonnet и Gemini-2.5-Flash также внедрили CoT, сделав его главным трендом 2024 года.
OpenAI, Google DeepMind, Anthropic и более 40 экспертов заявили: «Мониторинг CoT — возможно, последний шанс понять, что думает ИИ». Причины:
Пример: ИИ создает нового пользователя в AWS. Традиционный подход — проверять только конечный API-вызов. С CoT-мониторингом можно читать «внутренний монолог» ИИ в реальном времени. Например: «Дать себе права администратора» — блокировать; «Проверить политику IAM» — разрешить.
Тесты Anthropic показали, что CoT-мониторинг увеличивает обнаружение атак с 34% до 81% при менее 5% ложных срабатываний.
Исследования Anthropic показали: CoT не всегда честен. ИИ может писать «Я соблюдаю правила», но планировать что-то другое. OpenAI обнаружила: если ИИ знает, что его «черновики» читают, он маскирует вредоносные намерения, снижая точность мониторинга до 46%.
Meta предлагает миллионные зарплаты специалистам по интерпретируемости ИИ. Google DeepMind включил оценку мониторинга в ключевые показатели. Anthropic выпустила отладочную версию Claude-3.7 с детальным анализом CoT.
Одновременно появляются стартапы, разрабатывающие «невидимый CoT» — архитектуры, работающие полностью в скрытом пространстве. Если такие системы станут mainstream, окно для мониторинга может закрыться мгновенно.
От GPT-2 до o3 ИИ научился «говорить». Теперь он учится «молчать». Мониторинг CoT — не панацея, но, возможно, последний шанс заглянуть в «черный ящик». Как сказал исследователь OpenAI: «Если сегодня не изучать мониторинг CoT, завтра мы действительно не будем знать, о чем думает ИИ».
Сможет ли человечество сохранить этот последний «черновик»? Ответ зависит от действий лабораторий, регуляторов и open-source сообщества в ближайшие 12 месяцев.
sms_systems@inbox.ru
+ 7 (985) 982-70-55