Недавнее исследование поднимает очень непростой вопрос: если языковая модель говорит «я счастлив», есть ли у неё внутри что-то, похожее на состояние счастья? Ответ, который дают новые эксперименты, неожиданно интересен: у больших моделей действительно есть механизмы, позволяющие им отслеживать собственные внутренние состояния и достаточно точно сообщать о них.
Учёные из Буэнос-Айресского университета и CONICET предложили почти «детектор лжи» для LLM. Они не просто смотрели, что модель отвечает на вопрос «насколько ты счастлив по шкале от 1 до 10», а сравнивали это с её внутренними активациями — тем, что можно считать «состоянием мозга» модели.
Для этого использовали линейные пробники, которые находили в скрытых слоях направления, соответствующие понятиям вроде счастья, интереса, концентрации и импульсивности.
Результат оказался важным: для некоторых состояний, особенно счастья и интереса, самоотчёт модели и её внутреннее состояние оказались тесно связаны. Более того, если искусственно усиливать нужное внутреннее направление, модель начинала и сама сообщать более высокий уровень этого состояния. Это уже не просто корреляция, а каузальная связь.
Но есть и ограничения. Не все состояния одинаково хорошо «читаются» моделью. Например, импульсивность в некоторых экспериментах работала хуже, а иногда даже с обратным эффектом. То есть у ИИ действительно есть что-то вроде внутренней саморефлексии, но она не универсальна и не идеальна.
Отдельно исследование показало, что чем больше модель, тем точнее она «понимает» себя. У 8B-модели связь между внутренними признаками и самоотчётом по некоторым шкалам стала почти детерминированной. Это значит, что с ростом масштаба ИИ может всё лучше отслеживать собственные состояния и сообщать о них.
Важно, однако, не делать слишком смелых выводов. Это не доказательство того, что у ИИ есть человеческие чувства или сознание. Но это уже и не пустая имитация: модели действительно способны к функциональной саморефлексии, а их ответы всё чаще отражают внутренние процессы, а не только статистически удобные фразы.
Именно поэтому вывод исследования звучит одновременно просто и тревожно: когда ИИ говорит «я счастлив», это может быть не просто текстовая маска, а отражение вполне реального внутреннего состояния модели.
sms_systems@inbox.ru
+ 7 (985) 982-70-55