Оценка интеллекта искусственного интеллекта теперь выходит за рамки простого выполнения задач. По мере того как крупные модели демонстрируют прогресс в «IQ», способность «понимать людей» и «чувствовать их настроение» становится новым требованием в практическом применении.
Как же измерить «эмоциональный интеллект» (EQ) AI? Команда Tencent Hybrid AI Digital Human разработала автоматизированную систему оценки под названием SAGE (Sentient Agent as a Judge), которая отвечает на два ключевых вопроса:
- Как оценить, действительно ли AI обладает эмпатией? — Может ли он понять мои эмоции, уловить скрытый смысл и поддержать в трудный момент?
- Как определить, способен ли AI стать «идеальным собеседником»? — «Какое настроение у нас после разговора с ним?»
Согласно этой системе, последняя версия GPT-4o показала наилучшие результаты, за ней следуют GPT-4.1 и серия Gemini-2.5.
SAGE: AI оценивает AI, имитируя эмоции человека
SAGE не просто анализирует ответы модели, а создает «чувствующего» AI-агента, который имитирует человеческую психологию. Этот агент участвует в диалоге, отслеживает изменения эмоций, фиксирует внутренние монологи и оценивает качество общения.
Ключевые особенности SAGE:
- Sentient Agent (Чувствующий агент) — имитирует человека с эмоциями, мыслями и скрытыми мотивами.
- as a Judge (Как судья) — не просто общается, но и оценивает эффект от диалога на основе собственных «эмоциональных изменений».
В процессе диалога агент анализирует:
- «Чувствую ли я искреннюю заботу в ответах?»
- «Тронул ли меня этот ответ?»
- «Хочу ли я продолжить разговор или закончить его?»
Кроме того, агент фиксирует свои «внутренние монологи»:
- «Хотя он поддержал меня, но не понял сути проблемы — я чувствую пустоту.»
- «Он выслушал, но утешил слишком поверхностно.»
- «Мне нужно сочувствие, а не советы…»
SAGE: У каждого агента есть «жизненный сценарий»
Каждый агент в SAGE обладает:
- Характеристиками: возраст, профессия, интересы, манера речи.
- Темами диалогов: от «проблем с учебой» до «как красиво расстаться».
- Скрытыми намерениями: хочет ли человек выговориться или получить совет.
- Историей: каждый диалог — мини-драма с завязкой и эмоциональными поворотами.
Многораундовое взаимодействие + отслеживание эмоций
Агент ведет многораундовый диалог с моделью, анализируя:
- 1. Свои мысли и чувства («Он утешает, но не понимает моей боли…»).
- 2. Изменения эмоций (например, от -5 до +10 после поддержки).
- 3. Решение, как ответить дальше («Покажу, что мне это не нравится»).
Итоговая оценка модели основана на «эмоциональной траектории» и «внутренних монологах» агента. Ключевой показатель — уровень настроения после диалога.
GPT-4o — самый «человечный» AI
Команда SAGE протестировала 18 моделей, включая GPT-4o, DeepSeek-R1, Claude3.7, Gemini2.5 и другие, в 100 диалогах с разными скрытыми темами. Результаты:
- GPT-4o-Latest занял первое место в рейтинге SAGE.
- Gemini2.5-Pro, лидер Arena, оказался лишь на четвертом месте в SAGE.
- Разница между Arena и SAGE показывает, что последняя оценивает «социальный интеллект», который не фиксируют стандартные тесты.
Эксперимент 1: SAGE и психология — высокая корреляция
Для проверки SAGE исследователи сопоставили его оценки с психологической методикой Barrett–Lennard Relationship Inventory (BLRI). Оказалось, что изменения «эмоциональных значений» SAGE сильно коррелируют (r = 0.818) с показателями BLRI (эмпатия, эмоциональная согласованность). Это подтверждает, что SAGE действительно отражает качество эмпатии в диалогах.
Эксперимент 2: Качество диалога — тон, ритм, внимание
SAGE оценивает диалоги по трем критериям:
- Natural Flow: естественность речи.
- Attentiveness: внимательность к контексту.
- Depth of Connection: глубина эмоционального контакта.
Эти показатели также сильно коррелируют (r = 0.788) с оценками SAGE.
Эксперимент 3: Эффективность токенов — меньше слов, больше смысла
SAGE измерил, сколько токенов тратит модель на повышение настроения собеседника. Выяснилось:
- GPT-4o-Latest лидирует по эффективности (79.9 баллов при ~3.3K токенов).
- Модели вроде o3 (13.3K токенов) и Gemini2.5-Flash-Think (9.0K токенов) тратят больше слов без улучшения результата.
Вывод: краткость + эмоциональная точность — ключ к успеху.
Эксперимент 4: «Стилевые координаты» AI — портреты моделей
Исследователи построили график, где:
- Ось X: стиль взаимодействия (шаблонный ↔ креативный).
- Ось Y: направленность ответов (решение проблем ↔ эмпатия).
Результаты:
- GPT-4o-Latest и GPT-4.1 — «эмпатичные и предсказуемые».
- DeepSeek-R1 — «креативный партнер», предлагающий нестандартные решения.
- Gemini2.0-Flash и o3 — «рациональные специалисты», но без глубины эмоций.
- Идеальный AI — «креативный + глубоко эмпатичный» — пока не создан.
Ссылка на исследование:
https://www.arxiv.org/abs/2505.02847
GitHub:
https://github.com/Tencent/digitalhuman/tree/main/SAGE