Искусственный интеллект как эмоциональный эксперт: GPT-4o возглавил рейтинг социального интеллекта AI

 

Оценка интеллекта искусственного интеллекта теперь выходит за рамки простого выполнения задач. По мере того как крупные модели демонстрируют прогресс в «IQ», способность «понимать людей» и «чувствовать их настроение» становится новым требованием в практическом применении.

Как же измерить «эмоциональный интеллект» (EQ) AI? Команда Tencent Hybrid AI Digital Human разработала автоматизированную систему оценки под названием SAGE (Sentient Agent as a Judge), которая отвечает на два ключевых вопроса:

  • Как оценить, действительно ли AI обладает эмпатией? — Может ли он понять мои эмоции, уловить скрытый смысл и поддержать в трудный момент?
  • Как определить, способен ли AI стать «идеальным собеседником»? — «Какое настроение у нас после разговора с ним?»

Согласно этой системе, последняя версия GPT-4o показала наилучшие результаты, за ней следуют GPT-4.1 и серия Gemini-2.5.

SAGE: AI оценивает AI, имитируя эмоции человека

SAGE не просто анализирует ответы модели, а создает «чувствующего» AI-агента, который имитирует человеческую психологию. Этот агент участвует в диалоге, отслеживает изменения эмоций, фиксирует внутренние монологи и оценивает качество общения.

Ключевые особенности SAGE:

  • Sentient Agent (Чувствующий агент) — имитирует человека с эмоциями, мыслями и скрытыми мотивами.
  • as a Judge (Как судья) — не просто общается, но и оценивает эффект от диалога на основе собственных «эмоциональных изменений».

В процессе диалога агент анализирует:

  • «Чувствую ли я искреннюю заботу в ответах?»
  • «Тронул ли меня этот ответ?»
  • «Хочу ли я продолжить разговор или закончить его?»

Кроме того, агент фиксирует свои «внутренние монологи»:

  • «Хотя он поддержал меня, но не понял сути проблемы — я чувствую пустоту.»
  • «Он выслушал, но утешил слишком поверхностно.»
  • «Мне нужно сочувствие, а не советы…»

SAGE: У каждого агента есть «жизненный сценарий»

Каждый агент в SAGE обладает:

  • Характеристиками: возраст, профессия, интересы, манера речи.
  • Темами диалогов: от «проблем с учебой» до «как красиво расстаться».
  • Скрытыми намерениями: хочет ли человек выговориться или получить совет.
  • Историей: каждый диалог — мини-драма с завязкой и эмоциональными поворотами.

Многораундовое взаимодействие + отслеживание эмоций

Агент ведет многораундовый диалог с моделью, анализируя:

  • 1. Свои мысли и чувства («Он утешает, но не понимает моей боли…»).
  • 2. Изменения эмоций (например, от -5 до +10 после поддержки).
  • 3. Решение, как ответить дальше («Покажу, что мне это не нравится»).

Итоговая оценка модели основана на «эмоциональной траектории» и «внутренних монологах» агента. Ключевой показатель — уровень настроения после диалога.

GPT-4o — самый «человечный» AI

Команда SAGE протестировала 18 моделей, включая GPT-4o, DeepSeek-R1, Claude3.7, Gemini2.5 и другие, в 100 диалогах с разными скрытыми темами. Результаты:

  • GPT-4o-Latest занял первое место в рейтинге SAGE.
  • Gemini2.5-Pro, лидер Arena, оказался лишь на четвертом месте в SAGE.
  • Разница между Arena и SAGE показывает, что последняя оценивает «социальный интеллект», который не фиксируют стандартные тесты.

Эксперимент 1: SAGE и психология — высокая корреляция

Для проверки SAGE исследователи сопоставили его оценки с психологической методикой Barrett–Lennard Relationship Inventory (BLRI). Оказалось, что изменения «эмоциональных значений» SAGE сильно коррелируют (r = 0.818) с показателями BLRI (эмпатия, эмоциональная согласованность). Это подтверждает, что SAGE действительно отражает качество эмпатии в диалогах.

Эксперимент 2: Качество диалога — тон, ритм, внимание

SAGE оценивает диалоги по трем критериям:

  • Natural Flow: естественность речи.
  • Attentiveness: внимательность к контексту.
  • Depth of Connection: глубина эмоционального контакта.

Эти показатели также сильно коррелируют (r = 0.788) с оценками SAGE.

Эксперимент 3: Эффективность токенов — меньше слов, больше смысла

SAGE измерил, сколько токенов тратит модель на повышение настроения собеседника. Выяснилось:

  • GPT-4o-Latest лидирует по эффективности (79.9 баллов при ~3.3K токенов).
  • Модели вроде o3 (13.3K токенов) и Gemini2.5-Flash-Think (9.0K токенов) тратят больше слов без улучшения результата.

Вывод: краткость + эмоциональная точность — ключ к успеху.

Эксперимент 4: «Стилевые координаты» AI — портреты моделей

Исследователи построили график, где:

  • Ось X: стиль взаимодействия (шаблонный ↔ креативный).
  • Ось Y: направленность ответов (решение проблем ↔ эмпатия).

Результаты:

  • GPT-4o-Latest и GPT-4.1 — «эмпатичные и предсказуемые».
  • DeepSeek-R1 — «креативный партнер», предлагающий нестандартные решения.
  • Gemini2.0-Flash и o3 — «рациональные специалисты», но без глубины эмоций.
  • Идеальный AI — «креативный + глубоко эмпатичный» — пока не создан.

Ссылка на исследование:

https://www.arxiv.org/abs/2505.02847

GitHub:

https://github.com/Tencent/digitalhuman/tree/main/SAGE

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!