Оценка интеллекта искусственного интеллекта теперь выходит за рамки простого выполнения задач. По мере того как крупные модели демонстрируют прогресс в «IQ», способность «понимать людей» и «чувствовать их настроение» становится новым требованием в практическом применении. Как же измерить «эмоциональный интеллект» (EQ) AI? Команда Tencent Hybrid AI Digital Human разработала автоматизированную систему оценки под названием SAGE (Sentient Agent as a Judge), которая отвечает на два ключевых вопроса: Как оценить, действительно ли AI обладает эмпатией? — Может ли он понять мои эмоции, уловить скрытый смысл и поддержать в трудный момент? Как определить, способен ли AI стать «идеальным собеседником»? — «Какое настроение у нас после разговора с ним?» Согласно этой системе, последняя версия GPT-4o показала наилучшие результаты, за ней следуют GPT-4.1 и серия Gemini-2.5. SAGE: AI оценивает AI, имитируя эмоции человека SAGE не просто анализирует ответы модели, а создает «чувствующего» AI-агента, который имитирует человеческую психологию. Этот агент участвует в диалоге, отслеживает изменения эмоций, фиксирует внутренние монологи и оценивает качество общения. Ключевые особенности SAGE: Sentient Agent (Чувствующий агент) — имитирует человека с эмоциями, мыслями и скрытыми мотивами. as a Judge (Как судья) — не просто общается, но и оценивает эффект от диалога на основе собственных «эмоциональных изменений». В процессе диалога агент анализирует: «Чувствую ли я искреннюю заботу в ответах?» «Тронул ли меня этот ответ?» «Хочу ли я продолжить разговор или закончить его?» Кроме того, агент фиксирует свои «внутренние монологи»: «Хотя он поддержал меня, но не понял сути проблемы — я чувствую пустоту.» «Он выслушал, но утешил слишком поверхностно.» «Мне нужно сочувствие, а не советы…» SAGE: У каждого агента есть «жизненный сценарий» Каждый агент в SAGE обладает: Характеристиками: возраст, профессия, интересы, манера речи. Темами диалогов: от «проблем с учебой» до «как красиво расстаться». Скрытыми намерениями: хочет ли человек выговориться или получить совет. Историей: каждый диалог — мини-драма с завязкой и эмоциональными поворотами. Многораундовое взаимодействие + отслеживание эмоций Агент ведет многораундовый диалог с моделью, анализируя: 1. Свои мысли и чувства («Он утешает, но не понимает моей боли…»). 2. Изменения эмоций (например, от -5 до +10 после поддержки). 3. Решение, как ответить дальше («Покажу, что мне это не нравится»). Итоговая оценка модели основана на «эмоциональной траектории» и «внутренних монологах» агента. Ключевой показатель — уровень настроения после диалога. GPT-4o — самый «человечный» AI Команда SAGE протестировала 18 моделей, включая GPT-4o, DeepSeek-R1, Claude3.7, Gemini2.5 и другие, в 100 диалогах с разными скрытыми темами. Результаты: GPT-4o-Latest занял первое место в рейтинге SAGE. Gemini2.5-Pro, лидер Arena, оказался лишь на четвертом месте в SAGE. Разница между Arena и SAGE показывает, что последняя оценивает «социальный интеллект», который не фиксируют стандартные тесты. Эксперимент 1: SAGE и психология — высокая корреляция Для проверки SAGE исследователи сопоставили его оценки с психологической методикой Barrett–Lennard Relationship Inventory (BLRI). Оказалось, что изменения «эмоциональных значений» SAGE сильно коррелируют (r = 0.818) с показателями BLRI (эмпатия, эмоциональная согласованность). Это подтверждает, что SAGE действительно отражает качество эмпатии в диалогах. Эксперимент 2: Качество диалога — тон, ритм, внимание SAGE оценивает диалоги по трем критериям: Natural Flow: естественность речи. Attentiveness: внимательность к контексту. Depth of Connection: глубина эмоционального контакта. Эти показатели также сильно коррелируют (r = 0.788) с оценками SAGE. Эксперимент 3: Эффективность токенов — меньше слов, больше смысла SAGE измерил, сколько токенов тратит модель на повышение настроения собеседника. Выяснилось: GPT-4o-Latest лидирует по эффективности (79.9 баллов при ~3.3K токенов). Модели вроде o3 (13.3K токенов) и Gemini2.5-Flash-Think (9.0K токенов) тратят больше слов без улучшения результата. Вывод: краткость + эмоциональная точность — ключ к успеху. Эксперимент 4: «Стилевые координаты» AI — портреты моделей Исследователи построили график, где: Ось X: стиль взаимодействия (шаблонный ↔ креативный). Ось Y: направленность ответов (решение проблем ↔ эмпатия). Результаты: GPT-4o-Latest и GPT-4.1 — «эмпатичные и предсказуемые». DeepSeek-R1 — «креативный партнер», предлагающий нестандартные решения. Gemini2.0-Flash и o3 — «рациональные специалисты», но без глубины эмоций. Идеальный AI — «креативный + глубоко эмпатичный» — пока не создан. Ссылка на исследование: https://www.arxiv.org/abs/2505.02847 GitHub: https://github.com/Tencent/digitalhuman/tree/main/SAGE