Новый бенчмарк Video-MME-v2 показал огромный разрыв между AI и человеком

Новый бенчмарк Video-MME-v2 показал огромный разрыв между AI и человеком
 

Долгое время казалось, что мультимодальные модели уже почти догнали людей в понимании видео. На многих бенчмарках цифры росли так быстро, что создавалось впечатление: задача почти решена. Но новая работа команды Нанкинского университета под руководством Фу Чаоюя показывает, что это ощущение было преждевременным.

Исследователи представили Video-MME-v2 — обновлённый бенчмарк для оценки понимания видео, который устроен заметно жёстче и ближе к реальному человеческому восприятию. И результат оказался неудобным для всей индустрии: человек получил 90,7 балла, а лучший коммерческий ИИ — только 49,4.

Разрыв огромный. И он показывает, что привычные метрики оценки видеомоделей всё чаще дают слишком оптимистичную картину.

Проблема современных тестов в том, что они слишком хорошо «научились» измерять не то, что действительно важно. Модели быстро растут в процентах точности, но это не всегда означает, что они действительно понимают происходящее в видео. Часто они:

угадывают по текстовым подсказкам;

запоминают шаблоны;

правильно отвечают на отдельные вопросы, но теряются в более сложной логике;

показывают хорошие результаты на простых задачах, но ломаются на многошаговом понимании.

Именно поэтому команда Video-MME пришла к выводу: классический подход к оценке уже начал «искажать» реальную картину.

Video-MME-v2 — это новый бенчмарк для оценки следующего поколения видео-моделей. На его создание ушёл почти год, а в подготовке участвовали:

12 разметчиков,

50 независимых проверяющих,

более 3300 человеко-часов ручной работы.

Всего в датасет вошли:

800 видео,

3200 вопросов.

Главная идея бенчмарка — не просто проверить, может ли модель ответить на отдельный вопрос, а понять, насколько стабильно и последовательно она действительно понимает видео.

Video-MME-v2 строится как иерархия из трёх уровней.

1. Извлечение и агрегация информации

На этом уровне проверяется, может ли модель:

находить ключевые факты;

собирать информацию из разных кадров;

связывать визуальные и текстовые сигналы.

Это базовый уровень: модель должна хотя бы «видеть» важные детали.

2. Понимание времени и последовательности

Здесь уже важно не просто распознать объекты, а понять:

что произошло раньше, а что позже;

как меняется состояние сцены;

почему событие произошло именно в такой последовательности.

То есть речь идёт уже о временной логике, а не о статике.

3. Сложное рассуждение

Это самая трудная категория.Здесь модель должна:

делать выводы;

объяснять причинно-следственные связи;

понимать динамические сцены;

решать задачи, близкие к реальному человеческому пониманию ситуации.

Именно этот уровень сильнее всего показывает разрыв между AI и человеком.

Главная инновация Video-MME-v2 — не в количестве вопросов, а в способе оценки.

Обычные бенчмарки считают каждую задачу отдельно: если модель ответила правильно — плюс один балл. Но это плохо отражает реальную способность понимать видео.

Video-MME-v2 использует групповую нелинейную оценку. То есть модель оценивается не по случайным отдельным попаданиям, а по тому, насколько устойчиво она решает набор связанных задач.

Если модель действительно понимает сцену, она должна:

отвечать последовательно;

удерживать один и тот же уровень понимания в серии вопросов;

не сыпаться на переформулировках.

Поэтому в новом бенчмарке:

для группы вопросов по одной способности используется не линейное усреднение, а поощрение за устойчивость;

для логических цепочек применяется режим «первой ошибки»: если модель ошиблась на одном этапе, дальнейшие правильные ответы уже не спасают результат.

Это делает оценку гораздо строже — и гораздо ближе к реальному качеству понимания.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!