Долгое время казалось, что мультимодальные модели уже почти догнали людей в понимании видео. На многих бенчмарках цифры росли так быстро, что создавалось впечатление: задача почти решена. Но новая работа команды Нанкинского университета под руководством Фу Чаоюя показывает, что это ощущение было преждевременным.
Исследователи представили Video-MME-v2 — обновлённый бенчмарк для оценки понимания видео, который устроен заметно жёстче и ближе к реальному человеческому восприятию. И результат оказался неудобным для всей индустрии: человек получил 90,7 балла, а лучший коммерческий ИИ — только 49,4.
Разрыв огромный. И он показывает, что привычные метрики оценки видеомоделей всё чаще дают слишком оптимистичную картину.
Проблема современных тестов в том, что они слишком хорошо «научились» измерять не то, что действительно важно. Модели быстро растут в процентах точности, но это не всегда означает, что они действительно понимают происходящее в видео. Часто они:
угадывают по текстовым подсказкам;
запоминают шаблоны;
правильно отвечают на отдельные вопросы, но теряются в более сложной логике;
показывают хорошие результаты на простых задачах, но ломаются на многошаговом понимании.
Именно поэтому команда Video-MME пришла к выводу: классический подход к оценке уже начал «искажать» реальную картину.
Video-MME-v2 — это новый бенчмарк для оценки следующего поколения видео-моделей. На его создание ушёл почти год, а в подготовке участвовали:
12 разметчиков,
50 независимых проверяющих,
более 3300 человеко-часов ручной работы.
Всего в датасет вошли:
800 видео,
3200 вопросов.
Главная идея бенчмарка — не просто проверить, может ли модель ответить на отдельный вопрос, а понять, насколько стабильно и последовательно она действительно понимает видео.
Video-MME-v2 строится как иерархия из трёх уровней.
1. Извлечение и агрегация информации
На этом уровне проверяется, может ли модель:
находить ключевые факты;
собирать информацию из разных кадров;
связывать визуальные и текстовые сигналы.
Это базовый уровень: модель должна хотя бы «видеть» важные детали.
2. Понимание времени и последовательности
Здесь уже важно не просто распознать объекты, а понять:
что произошло раньше, а что позже;
как меняется состояние сцены;
почему событие произошло именно в такой последовательности.
То есть речь идёт уже о временной логике, а не о статике.
3. Сложное рассуждение
Это самая трудная категория.Здесь модель должна:
делать выводы;
объяснять причинно-следственные связи;
понимать динамические сцены;
решать задачи, близкие к реальному человеческому пониманию ситуации.
Именно этот уровень сильнее всего показывает разрыв между AI и человеком.
Главная инновация Video-MME-v2 — не в количестве вопросов, а в способе оценки.
Обычные бенчмарки считают каждую задачу отдельно: если модель ответила правильно — плюс один балл. Но это плохо отражает реальную способность понимать видео.
Video-MME-v2 использует групповую нелинейную оценку. То есть модель оценивается не по случайным отдельным попаданиям, а по тому, насколько устойчиво она решает набор связанных задач.
Если модель действительно понимает сцену, она должна:
отвечать последовательно;
удерживать один и тот же уровень понимания в серии вопросов;
не сыпаться на переформулировках.
Поэтому в новом бенчмарке:
для группы вопросов по одной способности используется не линейное усреднение, а поощрение за устойчивость;
для логических цепочек применяется режим «первой ошибки»: если модель ошиблась на одном этапе, дальнейшие правильные ответы уже не спасают результат.
Это делает оценку гораздо строже — и гораздо ближе к реальному качеству понимания.
sms_systems@inbox.ru
+ 7 (985) 982-70-55