Как сделать длинное ИИ-видео без его деградации

Как сделать длинное ИИ-видео без его деградации
 

Группа исследователей из УЦК (USTC), CUHK, Tongji, Tencent Hunyuan и Anhui Digital Security Lab представила простую, но эффектную идею для устранения одной из главных проблем автрорегресcивной (AR) генерации длинных видео: причиной накапливающегося дрейфа оказались «слишком чистые» предыдущие кадры.

Решение — заставить все фреймы разделять один уровень шума и применить иерархическую денойзинговую стратегию. Итог — минуты и даже часы непрерывного видео без деградации.

ARдиффузионные модели удобны для потоковой генерации (streaming), но при переходе к длительным последовательностям страдают от накапливающихся ошибок: чем дальше по времени, тем сильнее дрейф и разрушение картинки.

Традиционная практика — дождаться полного денойзинга предыдущего блока и подавать «чистый» кадр как контекст для следующего блока. Исследователи показали, что это именно та «ловушка чистоты», изза которой микроошибки становятся «истиной» для модели и затем экспоненциально растут через последовательные шаги.

Команда сравнила поведение с двунаправленной (bidirectional) диффузией, где кадры денойзятся одновременно и разделяют один шумовой уровень — и обнаружила, что это естественно сохраняет глобальную согласованность. Перенос этой идеи в причинноавторегресcивную схему привёл к HiAR — Hierarchical Autoregressive Denoising.

Что такое HiAR и как оно работает

Вместо строгой последовательной генерации «блок за блоком после полного денойзинга» HiAR выполняет причинную генерацию для всех блоков на каждом шаге денойзинга. Другими словами, контекст и генерируемый блок всегда имеют одинаковый уровень шума.

Такая реконфигурация снижает передачу и усиление ошибок между блоками и одновременно открывает возможность пайплайновой параллельной инференции.

Архитектурно это представлено как иерархический денойзинг, который использует коарсtoфайн динамику и координирует зависимости между фреймами.

При дистилляции ARмоделей часто возникает «курс на низкое движение» — модель снижает потери, генерируя почти статичные кадры. Чтобы сохранить динамику и разнообразие движений, команда ввела ForwardKL регуляризатор, вычисляемый в режиме двунаправленного внимания. Наблюдение оказалось важным: полученная причинная модель сохраняет сильные элементы двунаправленного внимания, и регуляризация помогает удержать правдоподобную динамику без вреда для исходной дистилляции.

Результаты и производительность

На длительном бенчмарке VBench (20s) HiAR показал наилучшие показатели по стабильности: Drift Score снизился до 0.257 — заметное уменьшение дрейфа по сравнению с базами.

По качественным метрикам HiAR также лидирует.

Самое впечатляющее: команда сгенерировала 3часовое непрерывное видео без деградации, обучив модель всего на 5секундных отрезках (с оговорками по семантической и инструкционной согласованности на экстремально длинных отрезках).

Инженерно HiAR обеспечивает ускорение инференса ≈1.8× при 4 шагах денойзинга, достигая пропускной способности ~30 fps и задержки на один чанк ~0.30 с — то есть подход годится и для потоковой генерации в реальном времени.

Ограничения и замечания команды

В текущей версии отсутствуют внешние модули памяти, и дистилляция проводилась на относительно небольшом Wan1.3B моделe, поэтому при экстремально длинных видео могут возникать проблемы с семантической долгосрочной связностью и точным соблюдением инструкций.

Тем не менее сам эффект — существенное снижение визуального дрейфа — остаётся доказанным и открывает путь для дальнейшего улучшения (интеграция памяти, масштабирование моделей и пр.).

Источники и ссылки

Код: https://github.com/Jacky-hate/HiAR

Вебстраница проекта: https://jacky-hate.github.io/HiAR/

HiAR — пример того, как внимательное анализирование причин ошибочной деградации и перенос интуиций из двунаправленных моделей в автрорегресcивную схему дают простое и мощное практическое улучшение. Для генерации действительно длинных и стабильных видео это один из наиболее перспективных путей сегодня.

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55

Если у вас есть инновационная идея, мы будем рады реализовать ее для Вас!

Специалисты нашей кампании и наши разработки для вас!