Группа исследователей из УЦК (USTC), CUHK, Tongji, Tencent Hunyuan и Anhui Digital Security Lab представила простую, но эффектную идею для устранения одной из главных проблем автрорегресcивной (AR) генерации длинных видео: причиной накапливающегося дрейфа оказались «слишком чистые» предыдущие кадры.
Решение — заставить все фреймы разделять один уровень шума и применить иерархическую денойзинговую стратегию. Итог — минуты и даже часы непрерывного видео без деградации.
ARдиффузионные модели удобны для потоковой генерации (streaming), но при переходе к длительным последовательностям страдают от накапливающихся ошибок: чем дальше по времени, тем сильнее дрейф и разрушение картинки.
Традиционная практика — дождаться полного денойзинга предыдущего блока и подавать «чистый» кадр как контекст для следующего блока. Исследователи показали, что это именно та «ловушка чистоты», изза которой микроошибки становятся «истиной» для модели и затем экспоненциально растут через последовательные шаги.
Команда сравнила поведение с двунаправленной (bidirectional) диффузией, где кадры денойзятся одновременно и разделяют один шумовой уровень — и обнаружила, что это естественно сохраняет глобальную согласованность. Перенос этой идеи в причинноавторегресcивную схему привёл к HiAR — Hierarchical Autoregressive Denoising.
Что такое HiAR и как оно работает
Вместо строгой последовательной генерации «блок за блоком после полного денойзинга» HiAR выполняет причинную генерацию для всех блоков на каждом шаге денойзинга. Другими словами, контекст и генерируемый блок всегда имеют одинаковый уровень шума.
Такая реконфигурация снижает передачу и усиление ошибок между блоками и одновременно открывает возможность пайплайновой параллельной инференции.
Архитектурно это представлено как иерархический денойзинг, который использует коарсtoфайн динамику и координирует зависимости между фреймами.
При дистилляции ARмоделей часто возникает «курс на низкое движение» — модель снижает потери, генерируя почти статичные кадры. Чтобы сохранить динамику и разнообразие движений, команда ввела ForwardKL регуляризатор, вычисляемый в режиме двунаправленного внимания. Наблюдение оказалось важным: полученная причинная модель сохраняет сильные элементы двунаправленного внимания, и регуляризация помогает удержать правдоподобную динамику без вреда для исходной дистилляции.
Результаты и производительность
На длительном бенчмарке VBench (20s) HiAR показал наилучшие показатели по стабильности: Drift Score снизился до 0.257 — заметное уменьшение дрейфа по сравнению с базами.
По качественным метрикам HiAR также лидирует.
Самое впечатляющее: команда сгенерировала 3часовое непрерывное видео без деградации, обучив модель всего на 5секундных отрезках (с оговорками по семантической и инструкционной согласованности на экстремально длинных отрезках).
Инженерно HiAR обеспечивает ускорение инференса ≈1.8× при 4 шагах денойзинга, достигая пропускной способности ~30 fps и задержки на один чанк ~0.30 с — то есть подход годится и для потоковой генерации в реальном времени.
Ограничения и замечания команды
В текущей версии отсутствуют внешние модули памяти, и дистилляция проводилась на относительно небольшом Wan1.3B моделe, поэтому при экстремально длинных видео могут возникать проблемы с семантической долгосрочной связностью и точным соблюдением инструкций.
Тем не менее сам эффект — существенное снижение визуального дрейфа — остаётся доказанным и открывает путь для дальнейшего улучшения (интеграция памяти, масштабирование моделей и пр.).
Источники и ссылки
Код: https://github.com/Jacky-hate/HiAR
Вебстраница проекта: https://jacky-hate.github.io/HiAR/
HiAR — пример того, как внимательное анализирование причин ошибочной деградации и перенос интуиций из двунаправленных моделей в автрорегресcивную схему дают простое и мощное практическое улучшение. Для генерации действительно длинных и стабильных видео это один из наиболее перспективных путей сегодня.
sms_systems@inbox.ru
+ 7 (985) 982-70-55