Лаборатория NVIDIA GEAR Lab представила проект DreamGen, позволяющий роботам обучаться в «цифровых снах». Эта технология обеспечивает нулевое обобщение поведения и нулевое обобщение среды без предварительных данных. В ближайшие недели компания планирует открыть исходный код проекта.
Традиционные методы обучения роботов требуют сбора больших объемов данных вручную, что затратно по времени и ресурсам. Синтетические данные из симуляторов часто имеют проблему переноса (sim2real), ограничивающую применение в реальных условиях.
Директор по робототехнике NVIDIA и ведущий ученый Джим Фан объяснил, что DreamGen использует видео-мировые модели типа Sora и Veo для создания реалистичных тренировочных данных. Это позволяет сразу переходить от реального к реальному (real2real), применяя технологию к разным типам роботов.
1. Настройка видео-мировой модели: адаптация под физические ограничения робота на основе траекторий, заданных оператором.
2. Генерация сценариев: модель создает видео выполнения задач по начальным кадрам и текстовым инструкциям. В симуляторах случайно изменяют параметры среды, в реальных условиях — положение объектов.
3. Извлечение данных: специальные модели преобразуют видео в последовательности «псевдо-действий» (нейротраектории).
4. Обучение: на основе нейротраекторий тренируют визуально-моторную стратегию робота, комбинируя с реальными данными или используя только синтетические.
Робот, обученный только «захвату-перемещению», освоил 22 новых действия (наливание, забивание, глажение и др.) в 10 неизвестных средах. Успешность выполнения новых задач выросла с 11.2% до 43.2%, в новых средах — с 0% до 28.5%.
В симуляторе RoboCasa объем нейротраекторий превысил человеческие демонстрации в 333 раза. На платформах Fourier GR1, Franka Emika и SO-100 значительно повысилась успешность сложных задач.
Команда также разработала оценочный бенчмарк DreamGen Bench, анализирующий соответствие инструкциям и физическую достоверность генерируемых видео.
DreamGen открывает новую эру в обучении роботов — от ручного сбора данных к генерации через мировые модели. Технология не только улучшает существующие навыки, но и позволяет осваивать новые действия в незнакомых условиях.
Ссылка на исследование: https://arxiv.org/abs/2505.12705
Страница проекта: https://research.nvidia.com/labs/gear/dreamgen/
sms_systems@inbox.ru
+ 7 (985) 982-70-55