Команда Янна Лекуна представила новую версию мировой модели — LeWorldModel (LeWM). Главное в ней то, что она очень простая в обучении, быстро работает и может запускаться даже на одной GPU.
Подход основан на архитектуре JEPA: модель берет изображение, сжимает его в компактные признаки и затем по текущему состоянию и действию предсказывает, что произойдет дальше.
Авторы специально упростили обучение — вместо сложных трюков и громоздких схем они использовали всего два основных компонента: энкодер и предиктор, а также простой регуляризатор, который не дает модели “схлопнуться” в бесполезные одинаковые ответы.
Результаты оказались впечатляющими. LeWM показала сильные результаты в задачах управления и робототехники — от перемещения объектов до навигации и работы манипулятора. В некоторых сценариях она обгоняет классические end-to-end методы, а в других почти не уступает более тяжелым решениям на базе крупных предобученных моделей.
Особенно выделяется скорость: планирование у LeWM занимает около 1 секунды, что примерно в 48 раз быстрее некоторых конкурирующих подходов. При этом модель остается компактной — у нее всего 15 миллионов параметров, а обучение и тесты проводились на одной NVIDIA L40S.
Еще один важный момент: модель действительно учится понимать структуру мира. По ее внутренним признакам можно достаточно точно восстановить положение объектов, угол поворота и другие физические параметры.
Более того, LeWM умеет замечать ситуации, которые нарушают законы физики, например внезапное “телепортирование” объекта.
Итог простой: LeWM показывает, что мировые модели могут быть не только мощными, но и легкими, быстрыми и практичными. Это делает их особенно интересными для робототехники и интеллектуальных систем, которым нужно быстро понимать происходящее и действовать в реальном времени.
sms_systems@inbox.ru
+ 7 (985) 982-70-55