Fast LeWorldModel: параллельное предсказание для визуального планирования

Исследователи Yuntian Gao и коллеги представили Fast LeWorldModel (Fast-LeWM), улучшенную версию LeWorldModel, архитектуры для визуального планирования на основе совместного встроенного предсказания (JEPA). Проблема оригинального LeWorldModel заключалась в том, что он оценивал последовательности действий, повторно применяя локальный одношаговый переход в скрытом пространстве (autoregressive rollout). Это делает планирование вычислительно дорогостоящим и приводит к накоплению ошибок предсказания по мере удлинения горизонта планирования.

Fast-LeWM решает эту проблему, заменяя повторяющиеся локальные переходы на предсказание на основе префиксов действий. Вместо пошагового прохода через все промежуточные состояния модель кодирует префиксы последовательности действий и предсказывает будущие скрытые состояния сразу же после выполнения этих префиксов, всё это параллельно. Такой подход делает префиксы основной единицей предсказания, позволяя модели напрямую моделировать накопленные эффекты действий на разных горизонтах, а не только подгонять одношаговые переходы.

Во время планирования модель может использовать последний токен префикса из закодированной последовательности действий, чтобы оценить будущее скрытое состояние без явного прохода через все промежуточные воображаемые состояния. Тестирование на нескольких задачах показало, что Fast-LeWM улучшает среднюю успешность относительно оригинального LeWorldModel и существенно сокращает время планирования. При этом открытая потеря в скрытом пространстве растёт медленнее по мере увеличения горизонта откатки.

Ключевые факты

Fast-LeWM заменяет авторегрессивный перебор на параллельное предсказание префиксов действий, избегая повторных одношаговых переходов
Модель напрямую предсказывает скрытые состояния после целых префиксов действий, снижая накопление ошибок предсказания
Параллельная архитектура существенно сокращает время планирования при улучшении качества (успешности задач)
Ошибка предсказания растёт медленнее на длинных горизонтах, чем в оригинальном LeWorldModel

Почему это важно

Визуальные модели мира, критическая основа для агентов, которые учатся планировать сложные действия в реальных сценах. LeWorldModel был обещающим прорывом на основе JEPA (без восстановления изображений), но его авторегрессивный подход был медленным и накапливал ошибки. Fast-LeWM напрямую решает эти два узких места: ускоряет планирование в несколько раз и делает предсказания устойчивее на дальних горизонтах. Это открывает дорогу к более практичным и надёжным визуальным агентам.

Кому это важно

Исследователям в области визуального обучения с подкреплением, разработчикам робототехники и компаниям, разрабатывающим визуальные системы планирования. Также релевантно для фундаментальных исследований в области JEPA и моделей мира без явного восстановления визуальной информации.

Как это применить

Fast-LeWM можно применять в тех же задачах, что и LeWorldModel: визуальное планирование для робототехники, взаимодействие с видеоимитирующими окружениями, симуляции сценариев. Благодаря ускорению, система может работать в реальном времени или близко к нему, что делает её более применимой для реальных роботов и интерактивных систем, нежели оригинальный LeWorldModel.

Можно ли доверять

Результаты получены через прямое экспериментальное сравнение с LeWorldModel на несколько задачах (детали в самой статье). Авторы демонстрируют как улучшения в успешности, так и ускорение планирования и более медленный рост потерь предсказания. Это вполне обоснованные инженерные улучшения без непроверимых теоретических претензий.

Риски и подводные камни

Неясно, как хорошо Fast-LeWM обобщается на задачи, сильно отличающиеся от тестовых (требуется дополнительное исследование). Параллельное предсказание префиксов может потребовать существенно больше памяти GPU чем авторегрессивный перебор, особенно для очень длинных последовательностей действий. Неизвестна также чувствительность модели к размеру контекста и качеству обучающих данных.