WorldDirector: управляемые видео-симуляторы мира с памятью движущихся объектов

Исследователи представили WorldDirector, фреймворк для синтеза управляемых видео-симуляторов мира. Система решает давнюю проблему в видео-синтезе: существующие видеомодели смешивают физическую динамику с визуальной генерацией и нуждаются в постоянном потоке изображений для поддержания движения.
WorldDirector разделяет эти процессы. Сначала языковая модель координирует 3D-траектории объектов и движения камеры, создавая логический план сцены. Затем эти траектории используются как управляющие сигналы для видеогенерации. Такой подход обеспечивает строгую физическую логику и стабильность визуального представления.
Ключевое достижение: система сохраняет визуальную идентичность динамических объектов даже когда те выходят из кадра на длительные периоды и затем возвращаются. Это достигается благодаря явному хранению памяти о состоянии объектов, а не постоянному визуальному отслеживанию.
Экспериментальные результаты показывают, что WorldDirector позволяет синтезировать сложные и протяженные события с беспрецедентной управляемостью и правильной памятью о движущихся объектах.
Ключевые факты
- Система явно разделяет координацию движения от визуальной генерации, обеспечивая больший контроль над видео-синтезом
- Использует LLM для планирования 3D-траекторий и движений камеры как управляющих сигналов
- Запоминает визуальную идентичность объектов даже после длительного отсутствия из кадра
- Поддерживает синтез сложных и длительных видео-последовательностей со строгой физической логикой
- Проект имеет полную документацию и доступен для экспериментирования через Hugging Face
Почему это важно
В синтезе видео это значительный прорыв. Текущие видеомодели либо теряют объекты из памяти, либо деградируют при длительных последовательностях. WorldDirector решает обе проблемы, разделяя управление логикой движения от визуальной генерации, что позволяет создавать согласованные и полностью управляемые видео-последовательности без потери консистентности.
Кому это важно
Разработчикам видеогенерации, компаниям, работающим над синтезом видео и симуляциями, исследователям ИИ. Потенциально полезно для киноиндустрии, компьютерной графики, видеоигр, виртуальных миров и научных симуляций.
Как это применить
Фреймворк можно использовать для генерации видео-контента без съемок, прототипирования сценариев, моделирования физических сцен. Применяется в задачах, где требуется точная физическая логика: научные демонстрации, симуляции движения, 3D-контент, анимация сложных взаимодействий.
Можно ли доверять
Исследование опубликовано на Hugging Face, авторитетной платформе в ИИ-сообществе. На странице проекта размещена ссылка на полный проект (https://worlddirector.github.io/), позволяющая проверить результаты, методологию и визуальные примеры работы системы.
Риски и подводные камни
Как большинство видеомоделей, система требует значительных вычислительных ресурсов. Остаются вопросы о производительности на очень длинных последовательностях и нестандартных сценариях. Требуется дальнейшая работа по масштабированию и применению в реальных производственных сценариях.
«В отличие от существующих видеомоделей, которые смешивают физическую динамику с визуальной генерацией и зависят от непрерывного потока изображений для поддержания движения, наша система явно разделяет координацию движения от визуальной генерации.»
— Hanlin Wang, WorldDirector