PhysisForcing: когда видеомодели учатся физике манипуляции роботов

Видеогенерирующие модели стали перспективным подходом для симуляции движений робототехники (world simulation). Однако существующие видеогенераторы, как универсальные, так и специализированные на рободанных, часто выдают физически невозможные манипуляции: разрывы в траекториях движения, несогласованное взаимодействие робота с объектами. Это снижает надёжность таких моделей как симуляторов реального мира.

Пейвен Чжан (Peiwen Zhang) и авторы выявили две основные причины физической нестабильности: деформация движущихся объектов и неправдоподобные пространственно-временные связи между взаимодействующими элементами, особенно при контакте.

В ответ предложена PhysisForcing, масштабируемый фреймворк обучения, который укрепляет физическую последовательность двумя ходами:

Pixel-level trajectory alignment loss, пиксельный уровень. Суперсвизия DiT-фич (диффузионные трансформеры) опирается на опорные траектории точек из эталонных видео.
Semantic-level relational alignment loss, семантический уровень. DiT-фичи выравниваются с отношениями между регионами, извлекаемыми из замороженного видеоэнкодера.

Результаты на трёх бенчмарках (R-Bench, PAI-Bench, EZS-Bench): PhysisForcing улучшает видеогенерацию Wan2.2-I2V-A14B на 22,3% и Cosmos3-Nano на 9,2% по сравнению с базовыми моделями (7,1% и 3,7% над vanilla-тюнингом). В закрытом контуре WorldArena (реальное взаимодействие робота с окружением) успешность задач выросла с 16% до 24%, и производная политика робота тоже улучшилась.

Ключевые факты

Видеомодели часто нарушают физические законы при симуляции манипуляции: разрывы траекторий, неправдоподобные контакты объектов
PhysisForcing использует двухуровневый loss (пиксельный + семантический) для супервизии физически реалистичных движений
На R-Bench улучшение на 22,3% для Wan2.2 и 9,2% для Cosmos3-Nano по сравнению с базовыми моделями
В закрытом контуре (real-world planning) успешность задач выросла с 16% до 24%, показав, что физически согласованные видеомодели лучше работают с планировщиками

Почему это важно

Видеогенераторы стали удобным способом предсказывать, как развернутся события в физическом мире, это основа для робоботики и симуляции. Но если модель нарушает физику (пропускает моменты контакта, деформирует объекты нереалистично), робот на её основе ошибается: он опирается на неправильный прогноз. PhysisForcing решает именно эту проблему: делает видеопрогнозы физически честными, так что робот может на них полагаться.

Кому это важно

Разработчикам робототехники и компаниям, которые строят манипуляторы для сборки, логистики, сервис-бизнеса. Исследователям в области embodied AI и world models. Любому, кто хочет использовать видеосимуляцию вместо дорогих физических симуляторов (Gazebo, PyBullet), PhysisForcing делает это безопаснее.

Как это применить

Фреймворк встраивается прямо в процесс обучения видеомодели DiT (Diffusion Transformer). На практике: возьмите видеогенератор (Wan2.2-I2V или Cosmos3), добавьте лосс-функции PhysisForcing с опорными траекториями из реальных или симулированных видео-примеров, и переобучайте. Результат: модель генерирует более реалистичные манипуляции, которые робот может использовать как world model для планирования действий.

Можно ли доверять

Результаты проверены на трёх публичных бенчмарках (R-Bench, PAI-Bench, EZS-Bench) с регулярной схемой оценки. Авторы сравнивают не только с базовыми моделями, но и ванильным файнтюнингом, что говорит о честности. Улучшения воспроизводятся на разных архитектурах (Wan и Cosmos). Самый убедительный результат: в closed-loop плане рост с 16% до 24% показывает, что модель действительно помогает робо-планировщику в реальных сценариях, а не просто выглядит лучше на пиксельном уровне.

Риски и подводные камни

PhysisForcing требует опорных траекторий точек из эталонных видео, нужна хорошая разметка или отслеживание координат. Если данные грязные, лосс будет неправильно направлять обучение. Во-вторых, фреймворк ориентирован на манипуляцию, и неясно, как хорошо он обобщается на другие сценарии (локомоция, сложные многообъектные взаимодействия). В-третьих, закрытый контур, это всё ещё лаба; 24% успешности робота, это начало, а не гарантия. Потребуется дополнительное тестирование на реальных системах.