PhysisForcing: когда видеомодели учатся физике манипуляции роботов

Видеогенерирующие модели стали перспективным подходом для симуляции движений робототехники (world simulation). Однако существующие видеогенераторы, как универсальные, так и специализированные на рободанных, часто выдают физически невозможные манипуляции: разрывы в траекториях движения, несогласованное взаимодействие робота с объектами. Это снижает надёжность таких моделей как симуляторов реального мира.
Пейвен Чжан (Peiwen Zhang) и авторы выявили две основные причины физической нестабильности: деформация движущихся объектов и неправдоподобные пространственно-временные связи между взаимодействующими элементами, особенно при контакте.
В ответ предложена PhysisForcing, масштабируемый фреймворк обучения, который укрепляет физическую последовательность двумя ходами:
-
Pixel-level trajectory alignment loss, пиксельный уровень. Суперсвизия DiT-фич (диффузионные трансформеры) опирается на опорные траектории точек из эталонных видео.
-
Semantic-level relational alignment loss, семантический уровень. DiT-фичи выравниваются с отношениями между регионами, извлекаемыми из замороженного видеоэнкодера.
Результаты на трёх бенчмарках (R-Bench, PAI-Bench, EZS-Bench): PhysisForcing улучшает видеогенерацию Wan2.2-I2V-A14B на 22,3% и Cosmos3-Nano на 9,2% по сравнению с базовыми моделями (7,1% и 3,7% над vanilla-тюнингом). В закрытом контуре WorldArena (реальное взаимодействие робота с окружением) успешность задач выросла с 16% до 24%, и производная политика робота тоже улучшилась.
Ключевые факты
- Видеомодели часто нарушают физические законы при симуляции манипуляции: разрывы траекторий, неправдоподобные контакты объектов
- PhysisForcing использует двухуровневый loss (пиксельный + семантический) для супервизии физически реалистичных движений
- На R-Bench улучшение на 22,3% для Wan2.2 и 9,2% для Cosmos3-Nano по сравнению с базовыми моделями
- В закрытом контуре (real-world planning) успешность задач выросла с 16% до 24%, показав, что физически согласованные видеомодели лучше работают с планировщиками
Почему это важно
Видеогенераторы стали удобным способом предсказывать, как развернутся события в физическом мире, это основа для робоботики и симуляции. Но если модель нарушает физику (пропускает моменты контакта, деформирует объекты нереалистично), робот на её основе ошибается: он опирается на неправильный прогноз. PhysisForcing решает именно эту проблему: делает видеопрогнозы физически честными, так что робот может на них полагаться.
Кому это важно
Разработчикам робототехники и компаниям, которые строят манипуляторы для сборки, логистики, сервис-бизнеса. Исследователям в области embodied AI и world models. Любому, кто хочет использовать видеосимуляцию вместо дорогих физических симуляторов (Gazebo, PyBullet), PhysisForcing делает это безопаснее.
Как это применить
Фреймворк встраивается прямо в процесс обучения видеомодели DiT (Diffusion Transformer). На практике: возьмите видеогенератор (Wan2.2-I2V или Cosmos3), добавьте лосс-функции PhysisForcing с опорными траекториями из реальных или симулированных видео-примеров, и переобучайте. Результат: модель генерирует более реалистичные манипуляции, которые робот может использовать как world model для планирования действий.
Можно ли доверять
Результаты проверены на трёх публичных бенчмарках (R-Bench, PAI-Bench, EZS-Bench) с регулярной схемой оценки. Авторы сравнивают не только с базовыми моделями, но и ванильным файнтюнингом, что говорит о честности. Улучшения воспроизводятся на разных архитектурах (Wan и Cosmos). Самый убедительный результат: в closed-loop плане рост с 16% до 24% показывает, что модель действительно помогает робо-планировщику в реальных сценариях, а не просто выглядит лучше на пиксельном уровне.
Риски и подводные камни
PhysisForcing требует опорных траекторий точек из эталонных видео, нужна хорошая разметка или отслеживание координат. Если данные грязные, лосс будет неправильно направлять обучение. Во-вторых, фреймворк ориентирован на манипуляцию, и неясно, как хорошо он обобщается на другие сценарии (локомоция, сложные многообъектные взаимодействия). В-третьих, закрытый контур, это всё ещё лаба; 24% успешности робота, это начало, а не гарантия. Потребуется дополнительное тестирование на реальных системах.