Редактирование изображений вместо видео для управления роботами

ImageWAM переоценивает архитектуру моделей действия роботов. Вместо того чтобы генерировать полные видеопредставления будущего (энергозатратный подход), система использует предобученные модели редактирования изображений как основу. Ключевая идея: манипуляция роботом это «языковая трансформация визуальной сцены», точно как редактирование по инструкции.

Результаты показывают 93% успеха на RoboTwin 2.0, 98% на LIBERO и 84.5% на реальных манипуляторах. При этом потребление процессорных операций упало в 6 раз, а задержка в 4 раза. Система обходится без полного предсказания будущих кадров на этапе вывода, извлекая только промежуточные представления из процесса редактирования.

Ключевые факты

ImageWAM использует кэши из моделей редактирования вместо полного видеопредсказания для управления роботами
Производительность: 93% успеха на синтетических задачах и 84.5% на реальных манипуляторах
Потребление ресурсов снизилось в 6 раз по FLOPs и в 4 раза по задержке против видеомоделей
Подход работает потому, что редактирование по инструкции и манипуляция объектом семантически близки

Ред. Робот не обязан воображать весь будущий фильм, чтобы переставить чашку. Оказалось, шесть раз меньше FLOPs там, где раньше галлюцинировали целые видеоряды, и никто не заметил пропажи.

Почему это важно

Текущие системы управления роботами часто полагаются на видеопредсказание: машина представляет себе все кадры будущего, что требует огромных вычислений. Эта работа показывает, что такой полнота неправильный инструмент для задачи. Редактирование изображения (стирание, добавление, преобразование объектов) ближе к тому, что на самом деле нужно роботу. Это сдвиг в том, как мы архитектурируем системы восприятия для управления.

Ред. Полгода индустрия продавала «видеомодели мира» как путь к воплощённому интеллекту, а тут выясняется, что предсказывать каждый кадр будущего было дорогим способом ответить на простой вопрос «куда сдвинуть руку». Иногда правильная архитектура это та, что перестаёт делать лишнее.

Кому это важно

Робототехники и исследователи в области управления манипуляторами получают более быстрый и дешевый инструмент. Компании, использующие роботов на производстве или в логистике, могут применить этот подход для снижения затрат на вычисления на краях сети. Разработчики ИИ-систем для видения получают новый паттерн переиспользования готовых моделей редактирования.

Ред. Тем, кто считает счёт за вычисления на краю сети, а не красоту демо. Заодно сигнал всем, кто собрался обучать гигантский видеогенератор под манипуляцию: возможно, нужная модель уже лежит готовая и называется редактором картинок.

Как это применить

Если вы строите систему управления роботом, попробуйте использовать любую готовую модель редактирования изображений (например, Stable Diffusion или другие диффузионные модели) вместо видеогенератора. ImageWAM показывает, что достаточно извлечь промежуточные представления из процесса редактирования без полного декодирования изображения. Для готовой внедрения посмотрите на архитектуру: редактирующая модель работает как кодировщик особенностей, которые питают предсказатель действия.

Ред. Совет «возьмите Stable Diffusion вместо видеогенератора» звучит обманчиво легко: фокус не в самой диффузии, а в том, чтобы вытащить промежуточные представления и не декодировать картинку до конца. То есть переиспользуете чужую модель, но инженерия предсказателя действия всё равно на вас.

Можно ли доверять

Результаты кажутся убедительными: три разные тестовой среды (симуляция, синтетика, реальность) и сопоставление с видеобазовыми подходами. Авторы честно указывают успехи и пределы. Однако 84.5% на реальных роботах это не 100%, и масштабируемость на более сложные задачи остаётся открытым вопросом.

Ред. Три среды и честно названные пределы это уже выше среднего по жанру. Но 84.5% на железе означает, что каждый шестой захват мимо, а «масштабируемость на сложные задачи открыта» это вежливый способ сказать, что про тяжёлую динамику мы пока ничего не знаем.

Риски и подводные камни

Система зависит от качества предобученной модели редактирования. Если редактирующая модель предвзята или натренирована на узком наборе объектов, это ограничит и робота. Кроме того, подход сильнее на «маленьких» манипуляциях (перемещение, ориентация) и может проиграть полносценному видеопредсказанию на сложной динамике с много объектов.

Ред. Модель наследует чужие предрассудки: редактор, видевший узкий набор объектов, сделает робота близоруким на всё остальное. И преимущество держится на «маленьких» перестановках, на сцене с десятком движущихся объектов отказ от предсказания будущего может выйти боком.

«We propose ImageWAM, which repurposes image editing models to replace video generation for robot action prediction»

— ImageWAM paper