Сегментация видео роботов на действенные подзадачи: WGO-Bench и практика автоматизации

Macrodata опубликовала полный отчёт о методах автоматизации разметки видео роботов на составляющие подзадачи, критическая проблема для обучения роботов долгосрочным манипуляциям. Исследователи создали WGO-Bench (What's Going On Bench), бенчмарк из 100 эпизодов видео с 743 аннотированными сегментами и 62 уникальными инструкциями высокого уровня. Данные собраны из egocentric видео (Galaxea, HomER) и видео робот-манипуляторов (DROID).

Проведено более 60 экспериментов с различными конвейерами аннотации. Результаты: лучшая сегментация (поиск границ) достигла F1 0.306, labeling (присвоение названий), 61% точности, end-to-end (полный цикл), F1 0.168. Бенчмарк использует LLM-as-judge (Gemini 3.5 Flash) для валидации меток.

Визионные языковые модели Gemini безусловно лидируют: Gemini 3.5 Flash на 24.5% превосходит лучшую альтернативу (GPT-5.5). Финальный конвейер, использующий contact sheets для экономии затрат, обходится в $2.64 за час видео (batch pricing), примерно в 19 раз дешевле ручной разметки человеками. Весь конвейер открыт в фреймворке Refiner; готовые примеры кода позволяют запустить его на своих видео. Исследователи подробно поделились уроками: egocentric видео требует 10+ минут аннотации за минуту материала, мелкие движения рук создают двусмысленность границ, описание локаций без якорей требует высокой точности.

Ключевые факты

WGO-Bench включает 100 эпизодов (743 сегмента, 62 задачи) с разнообразными типами видео (egocentric, третьеличное, robot-манипуляторы)
Лучшая сегментация F1 = 0.306, labeling = 61% точности, end-to-end = 0.168 F1 с использованием Gemini 3.5 Flash
Gemini модели на 24.5% превосходят GPT по этой задаче, бесспорные лидеры для разметки видео роботов
Contact sheets + batch pricing = $2.64/час видео, что в 19 раз дешевле ручной аннотации
Критические уроки: egocentric видео медленнее (>10х на 1 минуту материала), границы неоднозначны при быстрых движениях, метки должны быть самодостаточны без истории действий

Почему это важно

Обучение роботов долгосрочным сложным задачам (например, приготовлению гуляша с нуля) требует не просто финальной инструкции, а разбиения на атомарные подзадачи с явными границами и описаниями. Подзадачи стали центральным сигналом обучения в современных работах (π₀.₅, RT-H, SARM), они помогают и прямому обучению политик, и построению моделей вознаграждения. По мере масштабирования сбора робо-видеоданных ручная разметка становится неподъёмной: одна минута видео легко требует 10+ минут внимательной аннотации. Масштабируемый конвейер автоматизации критичен.

Кому это важно

Исследователям робототехники, занимающимся обучением манипуляторов на примерах (learning from demonstrations). Компаниям вроде Boston Dynamics, Tesla Optimus, Figure AI, занимающимся развёртыванием роботов в полях. Разработчикам систем обучения с подкреплением на видеоданных. Аннотаторам данных и компаниям вроде Scale, занимающимся подготовкой больших датасетов.

Как это применить

Для своих видео роботов или egocentric видео можно использовать готовый конвейер из Refiner: передать видеоданные, выбрать модель (рекомендуется Gemini), установить правила аннотации (границы по изменению состояния объектов, метки самодостаточны). Для batch-обработки час видео обойдётся в $2.64 (Google Batch API), что подъёмно даже для исследовательских групп. При использовании Gemini 3.5 Flash можно ожидать F1 ≈0.306 для сегментации, достаточно для обучения политик (см. статьи про π₀.₅). Для собственной ручной разметки (если нужна высокая точность) критичны: строгий протокол (границы по манипуляции объектами, не по паузам), ясный UI с префильтром от модели, внимание к egocentric: там быстрая работа рук, самая сложная.

Можно ли доверять

Результаты опираются на тщательно собранный бенчмарк с ручной разметкой по чёткому протоколу (743 сегмента, три независимых судьи через LLM-as-judge). Тестирование проведено на диверсных источниках видео (три разных датасета); конвейер открыт (Refiner). Нет опубликованной информации о калибровке судьи (Gemini 3.5 Flash) на человеческих разметчиках, неясно, как хорошо LLM соглашается с людьми на граничных случаях. Метрика F1 на сегментации (0.306) довольно скромная, что отражает реальную сложность, но означает, что часть ошибок остаётся и на продакшене. Авторы честно описывают ограничения; воспроизводимость высока (код открыт).

Риски и подводные камни

Методы обучены на 100 эпизодах, may overfit к особенностям Galaxea/DROID/HomER датасетов (разрешение, освещение, типы манипуляторов). Egocentric видео требует в 10+ раз больше времени разметки; если ваши видео, быстрые egocentric с двумя руками одновременно, точность может быть ниже. Цена $2.64/час, batch pricing; real-time вызовы API могут быть дороже. Если полагаться только на F1 0.306 для тренировки политик, часть шумных границ всё равно попадёт в данные обучения, может потребоваться постпроцессинг или фильтр по уверенности модели. Contact sheets экономят затраты, но теряют частичную информацию из видео; для очень мелких движений рук на низкоразрешённом видео это критично.

«Для обучения роботов новым долгосрочным задачам нужно больше, чем слабые высокоуровневые инструкции. Полезный сигнал, какая подзадача происходит в каждый момент и где одна подзадача кончается, а следующая начинается.»

— Macrodata, WGO-Bench отчёт