Знают ли VLA-модели основы? Исследование сохранения знаний в Vision-Language-Action системах

Vision-Language-Action (VLA) модели, это специализированная адаптация мощных предварительно обученных Vision-Language Models (VLM) для задач робототехники. Однако после fine-tuning на робототехнических данных остаётся неясным, насколько хорошо эти модели сохраняют здравый смысл и фактические знания об окружающем мире.

Исследователи представили методологию Act2Answer, новый протокол для оценки VLA, который переводит задачи знаниевого тестирования в формат действий. Вместо текстового ответа агент должен ответить через действие: каждый вопрос превращается в короткий табличный эпизод, где модель выбирает ответ, перемещая объект среди вариантов. Это решает проблему неоднозначности: отличает недостаток знаний от просто плохой генерализации низкоуровневого управления.

Авторы провели крупномасштабное тестирование 7 VLA-моделей и 9 baseline VLM на разнообразных задачах здравого смысла и фактических знаний. Ключевые находки: VLA показали хорошие результаты на простых концептах, но имеют значительные пробелы на семантически сложных категориях (по сравнению с исходными VLM). Совместное обучение с VQA улучшает сохранение знаний. Анализ по слоям выявил, что сигналы, релевантные ответам, концентрируются в средних слоях архитектуры, но затухают в верхних. Инструмент Act2Answer доступен открыто.

Ключевые факты

VLA-модели теряют часть фактических знаний при адаптации к робототехнике, пробелы особенно заметны на семантически сложных задачах
Act2Answer, новый протокол оценки, где агент отвечает через действие (объектное размещение), что исключает конфаунды контроля
Совместное обучение с VQA (Visual Question Answering) связано с лучшим сохранением знаний в VLA-моделях
Важная информация о ответах локализуется в средних слоях VLA, но затухает в верхних слоях архитектуры
Результаты получены на 7 VLA и 9 VLM baseline, показывают системное расхождение между исходными моделями и их адаптациями

Почему это важно

Vision-Language-Action модели, новое поколение мультимодальных систем для робототехники. До сих пор было неясно: теряются ли при адаптации к робототехнике базовые знания об окружающем мире? Это критично для надёжности роботов в реальных сценариях, робот должен не только уметь манипулировать, но и понимать, что он делает. Без этого понимания даже хорошо натренированный контроль может привести к ошибкам на неожиданных ситуациях.

Кому это важно

Разработчикам робототехнических систем, исследователям мультимодальных моделей, компаниям, инвестирующим в воплощённый ИИ (embodied AI), и всем, кто следит за развитием агентных систем. Результаты показывают, где находятся слабые места текущего подхода, и помогают выделить направления улучшений при разработке новых VLA-моделей.

Как это применить

При адаптации мощной VLM для робототехнических задач полезно использовать VQA co-training, это помогает сохранить фактические знания. Оценивать модели можно через Act2Answer, где вместо текстового ответа проверяется действие. Разработчикам стоит обратить внимание: у VLA большие пробелы на семантически сложных задачах по сравнению с исходной VLM, поэтому перед деплоем критичны специальные тесты на знания.

Можно ли доверять

Исследование опубликовано официальным каналом (huggingface papers), авторы предоставили открытый инструмент для проверки, протокол Act2Answer воспроизводим. Однако результаты получены на 7 конкретных VLA-моделях, обобщение на другие архитектуры требует дополнительной проверки. Тестовые наборы включили разнообразные категории знаний, что повышает надёжность выводов.

Риски и подводные камни

Исследование выявило пробелы, но не предложило полного решения, как лучше сохранять знания при адаптации остаётся открытым вопросом. Act2Answer-протокол требует табличной среды с дискретными объектами, применимость к открытым сценариям (работа с непредсказуемыми объектами) может быть ограничена. Важно: результаты показывают проблему в структуре архитектуры (информация затухает в верхних слоях), но простого решения нет, требуются изменения в дизайне моделей.

«Сигналы, релевантные ответам, концентрируются в средних слоях VLA-моделей, но затухают в верхних слоях архитектуры»

— Исследование Act2Answer, huggingface