MobileForge: Адаптация мобильных ИИ-агентов без разметки данных

MLLM-based мобильные агенты хорошо справляются с пониманием интерфейсов и выполнением действий, но адаптация к конкретным приложениям стоит дорого. Мобильных приложений миллионы, они часто обновляются, невозможно покрыть все ручной разметкой задач, примеров или наград. Существующие annotation-free методы снижают надзор, но не объединяют исследование целевого приложения, выбор обучающих примеров, выполнение действий и обратную связь в одну систему. MobileForge состоит из двух частей: MobileGym, которая моделирует генерацию задач и оценку на реальных приложениях, и Hierarchical Feedback-Guided Policy Optimization (HiFPO). HiFPO превращает исходы траекторий, feedback на уровне шагов и corrective hints в step-level обновления через контекстную подсказку. Результат: Qwen3-VL-8B адаптируется до 77.6% Pass@3 на AndroidWorld, что обогнало закрытую специализированную модель GUI-Owl-1.5-8B, уровень которой 69%. Код, данные и модели будут выложены.

Ключевые факты

Полностью автоматическая адаптация без ручной разметки, использует генерируемые данные
MobileGym грамотно встраивает целевое приложение в процесс: не просто примеры, а реальное взаимодействие
HiFPO обрабатывает подсказки на уровне шагов, а не только финальные награды, что улучшает обучение
ForgeOwl-8B достигает 77.6% Pass@3 на AndroidWorld, лучший результат в классе открытых моделей
Масштабируется: система работает с популярными MLLM (Qwen, и другими), подход универсален

Почему это важно

Мобильные приложения есть везде, они вечно меняются. Разработчики не могут вручную собрать примеры для каждого приложения и каждого обновления. До сих пор мобильные ИИ-агенты либо общие и медленные, либо узкоспециализированные на одном приложении. Annotation-free адаптация обещает сделать мобильные агенты практичными: натренировать один раз, потом быстро адаптировать к новому приложению без трудозатрат на разметку.

Кому это важно

Компаниям, разрабатывающим мобильные приложения и хотящим добавить автоматизацию без надзора человека. Стартапам в RPA (Robotic Process Automation), которым нужны агенты для множества клиентских приложений. Исследователям в области мобильного ИИ и мультимодальных моделей. Создателям инструментов автоматизации, которые должны масштабироваться на тысячи приложений.

Как это применить

Если у вас есть мобильное приложение и нужна автоматизация: развернуть MobileForge, указать приложение, система само генерирует задачи, проводит опыты, собирает обратную связь и оптимизирует модель. Затем можно натренировать свою копию Qwen или использовать предтренированные форжевые модели. На практике: свалить apk в систему, ждать результата.

Можно ли доверять

Результаты проверены на стандартных бенчмарках AndroidWorld и MobileWorld. Pass@3 = модель имеет три попытки. 77.6%, это верифицируемо высокий результат. Однако результаты в лабораторных условиях; реальные приложения могут быть сложнее, возможны случайные сбои. Код обещан, можно проверить самостоятельно.

Риски и подводные камни

Автоматическая генерация задач может создать смещение в обучающем наборе. Если система часто генерирует одни типы действий, модель может перейти на них. Адаптация к совсем новым типам приложений может потребовать доработки. Необходимо убедиться, что обратная связь (corrective hints) правильно собирается и интерпретируется моделью.

«The MobileForge-adapted ForgeOwl-8B further reaches 77.6% Pass@3 on AndroidWorld and 41.0% success on the out-of-domain MobileWorld GUI-only split, establishing the strongest open-data mobile GUI agent in our evaluation»

— MobileForge abstract