MobileForge: Адаптация мобильных ИИ-агентов без разметки данных

MLLM-based мобильные агенты хорошо справляются с пониманием интерфейсов и выполнением действий, но адаптация к конкретным приложениям стоит дорого. Мобильных приложений миллионы, они часто обновляются, невозможно покрыть все ручной разметкой задач, примеров или наград. Существующие annotation-free методы снижают надзор, но не объединяют исследование целевого приложения, выбор обучающих примеров, выполнение действий и обратную связь в одну систему. MobileForge состоит из двух частей: MobileGym, которая моделирует генерацию задач и оценку на реальных приложениях, и Hierarchical Feedback-Guided Policy Optimization (HiFPO). HiFPO превращает исходы траекторий, feedback на уровне шагов и corrective hints в step-level обновления через контекстную подсказку. Результат: Qwen3-VL-8B адаптируется до 77.6% Pass@3 на AndroidWorld, что обогнало закрытую специализированную модель GUI-Owl-1.5-8B, уровень которой 69%. Код, данные и модели будут выложены.
Ключевые факты
- Полностью автоматическая адаптация без ручной разметки, использует генерируемые данные
- MobileGym грамотно встраивает целевое приложение в процесс: не просто примеры, а реальное взаимодействие
- HiFPO обрабатывает подсказки на уровне шагов, а не только финальные награды, что улучшает обучение
- ForgeOwl-8B достигает 77.6% Pass@3 на AndroidWorld, лучший результат в классе открытых моделей
- Масштабируется: система работает с популярными MLLM (Qwen, и другими), подход универсален
Почему это важно
Мобильные приложения есть везде, они вечно меняются. Разработчики не могут вручную собрать примеры для каждого приложения и каждого обновления. До сих пор мобильные ИИ-агенты либо общие и медленные, либо узкоспециализированные на одном приложении. Annotation-free адаптация обещает сделать мобильные агенты практичными: натренировать один раз, потом быстро адаптировать к новому приложению без трудозатрат на разметку.
Кому это важно
Компаниям, разрабатывающим мобильные приложения и хотящим добавить автоматизацию без надзора человека. Стартапам в RPA (Robotic Process Automation), которым нужны агенты для множества клиентских приложений. Исследователям в области мобильного ИИ и мультимодальных моделей. Создателям инструментов автоматизации, которые должны масштабироваться на тысячи приложений.
Как это применить
Если у вас есть мобильное приложение и нужна автоматизация: развернуть MobileForge, указать приложение, система само генерирует задачи, проводит опыты, собирает обратную связь и оптимизирует модель. Затем можно натренировать свою копию Qwen или использовать предтренированные форжевые модели. На практике: свалить apk в систему, ждать результата.
Можно ли доверять
Результаты проверены на стандартных бенчмарках AndroidWorld и MobileWorld. Pass@3 = модель имеет три попытки. 77.6%, это верифицируемо высокий результат. Однако результаты в лабораторных условиях; реальные приложения могут быть сложнее, возможны случайные сбои. Код обещан, можно проверить самостоятельно.
Риски и подводные камни
Автоматическая генерация задач может создать смещение в обучающем наборе. Если система часто генерирует одни типы действий, модель может перейти на них. Адаптация к совсем новым типам приложений может потребовать доработки. Необходимо убедиться, что обратная связь (corrective hints) правильно собирается и интерпретируется моделью.
«The MobileForge-adapted ForgeOwl-8B further reaches 77.6% Pass@3 on AndroidWorld and 41.0% success on the out-of-domain MobileWorld GUI-only split, establishing the strongest open-data mobile GUI agent in our evaluation»
— MobileForge abstract