GUI против CLI: в чём потеря производительности компьютерных агентов

Исследователи создали контролируемый эксперимент из 440 одинаковых задач на рабочем столе (18 приложений, 12 типов рабочих процессов), где агентам на базе GUI и CLI ставили идентичные цели, начальные состояния и способы проверки результата. Результаты показали, что лучший GUI-агент достигает 59,1% успешного выполнения задач, а лучший оригинальный CLI-агент, только 48,2%. Однако когда исследователи добавили ещё навыков и позволили CLI-агенту использовать подсказки от верификатора, успех CLI подскочил до 69,3%. Это говорит, что отставание CLI не столько в способностях самой модели, сколько в том, что для неё написано недостаточно инструментов. Исследование выявило разные узкие места: GUI-агенты теряются в сложных долгосрочных задачах и плохо взаимодействуют с интерфейсом, а CLI-агенты хромают из-за неполного покрытия доступных команд и инструментов.

Ключевые факты

Лучший GUI-агент обогнал лучший CLI-агент на 10,9 п.п. (59,1% vs 48,2%), но это скорее проблема дизайна, чем способности модели
Добавление новых CLI-навыков и подсказок от верификатора поднял успех CLI на 69,3%, больше, чем у чистого GUI
GUI-агенты ограничены надёжностью взаимодействия с экраном в сложных многошаговых задачах
CLI-агенты ограничены полнотой и гибкостью своего набора инструментов, это поправимо
Единый контролируемый эксперимент впервые развел эффект интерфейса от эффекта всех остальных переменных (задачи, начальные состояния, проверка результата)

Почему это важно

Компьютерные агенты, программы, которые сам могут управлять вашим ПК или приложениями, развиваются бурно, но до сих пор не было честного сравнения между двумя главными подходами: заставить модель смотреть на экран и кликать (GUI), или дать ей список команд (CLI). В реальной практике никто не знал, что теряется на чём именно, может быть, GUI просто слаб, или CLI просто неполный? Это исследование даёт ответ: игра не в самой модели, а в том, как её оснастить.

Кому это важно

Разработчикам агентов (OpenAI, Anthropic, claude.ai), создателям инструментов (Anthropic Computer Use, API providers), исследователям ИИ, а также компаниям, которые хотят автоматизировать рутинные задачи на рабочем столе, это поможет выбрать правильную архитектуру.

Как это применить

Если вы проектируете агента для автоматизации задач, нужно думать отдельно о двух проблемах. Для GUI-подхода инвестируйте в стабилизацию взаимодействия с экраном и планирование долгосрочных последовательностей действий. Для CLI, пишите вспомогательные инструменты и навыки для частых операций, не рассчитывая, что модель сама всё додумает. Исследование показывает, что второй подход лучше масштабируется через расширение инструментария, а первый упирается в фундаментальные проблемы надёжности.

Можно ли доверять

Исследование опубликовано на базе HuggingFace и проведено с высоким контролем переменных (идентичные задачи, начальные состояния, верификация для обоих агентов). Авторы учли основную конфундирующую переменную, различие в самих задачах, приложениях и способах проверки результата. Результаты воспроизводимы и логичны: более полный инструментарий означает лучший результат.

Риски и подводные камни

Тестирование на 440 задачах из 18 приложений даёт солидный срез, но не охватывает все возможные сценарии реального мира (облачные приложения, веб-интерфейсы, специальные гибридные системы). Результаты сильно зависят от качества и полноты набора CLI-инструментов, если их написать лениво, то эффект не воспроизведётся. Кроме того, исследование не рассматривает гибридные подходы, когда агент использует GUI и CLI одновременно.

«Гораздо большая часть дефицита CLI исходит из неполного покрытия навыков, а не от самих способностей модели»

— Исследование «GUI vs. CLI»