TUA-Bench: первый общего назначения бенчмарк для терминальных агентов

Существующие бенчмарки для компьютерного взаимодействия ИИ разделены: общие оценивают графические интерфейсы, а терминальные фокусируются на программировании. TUA-Bench заполняет эту щель, оценивая способность агентов решать широкий спектр задач в текстовой среде командной строки.

Бенчмарк включает 120 задач, организованных в пять семейств: офисная работа (38,3% задач, редактирование документов, электронные таблицы, почта), веб-поиск и работа с информацией (18,3%), системное администрирование и управление ПО (18,3%), научно-инженерные рабочие процессы (12,1%) и мультимедийная обработка с дизайном (13,3%). Научные и инженерные задачи разработаны совместно с PhD-уровневыми экспертами, включая анализ медицинских снимков, архитектурные симуляции и обработку биологических данных.

Каждая задача предоставляется с детерминированной схемой настройки и оценивается по протоколу на основе выполнения. Тестирование проводится через пять независимых попыток с метриками успеха, одиночного прохода и полного решения.

Сильнейший современный агент, Claude Code с Claude Opus 4.8 и максимальными вычислительными усилиями, достигает 65,8% общей успешности, но показывает существенные пробелы в планировании, использовании инструментов и восстановлении после ошибок. Исследователи намерены ускорить переход от узкоспециализированных помощников к универсальным агентам, способным надёжно работать в разных цифровых окружениях.

Ключевые факты

TUA-Bench впервые объединяет оценку терминального взаимодействия с разнородностью задач: не только программирование, но и офисная работа, веб-поиск, дизайн и научные симуляции
120 реальных задач в пяти категориях, половина из которых, повседневная работа (документы, почта, веб), вторая половина, профессиональные специализированные рабочие процессы
Claude Opus 4.8 (самый сильный агент) решает только 65,8% задач, указывая на крупные пробелы в планировании многошаговых процессов и обработке ошибок
Каждая задача имеет детерминированную среду и объективную оценку; тестирование повторяется пять раз для надёжности
Бенчмарк разработан с PhD-экспертами и создаёт стандарт для оценки универсальных агентов, работающих в текстовых интерфейсах

Почему это важно

Текущие ИИ-агенты специализируются либо на графических интерфейсах, либо на кодировании. Реальная работа смешанная: команда может писать код, затем отредактировать документ, отправить почту и выполнить веб-поиск, всё в одной сессии. TUA-Bench впервые создаёт объективный стандарт для оценки такой универсальности, отражая реальные рабочие потоки: документооборот, информационный поиск, системное администрирование и научные вычисления.

Кому это важно

Разработчикам ИИ-агентов (OpenAI, Anthropic, Google, DeepSeek), новый бенчмарк покажет, где их агенты отстают. Исследователям компьютерного взаимодействия, стандартная метрика ускоряет измерение прогресса. Пользователям терминала и девелопам, указывает, какие агенты готовы к реальной работе вне лабораторий.

Как это применить

Организации, оценивающие ИИ-агентов для автоматизации, могут использовать TUA-Bench как контрольный список: если агент стабильно решает 50+% задач бенчмарка, он готов к частичной автоматизации смешанных рабочих процессов. Разработчики инструментов могут профилировать свои агенты на фамильях задач (например, проверить производительность на офисных vs. научных задачах) для целевой оптимизации.

Можно ли доверять

Бенчмарк базируется на реальных задачах с детерминированной средой (повторяемо), включает результаты от Anthropic и явно фиксирует пробелы (65,8% ≠ 100%). Авторы не скрывают, что имеющихся данных недостаточно, это честная, не переобработанная оценка. Однако результаты отражают текущее состояние техники; по мере развития агентов нужны обновления бенчмарка.

Риски и подводные камни

Бенчмарк фокусируется на успешности в детерминированной среде, что не полностью отражает реальные случаи с непредсказуемыми ошибками и многозначностью. Задачи разработаны англоговорящими исследователями, культурный и региональный контекст может сместить результаты. Реальная автоматизация требует не только решения задач из бенчмарка, но и обработки исключений, отката и взаимодействия с человеком, чего здесь нет.

«TUA-Bench цель, ускорить переход от узкоспециализированных помощников к универсальным агентам, способным надёжно работать в разнообразных цифровых окружениях.»

— Исследователи TUA-Bench