CLI-Universe: проверяемый движок синтеза задач для терминальных агентов

CLI-Universe: проверяемый движок синтеза задач для терминальных агентов

CLI-Universe переворачивает подход к синтезу обучающих данных для терминальных агентов. Вместо переработки готовых артефактов (документация, репозитории) система работает от чёткой структуры: каждая задача строится на основе многомерной классификации возможностей (домен, тип навыка, когнитивная способность, инженерный столп), затем обогащается доказательственным материалом из реальных источников. Конвейер включает три этапа: построение чертежа задачи, реализацию окружения в Docker и многоэтапную валидацию с независимым разделением тестов и решений.

Ключевое отличие, фильтрация: только 33.6% кандидатов выживают полный цикл, что концентрирует обучающий сигнал на высокошумовых примерах вместо масштабирования по объёму. После тонкой настройки Qwen3-32B система достигает 33.4% accuracy на Terminal-Bench 2.0 (SkillSynth 29.6%, Nemotron 27.4%), даёт +30 пунктов прироста над базовой моделью и переносит навыки на внешние контрольные наборы (+11.3 на BFCL v4, +11.6 на VitaBench). Результат: близкая к SOTA производительность при 10, 100× меньшем объёме данных.

Ключевые факты

  • Многомерная классификация способностей (11 видов когнитивного поведения): исследование, восстановление ошибок, долгосрочное планирование, удовлетворение ограничений, обратный инжиниринг, математическое выведение и другие
  • Фильтрационный подход: 33.6% выживаемости концентрирует обучающий сигнал на сложных примерах вместо масштабирования по размеру датасета
  • Независимая валидация: тесты и решения генерируются разделёнными агентами, затем проверяются условной фильтрацией и fail-to-pass проверками
  • Производительность: 33.4% на Terminal-Bench 2.0 (+30 vs базовая модель), обобщение на BFCL v4 и VitaBench с переносом навыков
  • Эффективность масштабирования: близкая к SOTA производительность при 10, 100× меньшем объёме данных за счёт качества вместо объёма

Ред. 33.4% accuracy звучит скромно, пока не вспомнишь, что речь про терминал, где одна лишняя команда сносит окружение. «Concentrated supervision» это красивое имя для того, что две трети синтезированных задач отправились в мусорку.

Почему это важно

Терминальные агенты требуют уникального типа обучения: понимание семантики команд, управление побочными эффектами, восстановление после ошибок в реальном окружении. До сих пор качество обучающих данных либо граничило с ручной работой (дорого), либо опирался на простой синтез (шумно). CLI-Universe закрывает зазор между объёмом и качеством через структурированный синтез. Это критично для агентов, которые управляют инфраструктурой, автоматизируют DevOps и взаимодействуют с APIs через командную строку.

Ред. Зазор между «дорого и руками» и «дёшево и шумно» закрывают примерно каждый второй месяц, и каждый раз через структуру. Посмотрим, переживёт ли эта структура встречу с реальным закрытым репозиторием.

Кому это важно

Разработчикам, обучающим агентов для автоматизации терминальных задач (DevOps, cloud infrastructure, CI/CD). Исследователям в области AI agents и synthetic data generation. Компаниям, инвестирующим в инструменты для кода (GitHub Copilot, Cursor, AI IDE), терминальная компетентность становится частью конкурентной разницы. Провайдерам облачных платформ (AWS, GCP) для встроенных ассистентов в консолях.

Ред. Список бенефициаров подозрительно совпадает со списком тех, кто и так платит за compute: DevOps, AI IDE и облачные консоли. Терминальная компетентность как конкурентное преимущество это пока тезис, а не выручка.

Как это применить

Использовать публичный датасет и классификацию способностей как шаблон для синтеза собственных обучающих данных под специфичные домены (контейнеризация, управление пакетами, сетевые утилиты). Интегрировать многоэтапную валидацию в pipeline обучения, чтобы отфильтровать низкокачественные примеры на ранней стадии. Применить ортогональную классификацию (11 измерений способностей) для диагностики пробелов в обучении и целевого синтеза недостающих навыков. Отказаться от догмы масштабирования по объёму в пользу избирательности по качеству.

Ред. «Отказаться от догмы масштабирования по объёму» легко советовать, когда у тебя уже есть классификация на 11 измерений и Docker-конвейер. Воспроизвести шаблон под свой нишевый домен это и есть та самая дорогая ручная работа, от которой все бегут.

Можно ли доверять

Методология звучит строго: многоэтапная валидация, независимое разделение тестов и решений, fail-to-pass проверки исключают фальшивые примеры. Метрики (Terminal-Bench 2.0, BFCL v4, VitaBench) стандартны для community. Обобщение на внешних контрольных наборах (+11.3, +11.6 пункта) указывает на реальный прирост, а не на переобучение. Единственная оговорка: статистическая значимость различий не упомянута, и масштабы экспериментов (6000 траекторий) скромны для нейросетей. Авторы достаточно осторожны в выводах.

Ред. Редкий случай, когда авторы сами проговаривают слабые места: статзначимость не указана, 6000 траекторий для нейросетей это камерный масштаб. Перенос на внешние наборы обнадёживает, но «не переобучение» проверяется не двумя цифрами, а независимым повтором.

Риски и подводные камни

Метод полагается на наличие высококачественного доказательственного материала (репозитории, документация). В нишевых доменах с закрытым исходным кодом результаты могут быть хуже. Фильтрация на 66.4% может быть слишком жёсткой для малых датасетов или экзотических задач. Воспроизводимость зависит от деталей Docker и окружения, которые могут дрейфовать. Риск распространения предубеждений от источников обучающих данных (если репозитории имеют систематические ошибки, синтезированные задачи их унаследуют).

Ред. Если репозитории-источники носят системные ошибки, синтез их аккуратно растиражирует, и фильтр на 66.4% тут не помощник, он отсеивает шум, а не предвзятость. В нишах без открытого кода вся изящная конструкция держится ровно на том, чего там нет.

«high-quality training data concentrated supervision on high-signal examples достигает производительности при 10, 100× меньшем объёме данных по сравнению с базовыми подходами синтеза»

— CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents