SkillOpt: как научить агентов ИИ правильно действовать без переобучения модели

Основная проблема агентов ИИ, их инструкции (skills) до сих пор пишут вручную или генерируют в один проход, что часто приводит к постепенной потере качества при переписывании. SkillOpt решает это, рассматривая файл с инструкциями как обучаемый параметр вне замороженной модели.

Метод работает циклом: в прямом проходе замороженная модель выполняет задачи с текущей инструкцией, в обратном, отдельная модель-оптимизатор анализирует успешные и неудачные траектории, предлагая малые правки (добавления, удаления, замены). Каждая кандидат-инструкция проверяется на контрольной выборке и принимается только если улучшает результат. Отклоненные варианты сохраняются как отрицательная обратная связь. Медленный метаобновляет консолидирует дальнейшие уроки. Это держит инструкции компактными и аудируемыми.

В оценке на 6 бенчмарках (SearchQA, SpreadsheetBench, OfficeQA, DocVQA, LiveMathematicianBench, ALFWorld) с 7 моделями и 3 режимами исполнения (прямой чат, Codex, Claude Code), всего 52 комбинации, SkillOpt победил или поделил первое место во всех случаях. На GPT-5.5 в прямом чате среднее по 6 бенчмаркам поднялось с 58,8 до 82,3 (+23,5 пункта абсолютно). SpreadsheetBench вырос с 41,8 до 80,7, OfficeQA с 33,1 до 72,1.

Оптимизированные инструкции передаются между моделями разных размеров, разными агентными фреймворками и смежными задачами. Например, навык для таблиц, обученный в Codex, при переносе в Claude Code без доопределения поднял базовый результат с 22,1 до 81,8 пункта, почти столько же, сколько обучение с нуля в Claude Code.

Итоговый файл инструкции (best_skill.md) остаётся компактным, в медиане ~920 токенов, с одной-четырьмя принятыми правками. OfficeQA получила +39-пунктный прирост от одной-единственной правки. Это предлагает способ адаптации для эпохи агентов: вместо дорогого переобучения весов или ручной настройки промптов, команды могут обучать небольшой, версионируемый, проверяемый слой естественных инструкций.

Ключевые факты

SkillOpt рассматривает инструкции агента как обучаемый параметр, применяя циклы forward-backward-update в текстовом пространстве вместо изменения весов модели
На 52 комбинациях (6 бенчмарков × 7 моделей × 3 режима) метод показал лучший или равный лучшему результат, GPT-5.5 поднялся на +23,5 пункта абсолютно
Обученные инструкции переносятся между моделями разных масштабов, агентными фреймворками и смежными задачами без переобучения
Итоговые файлы инструкций остаются читаемыми, аудируемыми и компактными (~920 токенов медианно) благодаря валидационным воротам и ограничениям на размер правок
Маленькие модели с оптимизированными инструкциями (GPT-5.4-mini, Qwen3.5-4B) превосходят больших соперников без навыков, намекая на новую адаптационную дорогу для эпохи агентов

Почему это важно

Сегодня инструкции для агентов ИИ растут бесконтрольно: вручную написанные, сгенерированные в один проход или переписанные после ошибок. Они дрейфуют, теряют качество, и нет механизма отката. SkillOpt переводит написание инструкций из ad hoc в контролируемый процесс обучения, с валидацией, отрицательной обратной связью и версионированием. Это решает барьер между прототипом агента и надёжным production-системой.

Кому это важно

Командам, которые строят агентные워ークфлоуы в production: от автоматизации поиска и обработки таблиц до документооборота и математических задач. Особенно полезно, когда есть автоматическая оценка или надёжный верификатор, на них опирается обучение навыков. Также релевантно для адаптации больших моделей к специфическому домену без дорогого переобучения.

Как это применить

Команды могут использовать SkillOpt как основу для обучения переиспользуемых инструкций на своих задачах и верификаторах. Процесс: заморозить модель, определить набор обучающих задач и верификатор (проверку правильности), запустить цикл SkillOpt. Инструкции будут расти управляемо, с четкой историей правок. GitHub репозиторий проекта (github.com/microsoft/SkillOpt) содержит код и примеры. Результаты показывают, что навыки, обученные на одной модели или фреймворке, часто работают и на других, можно обучить раз, использовать везде.

Можно ли доверять

Результаты получены на стандартных публичных бенчмарках (SearchQA, SpreadsheetBench, OfficeQA и т.д.) с сравнением против других методов (TextGrad, GEPA, EvoSkill). Авторы, Microsoft Research, опубликовано в формате научной работы. Прирост качества особенно заметен на процедурных задачах (таблицы, документы, математика), что поддерживает вывод о том, что метод учит стратегию, а не просто напоминает о бенчмарке. Тот факт, что инструкции передаются между разными фреймворками (Codex→Claude Code с прибылью +59,7 пункта), независимое свидетельство что они кодируют реальный рабочий процесс.

Риски и подводные камни

SkillOpt нужен надёжный верификатор, метод работает только если можно автоматически проверить качество выполнения. На открытых задачах без чёткого критерия успеха (например, на творческие или суждения) применимость снижается. Кроме того, навыки ещё человеческой диагностируемы и аудируемы, они не заменяют понимание того, почему агент ошибается. Обучение требует вычислений (множество forward passes), хотя и меньше, чем переобучение полной модели. Наконец, метод молод, примеров реального production-использования пока мало.

«SkillOpt рассматривает файл с инструкциями как обучаемый параметр вне замороженной целевой модели, превращая написание инструкций из one-shot промптирования в контролируемый процесс оптимизации.»

— Microsoft Research, статья о SkillOpt