OPID: обучение агентов через самодистилляцию навыков по политике

При обучении языковых агентов с подкреплением на основе исходов (outcome-based RL) главная проблема, редкие награды на уровне траектории не подсказывают, какие промежуточные решения нужно усилить или подавить. OPID (On-Policy Skill Distillation) решает это, извлекая плотное руководство на уровне токенов прямо из завершённых траекторий той же политики. Ключевая идея, представлять опыт агента иерархической структурой навыков: навыки на уровне эпизода фиксируют глобальные рабочие процессы или правила избегания ошибок, а навыки на уровне шага фиксируют локальное знание о критических решениях. Механизм маршрутизации выбирает навык шага при обнаружении критического решения, в остальных случаях падает на навык эпизода. Выбранный навык внедряется в историю взаимодействия, позволяя старой политике переоценить тот же ответ в двух контекстах, исходном и дополненном навыком. Сдвиг логарифма вероятности становится самодистилляционным преимуществом, которое комбинируется с исходным преимуществом для оптимизации политики. Экспериментальная проверка на ALFWorld, WebShop и поисковых вопросно-ответных системах показывает, что OPID повышает производительность агентов, эффективность по образцам и робастность по сравнению с простым outcome-only RL и существующими базовыми методами дистилляции навыков.

Ключевые факты

OPID извлекает навыки прямо из собственных траекторий, избегая затратного хранилища внешних навыков и несовпадения с распределением состояний текущей политики
Иерархическая структура навыков: эпизод-уровень (глобальные правила) + шаг-уровень (локальные критические решения) с механизмом выбора
Метод внедряет навык в историю и заставляет политику переоценить ответ в двух контекстах для получения плотного сигнала обучения
Тесты на трёх классах задач (виртуальный мир, веб-навигация, вопросно-ответные системы) подтверждают прирост производительности и выборочной эффективности
Код открыт, метод сохраняет RL как первичную цель обучения, добавляя плотное иерархическое руководство без внешних зависимостей

Почему это важно

Языковые агенты с подкреплением требуют плотной обратной связи для эффективного обучения. Стандартный outcome-based RL оптимизирует лишь финальный результат траектории, оставляя промежуточные шаги без сигнала. Это замедляет обучение и ограничивает применимость на сложных многошаговых задачах. OPID вводит систематический способ извлечь из собственного опыта агента многоуровневое руководство, что критично для масштабирования обучения агентов без растущих вычислительных затрат на внешние модули.

Кому это важно

Исследователи в области RL и языковых моделей, разработчики систем агентов (особенно навигация веб-сайтов, интерактивные среды, поиск с многошаговым рассуждением), разработчики инструментов для обучения RL-агентов, команды, оптимизирующие выборочную эффективность обучения больших моделей.

Как это применить

Интегрируйте OPID в конвейер обучения RL-агента: замените простой outcome-based сигнал на комбинацию исходного преимущества и самодистилляционного преимущества, вычисленного через иерархические навыки. Определите критические точки решений в вашей задаче (например, навигационные развилки в WebShop, стратегические ходы в ALFWorld) и настройте механизм маршрутизации для распознавания таких шагов. Код на GitHub позволяет адаптировать метод под собственные задачи. Особенно эффективно для задач с многошаговыми траекториями и разреженными финальными результатами.

Можно ли доверять

Статья опубликована на arXiv с открытым кодом, что облегчает воспроизведение. Тесты проведены на трёх устоявшихся бенчмарках (ALFWorld, интерактивная виртуальная среда, WebShop, моделирование e-commerce, поиск в QA), а не на синтетических задачах. Сравнение включает несколько baseline-методов, включая existing skill-distillation варианты. Однако окончательная валидация требует испытания на конкретных задачах вашего применения и сравнения с другими contemporaneous методами в RL для агентов.

Риски и подводные камни

Метод требует дополнительного вычисления на каждом шаге (переоценка под двумя контекстами), что может увеличить время обучения. Выделение критических точек решений (для механизма маршрутизации) может быть нетривиально в новых доменах. Иерархическая структура навыков предполагает наличие естественного разделения между глобальными и локальными решениями, в недостаточно структурированных задачах эффект может быть скромнее. Как и всякий метод self-distillation, OPID может усиливать ошибки политики, если критические точки неправильно идентифицированы.

«OPID таким образом сохраняет RL как первичную цель обучения при одновременном внедрении плотного, соответствующего распределению руководства на основе опыта.»

— Из описания метода OPID