Саморазвивающиеся агенты через отложенную выборку: подход RSEA

Исследование представляет RSEA (Recursive Self-Evolving Agent), метод совершенствования ИИ-агентов путём эволюции текстовых артефактов: стратегии (imperative strategy), переиспользуемых навыков (reusable skills) и процедурных операционных руководств (procedural playbook). На каждом поколении агент переписывает все три слоя своего состояния, основываясь на собственных траекториях, но применяет кандидата только если он не приводит к регрессу на отдельном наборе данных (held-out split), это строгий механизм контроля, обеспечивающий стабильность.

Метод протестирован на четырёх различных бенчмарках (ALFWorld, GAIA, τ-bench, WebShop) в сравнении с шестью базовыми методами (ReAct, Reflexion, GEPA, AWM, ACE, Dynamic Cheatsheet). Ключевые находки: RSEA показывает лучший результат как одноходовый метод на ALFWorld (69,3% против 64,6% у ReAct, p=0,015) и 79,4% с переборкой (retry); однако конкретная индукция рабочих процессов (AWM) превосходит RSEA на задачах с инструментами. Неконтролируемая эволюция контекста опасна: Dynamic Cheatsheet достигает 70,7% на ALFWorld, но коллапсирует на WebShop (0,14 против 0,43 у ReAct). Главное преимущество RSEA, механизм отложенной выборки гарантирует монотонную безопасность: метод никогда существенно не уступает базовому агенту и откатывается на ванильный ReAct, если эволюционировавший контекст мешает.

Ключевые факты

RSEA хранит трёхуровневое текстовое состояние (стратегия, навыки, playbook) и переписывает его рекурсивно, опираясь на собственные опыты
Механизм held-out selection (проверка на отложенном наборе) предотвращает регрессию и обеспечивает стабильную эволюцию
На ALFWorld RSEA достигает 69,3% (лучший одноходовый результат), на WebShop, 0,43 (существенно выше Dynamic Cheatsheet с 0,14)
Неконтролируемая эволюция контекста высокорискована: методы без held-out gate показывают высокую дисперсию и могут рухнуть на других бенчмарках
RSEA гарантирует монотонную безопасность: никогда не уступает базовому агенту и откатывается на ReAct при деградации

Почему это важно

Методы, улучшающие ИИ-агентов без переобучения весов, растут в популярности (Reflexion, prompting-evolution и т.д.), но до сих пор каждый метод тестировался в вакууме на своём бенчмарке. RSEA вводит первую систематическую апробацию на едином остове (shared local backbone), вскрывая, что универсального победителя нет, и обозначает риск: эволюция без контроля коллапсирует на новых задачах. Отложенная выборка решает эту проблему, обеспечивая надёжность в производстве.

Кому это важно

Исследователям ИИ, разработчикам систем, использующих адаптивные агенты (WebShop-подобные среды, tool-use сценарии), и компаниям, развёртывающим LLM-агентов в production, где регрессия недопустима. Метод актуален для любых систем, совершенствующих поведение через текстовые инструкции.

Как это применить

RSEA реализуется как замена или дополнение к ReAct: добавить логику переписи стратегии/навыков/playbook на основе собственных логов агента, ввести held-out валидационный набор (отдельные задачи, на которых проверяется улучшение) и применить keep-better gate (кандидат принимается, только если не падает на валидации). На практике требуется отделить тренировочные и валидационные сценарии и мониторить регрессию.

Можно ли доверять

Исследование опирается на репрезентативный набор бенчмарков и честное сравнение (все методы на одном остове, унифицированная оценка). Авторы честны в выводах: RSEA не универсален, и AWM иногда лучше. Held-out gate, консервативный подход, доказанный в классической ML. Результаты воспроизводимы на открытых бенчмарках (ALFWorld, WebShop).

Риски и подводные камни

Held-out selection требует дополнительной вычислительной нагрузки (валидация на отдельном наборе). Метод зависит от качества initial prompts и базовой стратегии (откатывается на ReAct, если улучшение не работает). На мультизадачных сценариях может потребоваться дифференциация held-out наборов по типам задач. Отложенная выборка консервативна: может отклонять полезные улучшения, если они не улучшают валидацию немедленно.

«Строгий отложенный отбор в RSEA обеспечивает монотонную безопасность рекурсивной саморазвития: метод никогда существенно не уступает базовому агенту на каких-либо бенчмарках и откатывается на стандартный ReAct, когда эволюционировавший контекст может навредить.»

— Recursive Self-Evolving Agents via Held-Out Selection (arxiv:2606.28374)