AgentOdyssey: открытые текстовые игры с длинным горизонтом для непрерывного обучения агентов на тест-тайме

AgentOdyssey, это фреймворк для оценки агентов, которые должны учиться прямо во время работы (test-time continual learning). Исследователи генерируют процедурно открытые текстовые игры с богатыми сущностями, динамикой мира и задачами на длинный горизонт. Ключевая идея: вместо традиционного предположения, что обучение не происходит на тесте, они помещают агентов в непрерывную среду, где обучение и вывод чередуются во время развёртывания. Методология оценки проверяет прогресс в игре, но также диагностирует способности: усвоение знаний о мире, запоминание эпизодов, исследование объектов и действий, разнообразие действий, стоимость работы модели. При тестировании разных типов агентов обнаружилось: даже лучшие модели существенно отстают от человека, краткосрочная память помогает нескольким парадигмам агентов, а производительность растёт только с более мощными базовыми моделями.

Ключевые факты

AgentOdyssey генерирует открытые текстовые игры для оценки непрерывного обучения агентов на развёртывании, смешивая научение и вывод
Методология измеряет не только прогресс в игре, но и знание мира, эпизодическую память, исследовательское поведение и разнообразие действий
Все протестированные агенты отстают от человеческого уровня, указывая на критические ограничения в способностях к долгосрочному планированию и адаптации
Краткосрочная память оказалась ключевой компонентой эффективного тест-тайм обучения для множественных типов агентов
Производительность коррелирует с мощностью базовой модели, но даже лучшие агенты оставляют значительный простор для улучшения

Почему это важно

Большинство AI-систем сегодня замерзают на развёртывании, а реальные задачи требуют постоянного приспособления. Понимание того, как агенты учатся в боевых условиях, критично для создания адаптивных систем.

Кому это важно

Исследователям непрерывного обучения, разработчикам LLM-агентов, тем, кто строит системы для динамических окружений, где заранее нельзя предусмотреть все сценарии.

Как это применить

Оценивайте своих агентов фреймворком AgentOdyssey, если они должны работать долго и учиться на ходу. Сосредоточьтесь на усилении краткосрочной памяти, экспериментируйте с более мощными базовыми моделями, измеряйте не только финальный результат, но и промежуточные способности: исследование, адаптацию, запоминание.

Можно ли доверять

Работа опирается на генерируемые игры, что может не всегда отражать сложность реальных задач. Тем не менее фреймворк предлагает систематический способ измерения ключевых способностей непрерывного обучения, а результаты честные: даже лучшие модели далеки от совершенства.

Риски и подводные камни

Текстовые игры упрощают реальность; генерируемые среды могут иметь закономерности, которые агент найдёт, но они не будут соответствовать сложности естественного мира. Также остаётся неясным, насколько выводы из игровой среды обобщаются на реальные задачи.