AgenticSTS: тестирование долгосрочных LLM-агентов с ограниченной памятью

В работе рассматривается фундаментальная проблема архитектуры LLM-агентов, работающих на горизонте в сотни решений: как хранить и предоставлять контекст для каждого решения.

Текущий упрощённый подход, приписывать к каждому промпту всё прошлое (наблюдения, вызовы инструментов, рефлексии). Это упрощает доступ к контексту, но превращает промпт в перепутанную смесь, где влияние отдельных компонент памяти невозможно изолировать.

Авторы вводят альтернативный подход с ограниченным контрактом: каждое решение принимается из свежего пользовательского сообщения, собранного типизированным поиском, без сырого сквозного транскрипта. Промпт остаётся ограниченным при запусках любой длины, и каждый слой памяти можно тестировать отдельно.

Методологию они инстанцировали в игре Slay the Spire 2, стохастической игре в построение колоды, требующей сотен тактических и стратегических решений. На самом низком уровне сложности пять конфигураций фронтьерных LLM показывают нулевые победы, человеческий процент побед на том же уровне, 16%.

На своём стенде с фиксированной базовой моделью (A0) наибольшая разница наблюдается при включении слоя стратегических навыков: без сохранения памяти базовая модель выигрывает 3 из 10 игр, с добавлением слоя навыков, 6 из 10. При таких размерах выборки различие направленное, а не статистически определяющее (Fisher exact p≈0.37).

Авторы выпустили воспроизводимый стенд: 298 полных траекторий с тегами условий, замороженные снимки памяти и навыков, записи промптов и скрипты анализа.

Ключевые факты

Типичный подход (приписывание всей истории) создаёт клаттер в промптах и усложняет анализ каждого компонента памяти
Предложена архитектура с ограниченным контрактом: свежее сообщение + типизированный поиск вместо полного транскрипта
Тестирование на Slay the Spire 2: базовая модель 3/10 побед, с модулем навыков 6/10 (при нулевых победах для фронтьерных LLM на этом уровне сложности)
Человеческая граница производительности на том же уровне, 16% побед, что подтверждает сложность задачи
Открытый воспроизводимый бенчмарк с 298 траекториями, промптами и скриптами анализа для тестирования архитектур памяти

Почему это важно

LLM-агенты, работающие на длинных горизонтах (сотни решений), сталкиваются с дилеммой памяти: либо опираться на полный контекст (и получить огромный клаттер в промпте), либо потерять критическую информацию. Обычный подход, просто приписывать всё прошлое, затрудняет изучение того, какие компоненты памяти действительно помогают принятию решений. Новый подход с ограниченным контрактом и типизированным поиском позволяет держать промпт компактным и при этом тестировать влияние каждого слоя отдельно. Это важно для разработки более эффективных долгосрочных агентов.

Кому это важно

Исследователям в области LLM-агентов и долгосрочного автономного планирования; командам, которые строят системы, требующие сотен последовательных решений (игровой ИИ, сложное планирование); тем, кто хочет понять, какие компоненты памяти реально работают в длинных сценариях.

Как это применить

Авторы предоставляют открытый стенд с игрой Slay the Spire 2, где легко тестировать разные архитектуры памяти. Вместо приписывания всей истории к каждому промпту, можно использовать типизированный поиск (поиск нужных фрагментов прошлого по типам: ошибки, успехи, правила игры и т. д.) и собирать из них свежее сообщение для каждого решения. Стенд даёт воспроизводимую методологию: 298 полных траекторий, снимки состояния, запись всех промптов, скрипты для анализа влияния разных слоёв.

Можно ли доверять

Это опубликованная исследовательская работа с чётко описанной методологией. Авторы честно отмечают, что размер выборки (10 игр) даёт направленный, но не статистически определяющий результат (p≈0.37). Они выпустили полный воспроизводимый стенд: код, данные 298 траекторий, промпты, скрипты, любой может повторить или расширить эксперименты. Сравнение с фронтьерными LLM (0 побед) и человеческой производительностью (16%) подтверждает, что задача действительно сложная и результаты не переоценены.

Риски и подводные камни

Размер выборки очень мал (каждый эксперимент на 10 играх), результаты могут не обобщаться на другие задачи и модели. Тестирование проведено на одной специфичной игре, где правила замкнутые и среда детерминирована (кроме колоды); неясно, как подход скажется на открытых, более сложных сценариях. Авторы не проводили статистически полноценных контролируемых тестов архитектурного переменного, скорее показали операционные сравнения разных конфигураций. Нужны дальнейшие исследования с более крупными выборками и другими задачами.