MemSlides: иерархическая память для агента генерации презентаций

MemSlides предлагает трёхуровневую архитектуру памяти для агента, генерирующего презентации. Система разделяет долгосрочные профили пользователей (их предпочтения и историю), рабочую память текущей сессии (контекст и ограничения) и память инструментов (переиспользуемый опыт выполнения команд). Такая иерархия обеспечивает стабильную персонализацию: агент помнит, что нравится пользователю, но гибко адаптируется к текущей задаче. Фреймворк поддерживает надёжные локальные правки в процессе многоходового диалога: пользователь может переделать отдельные слайды, и система корректно обновляет только нужные части, не ломая зависимости между слайдами.

Ключевые факты

Трёхслойная архитектура памяти: долгосрочный профиль + рабочий контекст + опыт инструментов
Поддержка multi-turn revision: пользователь может править отдельные слайды в диалоге
Стабильная персонализация через раздельное управление профилем и сессией
Применимо для агентов, работающих с составными документами и итеративным пользовательским взаимодействием

Ред. Три уровня памяти, чтобы агент не забыл, какой у вас любимый шрифт. Презентации, кажется, ещё ни разу так серьёзно не воспринимали.

Почему это важно

Системы, генерирующие презентации, требуют двойного баланса: запомнить долгосрочные предпочтения пользователя (его стиль, бренд, аудитория) и гибко реагировать на конкретный запрос текущей сессии. Без иерархического разделения памяти агент либо забывает долгосрочный контекст, либо застревает на нём и игнорирует текущие правки. MemSlides решает эту проблему, показывая, как спроектировать память агента для надёжной персонализации с поддержкой итеративного рефайнмента.

Ред. Проблема реальная, но описана она так, будто до MemSlides агенты презентаций жили в режиме амнезии после каждого слайда. Иногда так и есть.

Кому это важно

Разработчикам agential систем для документооборота (генерация отчётов, презентаций, писем); продуктам, требующим персонализации с итеративной доработкой (дизайн-ассистенты, генераторы контента); исследователям в области Multi-agent систем и управления состоянием в LLM-фреймворках.

Ред. Список получился длинный: от документооборота до multi-agent исследователей. Когда «кому важно» расширяется до всех, кто работает с текстом, это обычно значит «пока никому конкретно».

Как это применить

Если вы строите агент, работающий с длинными документами или многошаговыми задачами, разделите память на слои: глобальный профиль (не меняется в сессии), контекст сессии (параметры текущей задачи) и рабочую память инструментов (что уже сделано, какие ошибки были). Это позволит агенту проводить итеративные правки без потери глобального контекста и предотвратит катастрофические забывания при глубоких диалогах.

Ред. Совет «разделите память на слои» звучит мудро ровно до момента, когда вы попробуете провести границу между «контекстом сессии» и «памятью инструментов» в живом коде.

Можно ли доверять

Статья из Hugging Face Papers (arXiv), авторство Ye Jin. Это исследовательская работа; реальная эффективность архитектуры на разных типах презентаций и доменов требует дополнительной валидации на вашем наборе данных.

Ред. Препринт arXiv, один автор, ноль независимых воспроизведений. Архитектура красивая на схеме, а на ваших слайдах это посмотрим.

Риски и подводные камни

Иерархическая память добавляет сложность в управлении состоянием; нужно чётко определить границы каждого слоя, иначе противоречия между слоями приведут к ошибкам. Масштабируемость неясна при глубоких диалогах (100+) с большими профилями. Требует заблаговременно спроектировать схему хранения профилей и вычистить мусор из памяти инструментов, иначе система деградирует.

Ред. Лечили катастрофическое забывание, получили катастрофическое усложнение состояния. Классический размен в мире агентов.