Qwen-AgentWorld: языковые модели мира для универсальных агентов

Qwen-AgentWorld - это первая пара специализированных языковых моделей (35B и 397B параметров), которые могут предсказывать динамику окружения для агентов в 7 разных доменах. Модели обучены на более 10 миллионов траекторий взаимодействия из реальных окружений через трёхэтапный процесс: общее предварительное обучение (CPT) на динамике переходов состояний, специализированное тонкое настраивание (SFT) на предсказании следующего состояния, и усиленное обучение (RL) для повышения точности симуляции. Помимо фундаментальных моделей, авторы показали два применения: как развязанный симулятор окружения для масштабируемого обучения с подкреплением тысяч агентов, и как базовая модель для агентов, улучшающая производительность на 7 бенчмарках.

Ключевые факты

Языковые модели, которые симулируют окружение для агентов в 7 доменах
Обучение на 10M+ траекториях взаимодействия из реальных окружений
Трёхэтапный процесс: CPT + SFT + RL с гибридными системами вознаграждения
Превосходит frontier модели на новом бенчмарке AgentWorldBench из 9 устойчивых тестов
Применение как симулятор для RL обучения и как инициализация для других агентов

Почему это важно

World models - ключевой компонент для агентов, которым нужно планировать и рассуждать. Языковые модели, которые могут точно симулировать окружение, открывают новые возможности для обучения агентов без доступа к реальным окружениям, экономия ресурсов и безопасность.

Кому это важно

Исследователям в области ИИ агентов, компаниям, создающим автономные системы, разработчикам, работающим с обучением с подкреплением. Особенно важно для тех, кто ищет способы масштабировать обучение агентов.

Как это применить

Можно использовать Qwen-AgentWorld для предварительного обучения собственных агентов перед их взаимодействием с реальным окружением. Это должно сократить время обучения и улучшить производительность на разных задачах.

Можно ли доверять

Это официальная работа Alibaba Qwen team, опубликованная на arXiv 23 июня 2026. Включает новый бенчмарк для оценки языковых world models. Код обещан быть доступен.

Риски и подводные камни

Языковые модели могут содержать систематические ошибки при симуляции, что может привести к обучению агентов неправильно моделировать реальность. Требует валидации на реальных окружениях перед применением в критических системах.

«A world model predicts environment dynamics based on current observations and actions, serving as a core cognitive mechanism for reasoning and planning.»

— Qwen-AgentWorld, arXiv:2606.24597