Qwen-AgentWorld: языковые модели как симуляторы окружения для ИИ-агентов

Исследование посвящено использованию языковых моделей как world models для симуляции окружения. World model предсказывает, как изменится состояние окружения при совершении агентом действия, что критично для рассуждения и планирования.
Авторы представили две модели: Qwen-AgentWorld-35B-A3B и Qwen-AgentWorld-397B-A17B (первые языковые world models, охватывающие 7 доменов окружения через цепочку рассуждений). Модели обучены на основе 10+ млн траекторий взаимодействия из реальных окружений через трёхэтапный pipeline: (1) CPT инъецирует способность к моделированию из динамики переходов состояния и профессиональных корпусов, (2) SFT активирует рассуждение о следующем состоянии, (3) RL улучшает точность через гибридные метрики-правила.
Для оценки создана AgentWorldBench, бенчмарк из реальных взаимодействий 5 frontier-моделей на 9 устоявшихся тестах. Qwen-AgentWorld значительно превосходит существующие модели. Model работает в двух парадигмах: как отдельный симулятор окружения (поддерживает масштабируемую симуляцию тысяч реальных окружений для обучения RL с улучшением, превосходящим обучение на реальных окружениях) и как unified foundation model для агентов (обучение world model служит эффективной разминкой для улучшения performance на 7 бенчмарках агентов).
Ключевые факты
- Первые языковые world models масштабом 35B и 397B для моделирования окружения агентов (7 доменов)
- Обучены на 10+ млн реальных траекторий взаимодействия с трёхэтапным pipeline (CPT→SFT→RL)
- Симулятор поддерживает масштабируемое обучение RL тысячам окружений с результатами лучше, чем на реальных данных
- World-model training как разминка улучшает производительность на 7 бенчмарках ИИ-агентов
- Превосходят все frontier-модели на AgentWorldBench (бенчмарк из 9 устоявшихся тестов)
Почему это важно
World models, моделирующие динамику окружения, это ядро когнитивного механизма для рассуждения и планирования. До сих пор лучшие решения либо узкоспециализированные, либо не масштабируются на реальные окружения. Qwen-AgentWorld показывает, что языковые модели способны моделировать сложные многодоменные окружения, что открывает путь к более универсальным и самостоятельным агентам.
Кому это важно
Разработчикам ИИ-агентов (robotics, task automation, game AI), исследователям в области reinforcement learning, компаниям, строящим системы автоматизации, которые требуют предсказания последствий действий без доступа к реальному окружению.
Как это применить
Использовать Qwen-AgentWorld как симулятор для обучения RL-агентов вместо реального окружения (экономия ресурсов и времени). Применять обучение world model как предварительную разминку перед fine-tuning на конкретном домене. Интегрировать в системы планирования, где модель предсказывает последствия перед исполнением.
Можно ли доверять
Исследование от Alibaba (Qwen team) с проверкой на AgentWorldBench (реальные траектории 5 frontier-моделей на 9 тестах). Модели обучены на реальных данных (10+ млн траекторий), а не на синтетике. Кроме того, результаты сравнены с существующими frontier-моделями. Открыт исходный код (GitHub).
Риски и подводные камни
World model, это приближение реальности, может накапливать ошибки при многошаговом предсказании. На новых доменах, не покрытых обучающими данными, точность может снизиться. Использование симулятора вместо реального окружения может привести к агентам, хорошо работающим в симуляции, но плохо в реальности (sim-to-real gap). Требует больших вычислительных ресурсов для обучения.
«В этой работе мы исследуем, как моделирование окружения на основе языковых моделей может двигать дальше границы универсальных агентов.»
— Yuxin Zuo (Alibaba Qwen team)