Qwen-AgentWorld: языковые модели как симуляторы окружения для ИИ-агентов

Исследование посвящено использованию языковых моделей как world models для симуляции окружения. World model предсказывает, как изменится состояние окружения при совершении агентом действия, что критично для рассуждения и планирования.

Авторы представили две модели: Qwen-AgentWorld-35B-A3B и Qwen-AgentWorld-397B-A17B (первые языковые world models, охватывающие 7 доменов окружения через цепочку рассуждений). Модели обучены на основе 10+ млн траекторий взаимодействия из реальных окружений через трёхэтапный pipeline: (1) CPT инъецирует способность к моделированию из динамики переходов состояния и профессиональных корпусов, (2) SFT активирует рассуждение о следующем состоянии, (3) RL улучшает точность через гибридные метрики-правила.

Для оценки создана AgentWorldBench, бенчмарк из реальных взаимодействий 5 frontier-моделей на 9 устоявшихся тестах. Qwen-AgentWorld значительно превосходит существующие модели. Model работает в двух парадигмах: как отдельный симулятор окружения (поддерживает масштабируемую симуляцию тысяч реальных окружений для обучения RL с улучшением, превосходящим обучение на реальных окружениях) и как unified foundation model для агентов (обучение world model служит эффективной разминкой для улучшения performance на 7 бенчмарках агентов).

Ключевые факты

Первые языковые world models масштабом 35B и 397B для моделирования окружения агентов (7 доменов)
Обучены на 10+ млн реальных траекторий взаимодействия с трёхэтапным pipeline (CPT→SFT→RL)
Симулятор поддерживает масштабируемое обучение RL тысячам окружений с результатами лучше, чем на реальных данных
World-model training как разминка улучшает производительность на 7 бенчмарках ИИ-агентов
Превосходят все frontier-модели на AgentWorldBench (бенчмарк из 9 устоявшихся тестов)

Почему это важно

World models, моделирующие динамику окружения, это ядро когнитивного механизма для рассуждения и планирования. До сих пор лучшие решения либо узкоспециализированные, либо не масштабируются на реальные окружения. Qwen-AgentWorld показывает, что языковые модели способны моделировать сложные многодоменные окружения, что открывает путь к более универсальным и самостоятельным агентам.

Кому это важно

Разработчикам ИИ-агентов (robotics, task automation, game AI), исследователям в области reinforcement learning, компаниям, строящим системы автоматизации, которые требуют предсказания последствий действий без доступа к реальному окружению.

Как это применить

Использовать Qwen-AgentWorld как симулятор для обучения RL-агентов вместо реального окружения (экономия ресурсов и времени). Применять обучение world model как предварительную разминку перед fine-tuning на конкретном домене. Интегрировать в системы планирования, где модель предсказывает последствия перед исполнением.

Можно ли доверять

Исследование от Alibaba (Qwen team) с проверкой на AgentWorldBench (реальные траектории 5 frontier-моделей на 9 тестах). Модели обучены на реальных данных (10+ млн траекторий), а не на синтетике. Кроме того, результаты сравнены с существующими frontier-моделями. Открыт исходный код (GitHub).

Риски и подводные камни

World model, это приближение реальности, может накапливать ошибки при многошаговом предсказании. На новых доменах, не покрытых обучающими данными, точность может снизиться. Использование симулятора вместо реального окружения может привести к агентам, хорошо работающим в симуляции, но плохо в реальности (sim-to-real gap). Требует больших вычислительных ресурсов для обучения.

«В этой работе мы исследуем, как моделирование окружения на основе языковых моделей может двигать дальше границы универсальных агентов.»

— Yuxin Zuo (Alibaba Qwen team)