Qwen-Image-2.0-RL: улучшение генерации изображений через обучение с подкреплением

Исследователи из Alibaba представили Qwen-Image-2.0-RL, пост-тренировочный конвейер для улучшения диффузионной модели Qwen-Image-2.0 с помощью обучения с подкреплением от человеческой обратной связи (RLHF) и дистилляции на политике (OPD). Ключевое достижение: модель получает специализированные системы вознаграждений для разных задач. Для текста в изображение система оценивает выравнивание с текстом, эстетику и точность портретов. Для редактирования изображений система проверяет соответствие инструкциям и сохранение личности лица. Система вознаграждений строится путём дообучения моделей зрения-языка с использованием логирования мнений и цепочки рассуждений. Обучение использует фреймворк на основе GRPO с гибридной стратегией classifier-free guidance (CFG) для сохранения знаний из предтренированной модели, отбором запросов через фильтрацию диапазона вознаграждений и калибровкой весов вознаграждений по категориям. На завершающем этапе дистилляция на политике объединяет несколько специализированных моделей в одну, используя выравнивание траекторий. По результатам: общий балл на Qwen-Image-Bench вырос на 2,61 пункта до 57,84, рейтинг Elo для генерации текста в изображение +78 до 1193, для редактирования +93 до 1349.

Ключевые факты

Использована двухуровневая система вознаграждений: одна для генерации изображений (эстетика, выравнивание, портреты), другая для редактирования (точность инструкций, сохранение личности)
Фреймворк GRPO с гибридной стратегией CFG предотвращает «забывание» знаний базовой модели при обучении с подкреплением
На-политической дистилляции позволяет объединить несколько специализированных моделей в одну без потери производительности
Существенные улучшения: +2,61 балла на собственном бенчмарке, +78 Elo рейтинга в арене генерации, +93 в арене редактирования
Система чувствительна к тонкой настройке, включая отбор запросов и калибровку весов вознаграждений по задачам

Почему это важно

Генеративные модели изображений часто расходятся в понимании инструкций или создают эстетически низкокачественный контент. Методы, основанные на человеческой обратной связи, открывают путь к более точному и визуально привлекательному генерированию. Исследование показывает, как можно практически применить RLHF и дистилляцию в контексте диффузионных моделей, где это исторически было сложнее, чем в генеративно-преобразовательных сетях.

Кому это важно

Разработчикам и исследователям в области генеративного ИИ, которые улучшают модели генерации изображений. Компаниям, использующим Qwen-Image для производства контента, включая редактирование фотографий и создание портретов. Специалистам, интересующимся применением обучения с подкреплением к модальностям, отличным от текста.

Как это применить

Разработчики могут адаптировать архитектуру системы вознаграждений для своих специфических задач, заменив дефаултные размерности (эстетика, выравнивание, портреты) на задачу-специфичные метрики. Фреймворк GRPO + CFG может использоваться как шаблон для обучения диффузионных моделей. Калибровка весов вознаграждений по категориям (т. е. разные веса для разных типов запросов) оказалась критична для стабильности, это следует учесть при реплик-ции.

Можно ли доверять

Статья опубликована Alibaba, авторитетной компанией в области ИИ-исследований, на Hugging Face. Результаты оценены на собственном бенчмарке (Qwen-Image-Bench) и через Elo-рейтинг арен (оценка через сравнения человеком), что является стандартом для оценки качества генерации. Однако независимая верификация на сторонних бенчмарках не упомянута.

Риски и подводные камни

Система вознаграждений зависит от качества дообучения моделей зрения-языка; некачественные сигналы обратной связи приведут к регрессии. Гибридная стратегия CFG требует тонкой настройки параметров, и неправильная калибровка может разрушить как качество, так и скорость поколения. Дистилляция на политике добавляет вычислительные затраты на последний этап обучения. Неясно, насколько хорошо метод обобщается на другие архитектуры диффузионных моделей или на задачи за пределами рассмотренных.

«Мы достигли Elo рейтинга 1193 в арене текста в изображение (+78) и 1349 в арене редактирования (+93), демонстрируя последовательный прирост эстетического качества, точности следования инструкциям и точности редактирования.»

— Qwen-Image-2.0-RL Technical Report, Alibaba