DRL: награды для flow matching без человеческой разметки

Исследователи предложили новый способ обучения генеративных моделей, которые создают изображения. Обычно такие модели требуют оценки человека, чтобы понять, какие изображения хорошие, а какие нет. DRL заменяет эту оценку автоматическим классификатором, который уже научился различать качественные изображения от плохих. Система работает с flow-matching моделями и score-matching моделями одновременно, улучшая как визуальное качество, так и смысловую точность.

Важный результат: модель не нужна обучение на предпочтениях людей. Вместо этого система использует знание, которое классификатор уже накопил из своего обучения. Это делает процесс более масштабируемым и экономит ресурсы на сборку человеческих оценок.

Ключевые факты

Использует предобученный классификатор как автоматическую функцию наград
Работает с flow-matching и score-matching моделями, улучшая качество генерации
Не требует человеческих оценок или разметки предпочтений
Улучшает как визуальное качество, так и семантическую точность изображений

Ред. «Награды без человеческой разметки» звучит как освобождение от RLHF, но человека просто заменили его же бывшей работой: классификатор, который размечали люди, теперь раздаёт награды за них.

Почему это важно

Генеративные модели VC matching-losses (flow и score matching) оптимизируют ℓ₂-регрессию на поле скоростей под training-time маргиналы. Это слабо коррелирует с визуальным и семантическим качеством, которое определяет output при inference. DRL заменяет это на предобученный discriminator в пространстве представлений, обученный отличать реальные данные от output базовой модели. Логит discriminator служит функцией reward для KL-regularized RL. На SiT модели это привело к падению FID с 9,38 до 2,62, semantic FD (DINOv3) с 88,2 до 19,3. Главный инсайт: RL предоставляет лучший пейзаж оптимизации для качества, чем matching losses.

Ред. FID с 9,38 до 2,62 это эффектно, пока не вспомнишь, что дискриминатор учат отличать реальные данные от output базовой модели, а потом этим же логитом её и награждают. Модель просто гонят туда, куда указывает её собственный критик: чудес в семь раз тут меньше, чем в графике.

Кому это важно

Компаниям, создающим генеративные модели изображений: реклама, дизайн, видео-синтез. Исследователям в области выравнивания генеративных моделей, которые хотят улучшать качество без разметки человеческих предпочтений. Организациям, обучающим большие диффузионные модели, где сбор RLHF данных становится узким местом. Разработчикам моделей, которые хотят улучшить Pareto frontier для последующего preference-based RL.

Ред. Тем, у кого «сбор RLHF стал узким местом», предлагают обойти его обучением ещё одного классификатора. Узкое место не исчезает, оно переезжает на этап «найдите SSL-пространство, скоррелированное с восприятием», что само по себе ручная работа.

Как это применить

DRL работает как финальный stage post-training для любой flow или score matching модели (SiT, JiT, REPA, RAE архитектуры тестировались). Шаг 1: обучить discriminator в SSL feature space отличать real data от generated samples. Шаг 2: использовать discriminator logit как reward signal. Шаг 3: запустить KL-regularized RL на модели обучение. Процесс не требует аннотаций человеческих предпочтений. Авторы показали, что это улучшает held-out preference rewards и создаёт лучшую baseline для дальнейшей preference-based post-training.

Ред. Три аккуратных шага, и в них же зарыт главный труд: «обучить discriminator отличать real от generated». Если он различает плохо, reward становится шумом, и весь элегантный RL оптимизирует случайность.

Можно ли доверять

Метод тестировался на множественных архитектурах (SiT, JiT, REPA, RAE) с consistent gains. Авторы провели абляцию и показали, что matching ℓ₂-loss действительно слабо коррелирует с семантическим качеством. Улучшения в 7+ раз по FID это объективная, проверяемая метрика. Работа демонстрирует, что улучшенная базовая модель служит лучше стартовой точкой для preference RL.

Ред. Четыре архитектуры с consistent gains и ablation, показывающий слабую корреляцию ℓ₂-loss с семантикой, это сильно. Слабее то, что метрика качества (FID, DINOv3-FD) считается в фичах сетей, родственных самому дискриминатору: критик и судья учились в похожих пространствах.

Риски и подводные камни

Требует обучения discriminator в репрезентационном пространстве, что добавляет computational overhead. Если discriminator недостаточно различителен, reward signal будет шумным. На практике нужно выбирать SSL feature space, который хорошо скоррелирован с перцептивным качеством для вашего домена. RL оптимизация может привести к mode collapse если learning rate слишком высок. Требует KL penalty, чтобы модель не отклонилась слишком далеко от обученной базовой модели.

Ред. Раздел перечисляет ровно те грабли, которые метод обещал убрать: overhead на обучение дискриминатора, mode collapse при высоком LR, обязательный KL-штраф, чтобы модель не сбежала. RLHF убрали, а тюнинг наград и борьбу с коллапсом оставили.