Moebius: компактная модель инпэйнтинга размером 0,2B с производительностью 10B-моделей

Moebius предлагает радикальное сжатие параметров при сохранении качества инпэйнтинга. Ключ к успеху, двух компонентная архитектура: переструктурированная U-Net на основе LλM-блоков и адаптивная многозернистая дистилляция (multi-granularity distillation), которая выравнивает лёгкую специализированную модель с мощным преподавателем. Фреймворк построен на базе Latent Diffusion Model с Latent Categories Guidance. Результаты опубликованы как arXiv-статья (2606.19195) от авторов Kangsheng Duan, Ziyang Xu и других из университета Huazhong.

Ключевые факты

Размер модели: 0,2 млрд параметров вместо стандартных 10 млрд
Основа: Latent Diffusion Model с LCG (Latent Categories Guidance)
Новая архитектура U-Net с LλM-блоками для экстремальной эффективности
Метод: адаптивная многозернистая дистилляция (многоуровневое выравнивание с преподавателем)
Получена производительность моделей на 50x больше при 50x меньшем размере

Ред. «В 50 раз меньше при том же качестве», цифра ровно настолько круглая, чтобы захотелось проверить её на чём-то сложнее демо из статьи.

Почему это важно

Инпэйнтинг (восстановление/редактирование изображений) требует значительных вычислительных ресурсов. Масштабные модели невозможно развернуть на пограничных устройствах. Moebius демонстрирует, что при правильной архитектуре и тренировке можно достичь качества крупных моделей на 50× меньшем весе. Это открывает возможность локального редактирования изображений без облака.

Ред. Локальное редактирование без облака звучит прекрасно ровно до того момента, когда выясняется, что «пограничное устройство» в их тестах это всё-таки приличный GPU.

Кому это важно

Разработчикам мобильных приложений, работающим с компьютерным зрением; компаниям, стремящимся к приватности обработки изображений; исследователям в области дистилляции моделей и эффективной диффузии.

Ред. Список начинается с разработчиков мобильных приложений и заканчивается исследователями дистилляции, то есть теми, кто и так читает arXiv по утрам.

Как это применить

Модель доступна на базе исследований Hustvl. Код и веса можно получить с GitHub-репозитория проекта (см. hustvl.github.io/Moebius/). Интеграция в пайплайн возможна через стандартные фреймворки типа HuggingFace Transformers или через прямую работу с весами. Можно запустить локально на GPU или мощном CPU.

Ред. «Можно запустить локально на GPU или мощном CPU» это вежливый способ сказать, что на вашем телефоне оно пока не поедет.

Можно ли доверять

Исследование от известной исследовательской группы (Hustvl), статья размещена на arXiv с полной методологией и авторством. Публикация прошла научную рецензию; цифры воспроизводимы. Однако реальная производительность в боевых сценариях зависит от специфики данных.

Ред. Цифры воспроизводимы на их данных, а вот про ваши данные в статье предусмотрительно написано «зависит от специфики».

Риски и подводные камни

Дистилляция может привести к потере качества на сложных сценариях редактирования. Требует переобучения для специфичных доменов. Производительность на старых GPU может быть ниже, чем на новых с поддержкой специальных операций.

Ред. Дистилляция отлично работает, пока сценарий простой, ученик ведь запомнил ответы учителя, а не научился думать.