MaineCoon: первая модель для видео с звуком в реальном времени

Новый подход к моделированию видео объединяет звук и визуальную составляющую в одну аутореграмму модель. MaineCoon показывает, что можно генерировать длинные видеосцены с синхронизированным аудио, не жертвуя скоростью обработки. Система использует новый метод тренировки и инференса, который позволяет ей работать на графических процессорах с приемлемой нагрузкой.

Это первая работа такого масштаба, где видеомодель полностью интегрирует аудиопоток и может работать в условиях, близких к реальному времени. Авторы показывают, что качество долгосрочного видео достаточное, чтобы использовать его как социальный мир для симуляций.

Ключевые факты

Первая модель, которая генерирует видео с синхронизированным звуком в реальном времени
Аутореграмма архитектура обрабатывает видео и аудио как единый поток данных
Тестировалась на синтезе социальных сцен с несколькими персонажами
Работает с высокой частотой кадров без значительного увеличения вычислительных затрат

Ред. «Первая модель такого масштаба» это любимая формула arXiv: достаточно сузить определение («real-time аудиовизуальная аутореграмма на 22B»), и первым становится кто угодно.

Почему это важно

До сих пор видеомодели либо игнорировали звук, либо добавляли его постфактум с плохой синхронизацией. MaineCoon первая real-time аудиовизуальная аутореграмма модель размером 22 миллиарда параметров, которая может это делать. Достигает 47,5 кадров в секунду на одном GPU с потоковой генерацией. Стоит менее одной десятитысячной доллара за секунду синтезированного видео. Это критически важно для правдоподобных видеосимуляций социальных сцен. Если персонаж поёт, его губы движутся синхронно с голосом, а не просто трясутся в ритме.

Ред. 47,5 FPS на «одном GPU» звучит скромно ровно до момента, когда вспоминаешь, что под 22 миллиарда параметров этот один GPU стоит как подержанная машина. Губы, синхронные с голосом, это приятно, но «менее одной десятитысячной доллара за секунду» считают без амортизации железа.

Кому это важно

Компаниям, создающим генеративный видеоконтент: реклама, кино, потоковые платформы. Исследователям в области world models, строящим симуляции социального поведения с audio-visual синхронизацией. Разработчикам embodied AI систем, которым нужны синтетические социальные сценарии для обучения. Создателям контента для VR/AR, которым требуется синхронизированная аудиовизуальная генерация в реальном времени.

Ред. Рекламе, кино и стримингу обещают real-time генерацию, а в рисках та же модель признаётся, что на длинных роликах деградирует. Продакшену нужны минуты стабильного видео, демо показывает секунды.

Как это применить

MaineCoon обучалась на социальном видео с речью и музыкой. На входе система берёт начальное видеоописание и управляющий текст. На выходе получается многосекундное видео с синхронизированным звуком. Интеграция требует API видеомодели и обработки потока видеокадров через аутореграмма decoder с кэшированием и предварительным планированием, чтобы избежать дрифта. Система может работать как в streaming mode на edge, так и в batch mode для offline обработки.

Ред. «Интеграция требует API видеомодели» это вежливый способ сказать, что API пока нет, а есть decoder с кэшированием и предварительным планированием «чтобы избежать дрифта». Дрифт, от которого приходится защищаться вручную, обычно так просто не уходит.

Можно ли доверять

Модель тестировалась на SocialVideo-Bench против 7 baseline моделей по 9 метрикам. Показала лучшие результаты на Audio-Visual Harmony и Joint Score (средний 0.934). Достижение 47,5 FPS на одном GPU это объективная метрика, проверяемая независимо. Авторы использовали domain-aware preference optimization и reinforced online-policy distillation.

Ред. Лучшие места на SocialVideo-Bench приятны, но бенчмарк, против которого меряются, похоже, изобрели в той же лаборатории. FPS проверяем независимо, а вот «Audio-Visual Harmony 0.934» проверяем только тем, кто согласится с авторской метрикой гармонии.

Риски и подводные камни

Требует 22 миллиарда параметров, что серьёзно для развёртывания на edge. Качество может деградировать на тысячесекундных поколениях из-за накопления ошибок при долгом inference. Социальные сцены со множеством персонажей остаются сложной задачей. Генерация зависит от качества начального фрейма и управляющего текста, ошибки в input прямо переносятся на output.

Ред. Раздел перечёркивает заголовок по пунктам: 22B тяжелы для edge, на тысячах секунд накапливается ошибка, толпа персонажей не даётся, а мусор на входе становится мусором на выходе. От «социального мира для симуляций» остаётся короткий клип при удачном первом кадре.