TurboServe: система для эффективного обслуживания потоковой генерации видео

Потоковая генерация видео становится новым типом рабочей нагрузки: пользователи создают долгоживущие сессии, видео генерируется прогрессивно, по кускам. В отличие от офлайн-генерации или типичного LLM-serving, этот процесс требует сохранения состояния сессии, повторного планирования активных потоков и доставки каждого куска с жёсткими ограничениями на задержку.

В многопользовательском мультиарендном окружении возникают две критические проблемы: гетерогенность длительности сессий (долгие сессии делают размещение неоптимальным со временем) и временная гетерогенность спроса пользователей (количество активных сессий резко скачет между всплесками и затишьем).

TurboServe, первая serving-система, специально разработанная для потоковой генерации видео. Она формулирует обслуживание как задачу онлайн-планирования, которая одновременно координирует размещение сессий на GPU и выделение вычислительных ресурсов. Её замкнутый алгоритм планирования объединяет контроллер размещения (с учётом миграции), который перебалансирует сессии между GPU для снижения максимальной задержки на куск, и контроллер автомасштабирования, адаптирующий GPU-бюджет к колебаниям нагрузки.

Для реализации этих решений TurboServe использует: объединённую обработку кусков для батчирования одновременных сессий на одном GPU, выгрузку GPU-CPU для приостановки и возобновления сессий, и NCCL-основанную GPU-GPU миграцию для онлайн-перебалансирования.

Тестирование на реальных production-трассах из Shengshu Technology на кластерах до 64 NVIDIA B300 GPU показало: в сравнении с базовыми конфигурациями TurboServe снижает худшую задержку на куск на 37,5% и общую стоимость работы GPU на 37,2%. Код открыт на GitHub.

Ключевые факты

TurboServe, первая специализированная система для обслуживания потоковой генерации видео с управлением размещением сессий и динамическим масштабированием
Решает две ключевые проблемы: гетерогенность длительности сессий и резкие скачки в количестве активных пользователей
Алгоритм объединяет контроллер миграции (для перебалансирования сессий) и контроллер автомасштабирования (для эффективности затрат)
Реализует три технические инновации: объединённую обработку кусков, GPU-CPU offloading и NCCL-based миграцию между GPU
На production-трассах реального сервиса показала 37,5% снижение задержки и 37,2% экономию на стоимости вычислений

Почему это важно

Потоковая видеогенерация, новый класс рабочих нагрузок, отличающийся от традиционного LLM-serving и офлайн-видео. Она требует сохранения состояния долгоживущих сессий, работы с резко меняющимся спросом и минимальной задержкой на каждый кадр. Существующие serving-системы не оптимизированы для этого сценария, что приводит к неэффективному использованию GPU и высоким затратам.

Кому это важно

Компаниям и сервисам, которые предлагают потоковую видеогенерацию конечным пользователям (интерактивные видеосервисы, творческие платформы, реал-тайм видео-API). Особенно важно для providers, стремящихся снизить latency (лучше пользовательский опыт) и стоимость GPU (лучше маржа).

Как это применить

TurboServe развёртывается как serving-слой для потоковой видеогенерации. Нужно интегрировать её контроллеры размещения и масштабирования в инфраструктуру, настроить параметры для своих моделей и GPU-кластера, и подключить мониторинг latency и cost-метрик. Код открыт на GitHub (shengshu-ai/TurboServe), документация и примеры для различных размеров моделей и кластеров включены.

Можно ли доверять

TurboServe тестировалась на production-трассах реального сервиса Shengshu Technology (крупный китайский AI-провайдер), что даёт высокую уверенность в практической применимости. Статья опубликована на HuggingFace Papers и содержит детальные описания алгоритма и результаты экспериментов. Код открыт и воспроизводим.

Риски и подводные камни

TurboServe оптимизирована для потоковой генерации видео; для других рабочих нагрузок (imagen, diffusion в офлайн-режиме, текстовые модели) может быть менее эффективна. Интеграция требует понимания serving-инфраструктуры и наличия GPU-кластера. Алгоритм динамического балансирования добавляет вычислительные расходы, которые полезны при высокой волатильности спроса, но могут быть избыточны для стабильных рабочих нагрузок.

«TurboServe формулирует обслуживание как задачу онлайн-планирования, которая одновременно координирует размещение сессий и выделение GPU.»

— Из описания TurboServe