JetSpec: преодоление потолка ускорения спекулятивного декодирования параллельным черновиком

Спекулятивное декодирование (SD) ускоряет автогрессивные большие языковые модели, черновик порождает несколько токенов, а основная модель проверяет их параллельно. Однако традиционные подходы сталкиваются с потолком масштабируемости: увеличение бюджета на черновик помогает только если принимаемость остаётся высокой, а затраты на черновик остаются низкими.

Проблема возникает в принципиальном конфликте: автогрессивные черновики (порождают токены последовательно) создают эффективные кандидаты для дерева, но их стоимость растёт с глубиной. Двусторонние черновики (порождают все позиции за раз) быстры, но генерируют взаимно несогласованные варианты, тратя бюджет впустую.

JetSpec комбинирует эффективность одноходового черновика с условной казуальностью для каждой ветви. Система обучается на скрытых состояниях замороженной целевой модели, производя деревья кандидатов, чьи оценки совпадают с автогрессивной факторизацией основной модели. Это позволяет конвертировать больший бюджет на черновик в более длинные принятые префиксы и выше конечное ускорение.

На тестах с математикой, кодингом и диалогами на плотных и MoE Qwen3 моделях JetSpec постоянно превосходит другие методы. На GPU H100 достигаются ускорения до 9,64x на MATH-500 и 4,58x на разговорных задачах, с дополнительными выигрышами в задержке через интеграцию с vLLM под реальными нагрузками раздачи. Код и модели доступны на GitHub.

Ключевые факты

JetSpec преодолевает масштабируемость спекулятивного декодирования через параллельное черновое построение с казуальной условностью
Комбинирует однопроходную эффективность с ветвистой автогрессивной факторизацией, избегая взаимной несогласованности кандидатов
На H100 достигает ускорения до 9,64x на математических задачах и 4,58x на диалогах, превосходя двусторонние и древесные базовые линии
Работает с MoE и плотными Qwen3 моделями, с дополнительной оптимизацией задержки через vLLM
Код и обученные модели открыты на GitHub

Почему это важно

Скорость генерации токенов, критический фактор для практического развёртывания LLM. Спекулятивное декодирование годами был основным подходом к ускорению, но его масштабируемость застопорилась: черновики либо медленные (если казуальные), либо неправильно предсказывают следующие позиции (если параллельные). JetSpec решает этот конфликт, позволяя использовать больший бюджет вычислений на черновик без деградации качества. Это прямо влияет на снижение затрат на раздачу моделей и пользовательский опыт.

Кому это важно

Провайдеры облачных сервисов LLM (OpenAI, Anthropic, больших облачных платформ), компании, развёртывающие свои LLM на дорогих GPU, исследователи оптимизации нейросетей. Также важно для фронтенд-приложений, где задержка генерации влияет на UX.

Как это применить

JetSpec может быть встроен в существующие фреймворки раздачи LLM (авторы показали интеграцию с vLLM). Требует обучения головы черновика на целевой модели, но не требует переобучения самой модели. Применимо к любым автогрессивным трансформерам; авторы демонстрируют на Qwen3, но метод универсален. Для компаний с собственным стеком вывода это bedeutет потенциальное снижение операционных затрат на 50, 60%.

Можно ли доверять

Авторы из Hao AI Lab, статья на arXiv (рецензирование предстоит). Результаты включают стандартные бенчмарки (MATH-500, Open-ended chat) и измерения на реальном оборудовании (H100). Полный код и модели открыты, что позволяет независимо проверить результаты. Однако реальное ускорение зависит от размера модели, типа задачи и конфигурации раздачи, 9,64x на MATH может быть оптимистичным сценарием для диалогов.

Риски и подводные камни

Ускорение варьируется в зависимости от характера задачи (математика даёт выше, диалоги ниже). Требует обучения дополнительной компоненты, что добавляет сложность к пайплайну развёртывания. Для очень больших моделей (MoE Qwen3) память для промежуточных состояний может стать узким местом. JetSpec лучше всего работает с моделями, обученными на коротких последовательностях; для длинных контекстов требуется дополнительная оптимизация.

«JetSpec обучается на скрытых состояниях замороженной целевой модели, производя деревья кандидатов, чьи оценки совпадают с автогрессивной факторизацией целевой модели.»

— Статья JetSpec