DSpark: ускорение вывода LLM через спекулятивное декодирование

DeepSeek опубликовала исследовательский доклад DSpark, описывающий новый подход к спекулятивному декодированию, технике ускорения вывода LLM. В стандартном процессе модель генерирует по одному токену за раз, что требует полного forward pass для каждого токена. Спекулятивное декодирование решает эту проблему, позволяя черновику быстро генерировать блок кандидатов, а целевой модели проверять весь блок в одном forward pass.

DSpark решает две критические проблемы существующих подходов. Во-первых, параллельные черновики генерируют все токены одновременно, но не моделируют зависимости между ними, что приводит к быстрому падению качества токенов ближе к концу блока. DSpark использует полуавторегрессивную архитектуру: параллельный основной модуль дополняется лёгким последовательным модулем, который вводит зависимости между токенами и замедляет деградацию.

Во-вторых, DSpark вводит адаптивную проверку на основе уверенности (confidence-scheduled verification). Вместо проверки всех предложенных токенов система оценивает вероятность принятия каждого токена и динамически регулирует длину проверки в зависимости от нагрузки на систему и предполагаемого качества. Это предотвращает трату вычислительной мощности на токены с высоким риском отклонения.

На офлайн-тестах DSpark улучшает принятую длину на 16, 31% по сравнению с существующими автоматическими и параллельными черновиками. На реальном трафике в системе DeepSeek-V4 решение ускоряет генерацию на 60, 85% для V4-Flash и 57, 78% для V4-Pro. Критически, DSpark предотвращает деградацию пропускной способности при жёстких требованиях к задержке, расширяя возможности системы.

Kомандовал работу Пекинский университет совместно с DeepSeek-AI. Компания выпускает обученные чекпоинты DSpark и открывает DeepSpec, репозиторий для обучения техник спекулятивного декодирования, включая Eagle3, DFlash и DSpark.

Ключевые факты

Полуавторегрессивная архитектура DSpark сочетает параллельную генерацию с лёгким последовательным модулем для моделирования зависимостей между токенами
Адаптивная проверка на основе уверенности динамически выбирает длину верификации, опираясь на вероятность принятия и нагрузку системы
На офлайн-тестах улучшение принятой длины токенов составляет 16, 31% против существующих методов
В боевой системе DeepSeek-V4 скорость генерации растёт на 60, 85% при сохранении пропускной способности
DeepSeek выпускает обученные чекпоинты и открывает репозиторий DeepSpec для развития исследований спекулятивного декодирования

Почему это важно

Вывод LLM в боевых системах чрезвычайно критичен к задержке: автоматическая генерация одного токена за раз означает, что время ответа растёт пропорционально длине ответа. Даже малые улучшения в скорости прямо влияют на пользовательский опыт. Спекулятивное декодирование, один из самых перспективных подходов к ускорению, и DSpark показывает, что правильная архитектура может расширить его возможности, особенно под реальной нагрузкой с конкурирующими запросами.

Кому это важно

Компаниям, развёртывающим LLM в высоконагруженных системах (OpenAI, Google, Meta, Anthropic), где требования к задержке критичны и вычислительные ресурсы дорогие. Разработчикам моделей, ищущим способы оптимизировать пропускную способность без потери качества. Исследователям в области эффективного вывода LLM и спекулятивного декодирования.

Как это применить

DSpark требует переподготовки черновика (нужны чекпоинты DeepSeek) и интеграции с инфраструктурой обслуживания. Компании с собственными LLM могут использовать опубликованный DeepSpec для обучения DSpark-подобных системы для своих моделей. Практикующим разработчикам доступен код и обученные чекпоинты для V4-Flash и V4-Pro; нужны эксперименты по адаптации архитектуры к другим моделям.

Можно ли доверять

Результаты подтверждены офлайн-тестами на стандартных бенчмарках (математика, генерация кода, диалоги) и реальным развёртыванием на системе DeepSeek-V4 с живым трафиком. Авторы вводят новую технику (semi-autoregressive generation) и практическую систему (confidence-scheduled verification), которые они подробно описывают. Результаты на реальном трафике (60, 85% ускорение) убедительнее офлайн-цифр, так как отражают реальные ограничения системы.

Риски и подводные камни

DSpark требует разработки специального черновика и переподготовки, что не всем доступно. Архитектура полуавторегрессивного декодирования добавляет сложность. Результаты получены на моделях DeepSeek; генерализация на другие архитектуры (Llama, GPT) требует проверки. Confidence head требует достоверных оценок вероятности, которые сложны в обучении. Код и чекпоинты выпущены недавно, производственная готовность может быть неполна.

«DSpark успешно смягчает затраты на верификацию, предотвращая резкую деградацию пропускной способности при строгих ограничениях интерактивности, в результате чего становятся доступны уровни производительности, которые ранее были недостижимы, эффективно смещая границу Парето нашей системы обслуживания.»

— DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation, DeepSeek-AI & Peking University