Почему текстовые латенты срываются в несколько шагов, а изображения работают: геометрия резких переходов

Парадокс: детерминированная генерация в несколько шагов отлично работает на непрерывных латентных пространствах изображений (диффузионные модели), но полностью падает на текстовых. Авторы доказывают, что причина не в обучении или масштабе, а в геометрии: гладкая детерминированная трансформация просто не может разрешить дискретный выбор токена раньше, чем произойдёт резкий категориальный переход в декодере.

Теоретический результат (теорема 3): в реальных текстовых автокодировщиках финальный шаг переворачивает токены со скоростью, пропорциональной латентной массе в трубке вокруг границ решений. Диагностика выявила асимметрию: четыре независимо построенных текстовых декодера усиливают возмущение на границе в 500, 100 000 раз (метрика DABI), тогда как изображения показывают DABI ≈ 1.

Два механизма обхода узкого места: категориальная приверженность (автокрегрессивные декодеры работают несмотря на резкие переходы) и стохастический ре-инжект (детерминированный ODE даёт перплексивность 294 против 50 для SDE). В идеальном разделённом режиме авторы доказывают трейд-офф между точностью, глубиной и жёсткостью переноса: стоимость в детерминированном-непрерывном классе неприводима.

Ключевые факты

Детерминированная генерация в 4 шага работает на изображениях, но полностью срывается на тексте, различие геометрическое, не в обучении
Текстовые декодеры имеют DABI (резкость чтения) в 500, 100 000 раз выше, чем изображения; это предотвращает разрешение дискретного выбора за несколько шагов
Два выхода: категориальная приверженность (авторегрессия) и стохастический ре-инжект (добавление шума в детерминированный поток); последний даёт перплексивность 50 против 294
Математическое доказательство: жёсткость детерминированного потока, нужная для разделения M режимов, растёт как корень из log M в зависимости от размерности латентного пространства
Неприводимый трейд-офф: в детерминированно-непрерывном классе нельзя улучшить одно без ущерба другому

Почему это важно

Генерация в несколько шагов критична для быстрого вывода, но текстовые модели поддаются несравнимо хуже, чем изображения. Статья показывает, что это не недостаток обучения, а фундаментальное геометрическое ограничение: латентное пространство текста требует резкого декодирования для различения дискретных токенов, что несовместимо с плавной трансформацией в несколько шагов. Понимание этой границы критично для разработки быстрых текстовых моделей.

Кому это важно

Исследователям в области генеративных моделей, компаниям, развивающим быстрые текстовые системы генерации (LLM inference optimization, few-step diffusion для текста), и инженерам, внедряющим детерминированные схемы вывода. Также актуально для работ по спекулятивной декодировке и ускорению LLM.

Как это применить

Результаты указывают два практических пути: (1) использовать автокрегрессивный декодер вместо детерминированного (работает несмотря на резкость), (2) добавить контролируемый шум (SDE вместо ODE) на заключительных шагах. Для инженеров это означает: при оптимизации текстовых моделей под few-step, отказаться от чистой детерминированности и либо пойти в авторегрессию, либо позволить SDE на последних этапах. Игнорирование геометрической резкости декодера обречено на неудачу.

Можно ли доверять

Статья из arXiv с формальными доказательствами (теоремы 1, 17), эмпирически подтвержденными диагностиками (DABI и CCI) на опубликованных контрольных точках четырёх независимых моделей. Авторы обычно принадлежат к исследовательским группам в области глубокого обучения. Теоретические результаты строгие, диагностика основана на измеримых метриках, экспериментальная проверка воспроизводима.

Риски и подводные камни

Результаты относятся к детерминированным схемам few-step в непрерывном пространстве; гибридные или полностью дискретные подходы могут обходить геометрические ограничения. Практическое значение ограничено текстом; для изображений проблема не стоит. Также важно, что DABI и CCI, диагностики, а не полные лекарства: они показывают, где проблема, но не дают универсального решения для произвольных архитектур.

«Гладкая, регулярностью ограниченная детерминированная функция не может разрешить дискретный выбор категории до резкого категориального чтения, поэтому неудача few-step управляется резкостью декодера, а не точностью транспорта.»

— Why Do Few-Step Text Latents Fail When Image Latents Work?