Улучшенные диффузионные языковые модели с двусторонним вниманием

iLLaDA, новая языковая модель на 8B параметров, обучена методом диффузии с полностью двусторонним вниманием вместо традиционного авторегрессионного подхода с причинным вниманием. Модель обучалась на 12 триллионах токенов в режиме masked diffusion, затем дообучалась на корпусе инструкций объёмом 25B токенов в течение 12 эпох. Авторы применили переменную длину генерации для повышения эффективности и score-based подход для evaluation задач множественного выбора.

Ключевые результаты: iLLaDA-Base улучшает LLaDA на 21.6 пункт по BBH (Big-Bench Hard) и 14.9 пункт по ARC-Challenge; iLLaDA-Instruct добавляет 14.5 пункт по MATH и 16.5 пункт по HumanEval. Несмотря на неавторегрессивное обучение, модель остаётся конкурентоспособна с Qwen2.5 7B на целом ряду бенчмарков. Это демонстрирует жизнеспособность диффузионного подхода как альтернативной парадигмы для обучения сильных языковых моделей с нуля.

Ключевые факты

Диффузионная архитектура с полностью двусторонним вниманием конкурирует с авторегрессионными моделями, задавая вопрос о необходимости причинного внимания
Масштабирование на 12T токенов при masked diffusion показывает выход на плато vs LLaDA; дальнейший прирост достигается инструкционным дообучением
Бенчмарки математики (+14.5 MATH) и кодирования (+16.5 HumanEval) видят наибольший прирост, общие задачи (+21.6 BBH) улучшены значительно
Переменная длина генерации и confidence scoring доказывают инженерные оптимизации для практического развёртывания диффузионных LLM
Код и веса открыты (GitHub/ML-GSAI), что потенциально перестраивает поле текущих методик обучения ЛЯМ

Почему это важно

Диффузионные модели до этого были преимущественно визуальным полем (DALL-E, Stable Diffusion). Применение к языку при масштабировании до 8B параметров и 12T токенов показывает, что эта парадигма работает конкурентоспособно с укоренённой авторегрессивной логикой. Это расширяет дизайн-пространство для архитектур ЛЯМ и ставит вопрос о том, является ли причинное внимание необходимым или предпочтительным, а не просто стандартным.

Кому это важно

Исследователи фундаментальных подходов к LLM (OpenAI, Meta, Anthropic, DeepSeek); разработчики открытых моделей, ищущие альтернативы трансформер-цепочке; компании, инвестирующие в pre-training инфраструктуру и рассматривающие diversification архитектур; специалисты по эффективности моделей (latency, inference cost), диффузия может дать новые tradeoff'ы.

Как это применить

Для исследовательских целей: клон репо, встроить iLLaDA в eval pipeline рядом с LLaDA/Qwen2.5 для прямого сравнения в собственных domain benchmark'ах. Для production: пока модель не показана в production inference stack'е; вариативная длина генерации может улучшить throughput, если вы готовы работать с диффузионным семплингом. Для архитектур: экспериментируйте с masked diffusion + двусторонним вниманием в собственных pre-training пайплайнах на меньших масштабах, чтобы понять trade-off'ы.

Можно ли доверять

Источник, academia-grade paper (HuggingFace/arXiv); авторы (Shen Nie et al., ML-GSAI), известный клан; бенчмарки (BBH, ARC, MATH, HumanEval), стандартные индустриальные тесты. Код открыт, веса открыты → воспроизводимость высока. Однако сравнение vs LLaDA заслоняет вопросы про inference speed, memory, практическое развёртывание; эти метрики в тексте не раскрыты.

Риски и подводные камни

Отсутствие inference latency и memory footprint, диффузия в языке может быть дороже по времени, чем авторегрессия. Дообучение на 12 эпох инструкционного корпуса может маскировать слабость базовой диффузионной парадигмы. Scalability за 8B неясна (10B, 70B, 175B?). Производство гипотезы «двусторонность + масштаб = хорошо» на основе одной модели. OpenAI/Meta/DeepSeek не массово переходят на диффузию, это сигнал о возможных скрытых затратах.