Архитектурные инновации в LLM: экономия KV-кэша и сжатие внимания

Последние месяцы в разработке открытых LLM отмечены фокусом на эффективности длинных контекстов. Когда модели рассуждения и агентские рабочие процессы накапливают больше токенов, размер KV-кэша (key-value cache), трафик памяти и вычислительная стоимость внимания становятся основными узким местом. Разработчики добавляют новые архитектурные техники для их сокращения.

Gemma 4 от Google (E2B и E4B варианты) внедряет переиспользование KV-тензоров между слоями: вместо того чтобы каждый слой вычислял собственные ключ и значение, более поздние слои переиспользуют KV из предыдущих слоёв того же типа. Например, в Gemma 4 E2B (35 слоев) только первые 15 вычисляют собственные KV-проекции, остальные 20 переиспользуют их. Это экономит примерно половину размера KV-кэша: для E2B на контексте в 128K это даёт экономию 2.7 ГБ (при bfloat16 точности).

Те же модели применяют per-layer embeddings (PLE), параметр-эффективный приём. E2B официально указан как 2.3B эффективных параметров или 5.1B с учётом эмбедингов. Вместо масштабирования всего трансформера, PLE добавляет лишь небольшой слой-специфичный токен-вектор после feed-forward ветки, что повышает ёмкость без разрастания основной вычислительной части.

Laguna XS.2 (первая открытая модель от европейского стартапа Poolside) вводит слойную бюджетизацию внимания: из 40 слоёв 30 используют скользящее окно (512 токенов), а 10, полное внимание. Это варьирует затраты на внимание по слоям в зависимости от их роли.

ZAYA1-8B применяет сжатую свёрточную архитектуру вместо стандартного внимания, уменьшая вычисления на больших контекстах.

DeepSeek V4 совмещает multi-head latent attention (mHC, где все headы идут через общее узкое место) с дополнительным сжатием внимания. Эти методы, не изменения в тактике обучения или наборах данных, а глубокие инженерные переделки архитектуры трансформера и механизма кэширования.

Ключевые факты

KV-sharing (переиспользование KV-тензоров между слоями) в Gemma 4 экономит ~50% размера KV-кэша, примерно 2.7 ГБ на 128K контексте для E2B
Per-layer embeddings в Gemma 4 E2B/E4B повышают параметрическую ёмкость без масштабирования основного трансформера: E2B = 2.3B эффективных или 5.1B с эмбеддингами
Laguna XS.2 вводит слойную бюджетизацию: разные слои имеют разные типы внимания (30 скользящих окон из 512 токенов, 10 полного внимания)
ZAYA1-8B заменяет традиционное внимание сжатой свёрточной архитектурой для экономии на больших контекстах
DeepSeek V4 комбинирует multi-head latent compression с дополнительным сжатием внимания, все headы проходят через общее узкое место перед расщеплением

Почему это важно

Растущая сложность reasoning моделей и агентских рабочих процессов требует работы с длинными контекстами (128K+ токенов). При этом KV-кэш быстро становится узким местом по памяти и вычислениям, с ним напрямую связаны затраты на forward pass и inference latency. Каждое из новых архитектурных решений (KV-sharing, PLE, слойная бюджетизация, сжатие внимания) целенаправленно снижает эту нагрузку. Эти приёмы позволяют строить модели, способные эффективно работать с длинными контекстами без пропорционального роста памяти и времени вычисления.

Кому это важно

Для разработчиков LLM-приложений, особенно работающих с агентами, рассуждающими моделями или задачами, требующими запоминания большого объёма информации. Для исследователей архитектур трансформеров. Для команд, развёртывающих LLM на ограниченном оборудовании (мобильные и embedded устройства, Gemma 4 E2B специально для IoT). Для компаний, оптимизирующих затраты на inference на облачных платформах.

Как это применить

Использовать Gemma 4 E2B/E4B для мобильных и embedded приложений, где требуется баланс между производительностью и размером. Для приложений с длинными контекстами (reasoning, агенты) выбирать модели с встроенным KV-sharing или сжатым вниманием (DeepSeek V4, ZAYA1). Архитектурные идеи (особенно KV-sharing и PLE) могут быть применены и при дообучении собственных моделей: KV-sharing пригодится для уменьшения памяти, PLE, для параметрической эффективности без масштабирования трансформера. Учитывать при выборе модели, что разные архитектуры влияют на скорость и нужный объём памяти для конкретного контекста.

Можно ли доверять

Высокой степени. Текст от Sebastian Raschka, автора книги «Machine Learning Systems Design» и опытного специалиста в ML-инженерии. Его статьи и обзоры архитектур отличаются технической глубиной и проверенной информацией. Большинство упомянутых техник (KV-sharing, GQA, MQA, MLA) описаны в академических работах (например, cross-layer attention указана с ссылкой на NeurIPS 2024 статью Brandon et al.). Конкретные цифры (2.7 GB экономии для Gemma 4 E2B на 128K) приведены прямо из официальных описаний моделей. Архитектуры Gemma 4, DeepSeek V4, Laguna XS.2, реальные выпущенные модели с открытой документацией.

Риски и подводные камни

KV-sharing снижает ёмкость модели (является приближением полного внимания), но согласно исследованиям, на малых моделях этот эффект минимален, это компромисс, требующий оценки на конкретной задаче. Per-layer embeddings добавляют вычислительные издержки (Gemma 4 требует их обработки в each forward pass), хотя это экономнее, чем масштабировать основной трансформер. Архитектурные оптимизации часто являются инженерными компромиссами: экономия на одной оси (память, latency) может стоить на другой (параметры, computational budget). Нет универсального решения для всех сценариев, выбор архитектуры зависит от целевых ограничений (мобильный vs облако, короткие vs длинные контексты, низкая latency vs максимальное качество).

«Как моделей рассуждения и агентские рабочие процессы накапливают больше токенов (на дольше), размер KV-кэша, трафик памяти и стоимость внимания быстро становятся основными ограничениями, и разработчики LLM добавляют растущее количество архитектурных трюков для снижения этих затрат.»

— Sebastian Raschka