Kara: быстрое обслуживание LLM с длинными рассуждениями через сжатие кэша

Большие языковые модели, которые выполняют сложные рассуждения, генерируют длинные цепочки размышлений (CoT). Во время их обработки накапливается массивный кэш KV (ключи и значения механизма внимания), что требует много памяти и замедляет ответ на запросы.

Исследователи предложили Kara, метод для сжатия этого кэша на лету во время обработки ответа. Метод решает две важные проблемы существующих подходов: первая, что пороги срабатывания сжатия часто не улучшают скорость обслуживания и могут даже её замедлить; вторая, что существующие методы сохраняют либо отдельные элементы, либо куски фиксированного размера, не учитывая важные информационные блоки нестандартного размера в произвольных позициях.

Kara работает скользящим окном: анализирует только недавно сгенерированную часть контекста, использует двусторонний механизм внимания для поиска полезных элементов кэша, а затем объединяет отобранные элементы в гибкие по размеру блоки через модуль Token2Chunk. Метод адаптирован к PagedAttention и реализован в KvLLM, фреймворке на базе vLLM.

Эксперименты показывают, что Kara снижает потребление памяти кэша и заметно улучшает пропускную способность системы обслуживания.

Ключевые факты

Долгие цепочки рассуждений в LLM накапливают огромный KV-кэш, что съедает память и замедляет ответы
Существующие методы сжатия имеют проблемы: неправильные пороги срабатывания снижают скорость, и они не сохраняют гибкие по размеру важные блоки информации
Kara использует скользящее окно и двусторонний анализ внимания, чтобы находить и сохранять действительно важные части кэша
Метод интегрирован в KvLLM, новый фреймворк для быстрого обслуживания моделей с меньшей памятью
Тесты подтверждают одновременное снижение использования памяти и рост пропускной способности

Почему это важно

Когда большие языковые модели решают сложные задачи, они генерируют длинные цепочки пошагового рассуждения (CoT). Каждый шаг требует механизма внимания, который сохраняет так называемый KV-кэш, данные про ключи и значения всех предыдущих токенов. При длинной цепочке этот кэш становится настолько большим, что сервер не может одновременно обрабатывать много запросов. Снижение размера кэша означает, что один сервер сможет быстрее отвечать большему числу пользователей.

Кому это важно

Компаниям, которые развёртывают большие языковые модели в продакшене, облачным сервисам, стартапам с ИИ, корпоративным командам, использующим LLM для внутренних задач. Улучшение означает дешевле операционные затраты, быстрее ответы пользователям и возможность обслуживать больше запросов на одном железе.

Как это применить

Kara реализована в виде фреймворка KvLLM, который построен на базе популярного инструмента vLLM для обслуживания моделей. Разработчики и операторы инфраструктуры могут интегрировать KvLLM в свой стек, чтобы автоматически сжимать кэш при обслуживании моделей с длинными рассуждениями, без необходимости менять сам код приложения.

Можно ли доверять

Это исследование из arXiv, препринт-сервера, где представляют ранние версии научных работ. Авторы проводили эксперименты и показали результаты, но работа ещё не прошла рецензирование журнала. Метод сам по себе опирается на известные подходы (механизм внимания, пороговое сжатие), его идеи логичны, но масштабируемость на очень больших моделях и реальных нагрузках требует дальнейшей проверки.

Риски и подводные камни

Главный риск, что сжатие кэша может случайно выбросить важную информацию, нужную для правильного рассуждения дальше, и качество ответов упадёт. Авторы стараются это минимизировать через двусторонний анализ внимания, но полностью избежать потерь информации невозможно. Также неясно, как метод будет работать с совсем новыми архитектурами моделей и нестандартными паттернами внимания.

«Сжатие KV-кэша оказалось действенным способом снижения нагрузки на память: оно выборочно удаляет неважные пары ключей и значений, сохраняя полезные для дальнейшей обработки.»

— Авторы статьи Kara