CORE: сжатие промптов без лишних моделей для edge-девайсов

В RAG-приложениях (retrieval-augmented generation) извлечённый контекст часто содержит много шума и дублей, что нагружает LLM при инферансе. Существующие методы сжатия полагаются на вспомогательные малые языковые модели (SLM), которые добавляют память и вычисления, невозможно на edge-девайсах. Авторы представили CORE: двухстадийный метод без SLM, основанный на NER и семантическом поиске. На первом этапе строятся набор ответов (через NER) и набор подсказок (через семантику). На втором этапе наборы уточняются ортогональной остаточной ретривалом и пространственной близостью, в итоге удаляются лишние предложения из контекста.

Эксперименты: в бюджете 2000 токенов CORE улучшает точность на 30.19% против SOTA, урезает память на 50.47%, ускоряет инференс на Jetson в 1.94x раза. На смартфоне Huawei Nova, энергия снижается на 95.74% против LLMLingua2 (современного метода).

Ключевые факты

CORE сжимает промпты без вспомогательных моделей, используя NER и семантический поиск
На NVIDIA Jetson AGX Orin (edge-девайс) даёт +30.19% точность, -50.47% памяти, 1.94x ускорение
На смартфоне Huawei Nova снижает энергопотребление на 95.74% против LLMLingua2
Двухстадийный подход: answer set (NER) + clue set (семантика), затем фильтрация по близости
В бюджете 2000 токенов метод практичен для QA приложений на слабых девайсах

Ред. 95% экономии энергии, 50% памяти, двукратное ускорение, и всё это благодаря тому, что вспомнили про NER вместо ещё одной нейросети.

Почему это важно

Edge-ИИ (смартфоны, встроенные системы) требует не просто LLM, но и эффективной обработки контекста. RAG-системы часто извлекают много шума; стандартное сжатие через SLM добавляет второй инферанс. CORE показывает, что можно сжимать контекст через классические техники (NER, семантика) без лишних нейросетей. Это снижает барьер для деплоя QA-систем на мобильниках.

Ред. Хорошее напоминание, что не каждую проблему надо лечить второй моделью: иногда достаточно классики, которой уже лет двадцать.

Кому это важно

Разработчикам mobile AI (iOS, Android); авторам систем QA на слабых сервёрах; компаниям, оптимизирующим батарею в edge-приложениях; исследователям RAG и prompt compression.

Ред. Тем, кто пытается запихнуть RAG в смартфон и упирается в батарею раньше, чем в качество ответов.

Как это применить

Если вы разрабатываете RAG-приложение для смартфона, интегрируйте этап NER + семантического поиска перед отправкой контекста LLM. Код CORE скорее всего будет release на GitHub (типично для arXiv-статей). Метод особенно полезен, если ваш LLM лимитирован по контексту (4K, 8K токенов), CORE позволяет использовать большие корпусы с эффективным сжатием. Для Ollama-пользователей локальной NER-модели (spaCy, CRF) достаточно.

Ред. Совет здравый, но держится на честном слове про релиз кода «как обычно для arXiv»: пока репозитория нет, применять придётся по описанию из статьи.

Можно ли доверять

Статья из arXiv с peer-review-уровнем строгости (гипотеза, эксперименты, бенчмарки на реальном железе Jetson и Huawei). Авторы тестировали на SOTA-методах (LLMLingua2). Числа 30%, 50%, 95%, конкретные и воспроизводимые. Однако эта работа ещё не в конференции, статус рецензии неизвестен.

Ред. Цифры конкретные и замерены на реальном железе, но это пока препринт без рецензии, и красивые проценты получены на одном Jetson и одном телефоне.

Риски и подводные камни

Метод зависит от качества NER и семантического поиска, на шумных данных может скомпрометировать ответ. Не все LLM одинаково реагируют на сжатие. Бенчмарк на одном устройстве (Jetson AGX Orin) не гарантирует результаты на всех edge-девайсах. Производительность может сильно варьироваться по кодировкам и доменам.

Ред. Метод ровно настолько хорош, насколько хорош его NER: на шумных данных он рискует выкинуть из контекста как раз то предложение, ради которого всё затевалось.