Google ускорила Gemini Nano на Pixel через предсказание нескольких токенов

Google Research представила метод «frozen Multi-Token Prediction» (MTP), способ ускорить работу Gemini Nano на Pixel 9 и 10. Суть: вместо того чтобы генерировать один токен за раз (что приводит к узким местам памяти), модель теперь предсказывает несколько токенов одновременно.

Основная проблема на мобильных устройствах: память и батарея ограничены. Обычные LLM работают «аутрегрессивно», процесс и один токен за раз. Это подстёгивает использование памяти (кэш ключ-значение для каждого шага) и не даёт процессору работать на полную.

Google решили не переобучать Gemini Nano (это дорого). Вместо этого они «заморозили» уже развёрнутую модель и приложили к её последним слоям лёгкий трансформер (MTP-головку). Эта головка берёт внутренние представления основной модели и предсказывает сразу несколько следующих токенов.

Ключная инженерная находка, zero-copy архитектура: вместо того чтобы MTP-головка создавала свой кэш, она просто читает кэш основной модели. Это сэкономило 130 МБ памяти на устройство.

Результаты: на Pixel 9 модель генерирует текст на 50% быстрее. На реальных задачах (например, AI Notification Summaries и Proofread) MTP в среднем угадывает два дополнительных токена за проход, что сокращает количество проходов через модель. Батарея разряжается медленнее.

Ключевые факты

Google добавила Multi-Token Prediction к уже развёрнутым Gemini Nano без переобучения основной модели, метод работает с «замороженными» весами
MTP-головка использует zero-copy архитектуру и совместно использует кэш с основной моделью, экономя 130 МБ памяти на устройство
Ускорение на 50% на Pixel 9/10; предсказывает в среднем ~2 токена за раз вместо одного
Корректные предсказания отбрасываются при проверке, поэтому результат остаётся идентичен исходной модели (полная обратная совместимость)
Технология уже развёрнута в продакшене для функций вроде AI Notification Summaries и Proofread

Почему это важно

На мобильных устройствах память и батарея, узкое место. Стандартная генерация текстов (аутрегрессивная, по одному токену) плохо использует процессор и перегружает память полосой пропускания. Google показала, что можно радикально улучшить скорость и энергоэффективность, не переучивая готовую модель, просто добавив лёгкий механизм предсказания нескольких токенов.

Кому это важно

Пользователям Pixel 9 и 10, которые используют встроенные ИИ-функции (обобщение уведомлений, проверка текстов). Разработчикам on-device ИИ на мобильных, метод исключает необходимость обучать и развёртывать отдельные «черновые» модели для каждой задачи.

Как это применить

Метод применим к любой уже развёрнутой модели: заморозить веса, приложить трансформер-головку к последним слоям, обучить только головку минимизировать ошибку предсказания на несколько токенов вперёд. Нулевая память на дублирование кэша, MTP-головка читает существующий кэш основной модели.

Можно ли доверять

Текст написан командой Google Research (Eden Cohen, Michelle Ramanovich). Метод опирается на известные подходы (EAGLE, CALM) и валидирован на боевых задачах (AI Notification Summaries, Proofread). Результаты (50% ускорение, 2 токена за раз), из реальной эксплуатации на Pixel 9.

Риски и подводные камни

Не описаны явные минусы: работает ли метод на других моделях, не Gemini Nano; как ведёт себя на задачах, не похожих на уведомления и проверку текста; сложность инженерии zero-copy архитектуры может быть сложна для воспроизведения.

«Потому что неправильные предсказания отбрасываются при проверке, итоговый результат остаётся идентичен основной модели, позволяя нам развёртывать обновления эффективности с полной обратной совместимостью.»

— Google Research, статья о Multi-Token Prediction