Запускаем Nano Banana 2 Lite и Gemini Omni Flash: новые модели для разработчиков

Google объявил о выпуске двух инструментов для разработчиков, оптимизированных для работы вместе в единых мультимедийных приложениях.

Nano Banana 2 Lite (gemini-3.1-flash-lite-image), новая модель генерации изображений, рекомендуемая замена старой версии Nano Banana. Её главные преимущества: генерирует изображение из текста за 4 секунды и стоит $0,034 за 1000 изображений. При этом модель сохраняет хорошее качество, точно следует подсказкам, удерживает консистентность персонажей и корректно рендерит текст внутри изображений. Nano Banana 2 Lite доступна в Google AI Studio, Gemini API и Gemini Enterprise Agent Platform, а также внедряется в потребительские поверхности (AI Mode в Search, приложение Gemini, Google Photos, Stitch, Google Flow и Google Ads).

Gemini Omni Flash (gemini-omni-flash-preview), модель для генерации и редактирования видео с поддержкой мультимодальных входов (текст, изображение, видео). Умеет редактировать видео при помощи естественного языка, синхронизировать текст и действия, использует знания Gemini об истории, биологии, нарративной логике. Цена: $0,10 за секунду видео (как Veo 3.1 Fast). Сейчас поддерживает 10-секундные видео. Модель доступна в Google AI Studio и Gemini API, а также в приложении Gemini и Google Flow.

Два инструмента спроектированы для цепочки: Nano Banana 2 Lite генерирует изображение (тысячи за раз для перебора вариантов), затем это изображение передаётся в Omni Flash для анимации в видео. Google создал демо-приложения (Anywhere для путешествий по достопримечательностям, Space Lift для переделки интерьеров, Omni Product Studio для e-commerce видео), демонстрирующие такие гибридные workflow с сохранением контекста между последовательными редактами (до трёх).

Обе модели используют SynthID watermarking для детектирования AI-контента. Google подчёркивает, что модели построены на её защищённой инфраструктуре.

Ключевые факты

Nano Banana 2 Lite генерирует изображение за 4 секунды и стоит $0,034 за 1000 снимков, на порядок быстрее и дешевле предыдущих версий
Gemini Omni Flash позволяет редактировать видео на естественном языке и генерировать 10-секундные ролики за $0,10 за секунду
Обе модели оптимизированы для работы вместе: быстрая генерация изображений + видеоанимация в одном workflow
Разработчики получили доступ через API, Google AI Studio и Enterprise Platform, плюс внедрение в потребительские приложения Google
Демо-приложения (Anywhere, Space Lift, Product Studio) показывают практические сценарии использования в путешествиях, дизайне и e-commerce

Почему это важно

Скорость и стоимость, главные блокировщики в production: сейчас разработчики могут генерировать тысячи изображений за минуты и создавать видео со сложным редактированием без дорогостоящих вычислений. Цепочка image-to-video открывает новый класс приложений (интерактивные дизайны, анимированные концепты, e-commerce видео), где раньше требовалась ручная работа или дорогие видеостудии.

Кому это важно

Разработчикам и компаниям, которые строят: генераторы контента (социальные медиа, интерьерный дизайн, e-commerce); рекламные платформы (требуют высокую пропускную способность образов); мобильные приложения (low-latency видео критично); системы с пользовательским контентом (миллионы запросов к день). Для Google, расширение рынка AI в enterprise и consumer.

Как это применить

Разработчики начинают в Google AI Studio (playground для опытов), затем переходят на Gemini API (production). Nano Banana 2 Lite подменяет старую версию in-place (drop-in replacement). Для видео-workflow: 1) генерировать несколько вариантов изображения Nano Banana 2 Lite, 2) передать лучший вариант в Omni Flash с текстовой подсказкой для анимации, 3) использовать Interactions API для сохранения контекста между правками. Интеграция документирована в developer docs с примерами.

Можно ли доверять

Google DeepMind, проверенный источник. Цифры (4 сек, $0,034, $0,10/сек) взяты из официального блога и документации, benchmarks сравнены с конкурентами. Ограничения честно перечислены: Omni сейчас, только 10 сек видео, нет поддержки аудио-референсов, видео-референсы до 3 сек не обработаны правильно, есть проблемы с консистентностью персонажа при смене сцен. Модели в публичном preview, то есть готовы к использованию но ещё могут меняться.

Риски и подводные камни

Omni Flash в preview, API может менять сигнатуру. 10-секундный лимит видео, узкое горлышко для некоторых задач. Цена за видео ($0,10/сек) может суммироваться быстро при iterative editing (каждая правка = новое видео). Характер персонажей и сцены не гарантированы при пан-камере, нужны тесты. Watermarking (SynthID), отследить AI-контент, но не блокировать его синтез; это переносит ответственность на разработчика. Также нужно учесть, что модели учены на данных Google (знания ограничены сентябрем 2024 или ранее), свежий контент может быть неточен.

«Разработчики могут создавать комплексные, сквозные мультимедийные приложения, которые объединяют быструю генерацию изображений с видеосоздание и редактированием.»

— Google DeepMind