Gemini 3.5 Flash получит встроенную возможность управления компьютером

Google DeepMind сделала computer use встроенной возможностью Gemini 3.5 Flash. Раньше эта функция была доступна только как отдельная модель (Gemini 2.5 computer use); теперь её интегрировали в основной Flash-модель. Суть: модель может видеть содержимое экрана (браузер, мобильное приложение, десктоп), анализировать его и выполнять действия, клики, ввод текста, навигацию.
Это откроет путь для надёжных агентов, способных:
- Анализировать интерфейсы и категоризировать функции (пример: 3.5 Flash может разобраться в своём собственном приложении и выдать упорядоченный список особенностей).
- Проверять доступность приложений, читая собственную документацию и выявляя проблемы.
- Автоматизировать длительные задачи: тестирование ПО, работу с профессиональными приложениями (таблицы, CRM, системы учёта).
Доступно через Gemini API и Gemini Enterprise Agent Platform. Для защиты от инъекций подсказок Google использовала adversarial training и выпустила два опциональных инструмента для предприятий: требование явного подтверждения пользователя перед опасными действиями и автоматическая остановка при обнаружении инъекции. Рекомендуется сочетать со строгим песочницированием (sandboxing), проверкой человеком и контролем доступа.
Ключевые факты
- Computer use теперь встроена в Gemini 3.5 Flash, раньше была только в отдельной модели Gemini 2.5
- Модель может анализировать экран (браузер, мобиль, десктоп) и выполнять действия, клики, вод текста, навигацию
- Открывает возможности для агентов, способных автоматизировать длительные задачи: тестирование ПО, работу с профессиональными приложениями
- Google реализовала защиту от prompt injection через adversarial training и два опциональных инструмента для предприятий
- Разработчики могут начать экспериментировать в демо-окружении Browserbase или через Gemini API
Почему это важно
Computer use, существенный шаг к агентам, которые работают в реальных системах без специально подготовленных API. Раньше нужно было писать кастомные интеграции для каждого приложения; теперь агент может просто смотреть на экран и делать то же, что делает человек. Это снижает барьер к автоматизации и открывает поле для масштабных задач (тестирование, документация, мониторинг).
Кому это важно
Разработчикам агентов, компаниям с высокими издержками на ручную работу (QA, data entry, анализ систем), интеграторам и провайдерам автоматизации. Компании, работающие с множеством сложных приложений, смогут дёшевле и быстрее автоматизировать работу.
Как это применить
Разработчики могут встроить computer use в свои агенты через Gemini API или Gemini Enterprise Agent Platform. Google предоставила reference implementation и документацию. Есть демо-окружение на базе Browserbase для первых экспериментов.
Можно ли доверять
Google использовала adversarial training (специальное обучение на примерах атак) для защиты от инъекций подсказок. Для предприятий доступны дополнительные механизмы: требование явного подтверждения перед опасными действиями и автоматическая блокировка при обнаружении атак. Google рекомендует дополнительно использовать sandboxing, проверку человеком и строгий контроль доступа.
Риски и подводные камни
Агенты с доступом к управлению компьютером представляют риск, если их неправильно настроить. Инъекция подсказок (когда злоумышленник встраивает команды в содержимое экрана) может заставить агента выполнить нежелательные действия. Без песочницы и контроля доступа агент может получить доступ к конфиденциальным данным или повредить системы. Требуется ответственный подход к безопасности при развёртывании в production.
«Разработчики могут теперь использовать 3.5 Flash, чтобы надёжно строить пользовательские агенты, способные видеть, анализировать и действовать в браузерах, мобильных и десктопных средах.»
— Google DeepMind блог