Компьютерный контроль встроили в Gemini 3.5 Flash

Компьютерный контроль (computer use) больше не отдельный компонент, Google встроила его в Gemini 3.5 Flash как родную возможность. Агенты получают способность видеть окружение на экране, анализировать интерфейсы и совершать действия: кликать, вводить текст, ориентироваться в браузерах, мобильных приложениях и десктопной среде. Это работает для сложных долгоиграющих задач вроде непрерывного тестирования ПО, работы с профессиональными приложениями, анализа документации. Доступно через Gemini API и Gemini Enterprise Agent Platform. Google добавила целевое обучение от состязательных примеров для защиты от prompt injection и выпустила два дополнительных модуля для企業: требование явного подтверждения на чувствительные действия и автоматическая остановка при обнаружении косвенной инъекции. Рекомендуется сочетать с изолированными средами, проверкой человеком и строгим контролем доступа.
Ключевые факты
- Компьютерный контроль теперь интегрирован в основную модель Gemini 3.5 Flash вместо отдельного инструмента
- Агенты могут видеть и управлять браузерами, мобильниками и десктопом, автоматизируя долгие рабочие процессы
- Google добавила защиту от prompt injection через целевое состязательное обучение
- Опциональные системы безопасности для企業 требуют подтверждения на критичные действия и блокируют косвенные инъекции
- Инструмент доступен разработчикам через Gemini API и Gemini Enterprise Agent Platform
Почему это важно
Компьютерный контроль упрощает разработку ИИ-агентов, вместо множества интеграций с разными API теперь один инструмент справляется с веб-интерфейсами, мобильными приложениями и десктопом. Автоматизация рутинной работы, тестирования, обработки документов становится доступнее.
Кому это важно
Разработчикам, которые строят enterprise automation. Компаниям, ищущим способ автоматизировать knowledge work, тестирование, управление приложениями. Быстроразвивающемуся рынку ИИ-агентов, где Google усиливает конкурентное преимущество Gemini.
Как это применить
Начать через демо в Browserbase. Затем взять reference implementation и документацию от Gemini API или Gemini Enterprise Agent Platform. Составить агента для нужной задачи: тестирование ПО, анализ документов, управление браузером. Обязательно обернуть в sandboxing, проверку человеком и access controls для безопасности.
Можно ли доверять
Google давно в ИИ, архитектура кажется продуманной. Состязательное обучение и модули безопасности для企業 намекают на серьёзное отношение. Но это молодая технология, неясно, насколько она устойчива к реальным prompt injection атакам в production. Нужна проверка в каждом конкретном сценарии.
Риски и подводные камни
Prompt injection остаётся главной угрозой, несмотря на защиты. Агент, имея доступ к компьютеру, может случайно удалить файлы, отправить чувствительные данные или выполнить вредоносные действия, если его переубедить. Sandboxing и human-in-the-loop обязательны, иначе агент может вывести строку команд на экран и её запустить. Масштабирование агентов в企業 требует строгих policies.