Компьютерный контроль встроили в Gemini 3.5 Flash

Компьютерный контроль (computer use) больше не отдельный компонент, Google встроила его в Gemini 3.5 Flash как родную возможность. Агенты получают способность видеть окружение на экране, анализировать интерфейсы и совершать действия: кликать, вводить текст, ориентироваться в браузерах, мобильных приложениях и десктопной среде. Это работает для сложных долгоиграющих задач вроде непрерывного тестирования ПО, работы с профессиональными приложениями, анализа документации. Доступно через Gemini API и Gemini Enterprise Agent Platform. Google добавила целевое обучение от состязательных примеров для защиты от prompt injection и выпустила два дополнительных модуля для企業: требование явного подтверждения на чувствительные действия и автоматическая остановка при обнаружении косвенной инъекции. Рекомендуется сочетать с изолированными средами, проверкой человеком и строгим контролем доступа.

Ключевые факты

Компьютерный контроль теперь интегрирован в основную модель Gemini 3.5 Flash вместо отдельного инструмента
Агенты могут видеть и управлять браузерами, мобильниками и десктопом, автоматизируя долгие рабочие процессы
Google добавила защиту от prompt injection через целевое состязательное обучение
Опциональные системы безопасности для企業 требуют подтверждения на критичные действия и блокируют косвенные инъекции
Инструмент доступен разработчикам через Gemini API и Gemini Enterprise Agent Platform

Почему это важно

Компьютерный контроль упрощает разработку ИИ-агентов, вместо множества интеграций с разными API теперь один инструмент справляется с веб-интерфейсами, мобильными приложениями и десктопом. Автоматизация рутинной работы, тестирования, обработки документов становится доступнее.

Кому это важно

Разработчикам, которые строят enterprise automation. Компаниям, ищущим способ автоматизировать knowledge work, тестирование, управление приложениями. Быстроразвивающемуся рынку ИИ-агентов, где Google усиливает конкурентное преимущество Gemini.

Как это применить

Начать через демо в Browserbase. Затем взять reference implementation и документацию от Gemini API или Gemini Enterprise Agent Platform. Составить агента для нужной задачи: тестирование ПО, анализ документов, управление браузером. Обязательно обернуть в sandboxing, проверку человеком и access controls для безопасности.

Можно ли доверять

Google давно в ИИ, архитектура кажется продуманной. Состязательное обучение и модули безопасности для企業 намекают на серьёзное отношение. Но это молодая технология, неясно, насколько она устойчива к реальным prompt injection атакам в production. Нужна проверка в каждом конкретном сценарии.

Риски и подводные камни

Prompt injection остаётся главной угрозой, несмотря на защиты. Агент, имея доступ к компьютеру, может случайно удалить файлы, отправить чувствительные данные или выполнить вредоносные действия, если его переубедить. Sandboxing и human-in-the-loop обязательны, иначе агент может вывести строку команд на экран и её запустить. Масштабирование агентов в企業 требует строгих policies.