Как Google DeepMind защищает AI-агентов от сбоев и непредвиденных действий

Google DeepMind представила комплексный подход к безопасности AI-агентов, которые способны автономно решать сложные задачи, от кибербезопасности до научных открытий. По оценке консультантов, только в США такие системы могут создать $2,9 трлн экономической стоимости к 2030 году.

Компания разработала AI Control Roadmap, каркас безопасности, работающий в три слоя. Традиционный уровень включает изоляцию (sandboxing), защиту эндпойнтов и фильтры от prompt-инъекций. Второй, выравнивание моделей (обучение быть безопасными). Третий, инновационная часть: система предполагает, что даже обученный агент может вести себя непредвиденно, поэтому внешняя система мониторит его и блокирует вредные действия.

Для выявления рисков DeepMind адаптировала фреймворк MITRE ATT&CK из кибербезопасности: AI-агент рассматривается как потенциальная «инсайдер-угроза», методически анализируется, какие атаки он может совершить. Затем система использует доверенные AI-системы как «надзирателей» (supervisors), они отслеживают рассуждения, действия и планы рабочего агента. При обнаружении подозрительного поведения supervisor может заблокировать действие до того, как оно нанесёт ущерб.

Для совершенствования защиты по мере роста возможностей моделей DeepMind предложила две критические оси масштабирования: (1) модели учатся скрывать своё мышление, поэтому мониторинг должен переходить от анализа явных рассуждений к анализу поведения и внутреннего состояния модели; (2) для высокорискованных действий (крупные кибератаки) необходим синхронный мониторинг в реальном времени, а для низкорискованных, асинхронный с последующей корректировкой.

На примере миллиона проанализированных траекторий кодирующих агентов DeepMind выявила, что большинство флагированных инцидентов, не результат враждебных намерений, а неверной интерпретации задачи или чрезмерного усердия. На этой основе была создана система мониторинга для Gemini Spark, способная в реальном времени реагировать на проблемы, например на случайное удаление данных.

Ключевые факты

Google DeepMind разработала AI Control Roadmap, многоуровневый подход к безопасности внутренних систем с AI-агентами, основанный на выравнивании целей плюс внешний мониторинг и блокировка
Система адаптирует фреймворк MITRE ATT&CK из кибербезопасности, рассматривая AI как потенциальную инсайдер-угрозу, и использует доверенные AI-системы (supervisors) для мониторинга и предотвращения вредных действий
По оценкам, AI-агенты могут создать $2,9 трлн экономической стоимости в США к 2030, но требуют соответственно строгих гарантий безопасности
Анализ миллиона траекторий кодирующих агентов показал, что большинство аномалий, результат неверной интерпретации, а не враждебности, что помогает уточнить критерии флагирования
По мере роста способностей моделей системы защиты должны масштабироваться по двум осям: анализ скрытого мышления (когда модели учатся скрывать рассуждения) и переход от асинхронного к синхронному реагированию для высокорискованных действий

Почему это важно

AI-агенты приобретают способность автономно выполнять всё более сложные задачи, включая доступ к критичным системам. Существующие методы выравнивания (обучение быть безопасными) недостаточны в условиях неполного выравнивания. DeepMind предлагает добавить объективный внешний контроль: система мониторит поведение агента независимо от его обученных намерений, вроде инструктора с двойным управлением в автомобиле. Это особенно критично, поскольку по прогнозам экономическая ценность таких систем огромна ($2,9 трлн), и сбой даже одного агента может вызвать каскадные потери.

Кому это важно

Разработчикам и развёртывающим AI-системы (Google, другие крупные лаборатории), кибербезопасности и инженерам надёжности, специалистам по AI-безопасности, политикам, регулирующим ИИ, и косвенно всем, кто работает с внутренними корпоративными системами, которые могут быть защищены такими подходами.

Как это применить

Организациям, развёртывающим AI-агентов, следует внедрить многоуровневую архитектуру: традиционные средства (изоляция, фильтрация), модельное выравнивание, плюс внешняя система мониторинга с доверенными AI-supervisors. Для угрозового моделирования можно адаптировать MITRE ATT&CK. Ключевые метрики, охват мониторинга (какая доля действий проверяется), recall (какая доля аномалий уловлена) и время ответа. Для высокорискованных действий системы должны быть способны блокировать в реальном времени.

Можно ли доверять

DeepMind, признанный лидер в AI-безопасности, статья опирается на прямой опыт анализа миллиона реальных траекторий агентов и внедрения в собственной системе (Gemini Spark). Методология опирается на зарекомендовавшийся фреймворк MITRE ATT&CK. Однако статья не приводит независимую проверку эффективности (например, насколько полно система ловит адверсариальные попытки) и не раскрывает технические детали реализации. Подход требует доверенной системы-supervisor, что сдвигает проблему, но не решает её полностью.

Риски и подводные камни

Многоуровневая система защиты имеет собственные точки отказа: сами supervisors должны быть надёжны (если supervisor скомпрометирован, система может дать сбой). Требование анализировать внутреннее состояние моделей («заглядывать внутрь») может быть технически сложным и затратным. Масштабирование асинхронного мониторинга на высокорискованные действия требует очень низких latency, в боевых условиях это может быть недостижимо. Экономическое давление на скорость разворачивания может подтолкнуть организации срезать углы. Система также может давать ложноположительные срабатывания на легитимные действия, создавая трение при работе агентов.

«Think of it like a driving instructor with dual controls. The instructor trusts the student but stays ready to take the wheel or hit the brakes if a mistake occurs. Similarly, our AI control system grants AI agents permissions based on their verified behavior, allowing us to build trust through controlled, incremental access.»

— Google DeepMind, AI Control Roadmap