Защита LLM-агентов от невыравнивания через анализ происхождения данных

По мере того как LLM-агенты получают доступ к всё более мощным инструментам, возникает проблема невыравнивания (misalignment), когда предлагаемое действие агента отклоняется от исходного намерения пользователя. Существующие методы защиты полагаются на парадигму «LLM в роли судьи», которая не имеет систематического подхода к анализу выравнивания и часто даёт противоречивые или сложные для аудита результаты. Исследователи предложили новый подход на основе анализа происхождения данных (provenance analysis). Метод формализирует проблему невыравнивания как определение того, поддержана ли предлагаемая операция инструмента доказательствами, прослеживаемыми в контексте агента. На этой основе создан ProvenanceGuard, многоэтапный конвейер, анализирующий действие агента на трёх типах невыравнивания ещё до выполнения инструмента и разрешающий операцию только при соответствии исходному запросу пользователя. Тестирование на двух бенчмарках (Agent-SafetyBench и WorkBench) с 10 различными LLM показало: ProvenanceGuard снижает ошибку на неправильно выровненных трассах с 42,9% до 1,8% на Agent-SafetyBench и с 32,1% до 17,3% на WorkBench, при этом уменьшая необходимость человеческого вмешательства на правильных трассах с 30,5% до 12,8% и не вызывая значительного роста ложных блокировок выровненных действий.

Ключевые факты

Проблема невыравнивания LLM-агентов критична: агент может предложить действие, противоречащее намерению пользователя, с потенциально необратимыми последствиями
Существующие guardrails на основе LLM-as-judge неэффективны: их результаты противоречивы и сложны для аудита
ProvenanceGuard использует провенанс-анализ для проверки: предлагаемое действие должно поддерживаться прослеживаемыми доказательствами в контексте агента
На бенчмарке Agent-SafetyBench метод снижает ошибку с 42,9% до 1,8%, значительно превосходя базовый подход
Система сокращает нагрузку на человека (необходимость вмешательства 30,5% → 12,8%) без ущерба для безопасности

Почему это важно

По мере роста возможностей LLM-агентов риск невыравнивания (когда агент отклоняется от намерения пользователя) становится критическим. Неправильное действие может привести к необратимым последствиям. Существующие методы защиты, основанные на оценке другим LLM, не обеспечивают надёжного и аудируемого решения. Систематический подход на основе структурированного анализа происхождения данных может существенно повысить надёжность системы.

Кому это важно

Этот подход актуален для разработчиков LLM-агентов (особенно систем с доступом к критичным инструментам), исследователей в области безопасности и надёжности ИИ, а также организаций, использующих агентов для автоматизации важных бизнес-процессов, где невыравнивание может нанести ущерб.

Как это применить

ProvenanceGuard реализуется как многоэтапный конвейер, встраиваемый перед выполнением инструментов. Он анализирует три типа невыравнивания и блокирует операцию, если она не поддержана прослеживаемыми доказательствами в контексте запроса. Метод интегрируется с различными LLM-подходами и может быть адаптирован к разным типам инструментов и сценариям.

Можно ли доверять

Работа прошла оценку на двух независимых бенчмарках (Agent-SafetyBench и WorkBench) с участием 10 различных LLM. Результаты показывают последовательное и значительное улучшение над базовым подходом. Система основана на логических принципах провенанс-анализа, что делает её решения более аудируемыми и объяснимыми, чем чёрный ящик LLM-as-judge.

Риски и подводные камни

Эффективность метода может зависеть от качества и полноты контекста, предоставляемого агентом. На WorkBench, более сложном бенчмарке, улучшение более скромное (17,3% vs 32,1%), что указывает на пределы метода в реальных сценариях высокой сложности. Требуется дальнейшее исследование применимости к разнообразным типам инструментов и контекстам.