MosaicLeaks: может ли research-агент хранить в тайне приватные документы

Research-агенты всё чаще объединяют приватные корпоративные документы с публичными web search-ами. Проблема: каждый web-запрос видим для сетевого наблюдателя, и серия запросов может разоблачить информацию из приватных документов без прямого доступа к ним. Например, агент ищет "MediConn" + "70% cloud migration" + "January 2025" в три разных запроса; наблюдатель переберёт фрагменты и выведет, что в январе MediConn мигрировал 70% инфраструктуры в облако. MosaicLeaks проводит контролируемые эксперименты с baseline LLM-агентами (Qwen3-4B и другие) и показывает, что просто попросить агента не утекать информацию не работает (prompt снижает утечку с 34% на 25.5%, но accuracy падает на 4.2%). Само обучение агента на более точные ответы (strict chain success с 48.7% на 59.3%) увеличивает утечку до 51.7%: модель учится упаковывать больше контекста в запросы, помогая себе в поиске, но ломая приватность. PA-DR обучает агента через RL с двумя reward-сигналами: task reward (правильно ли агент ответил на каждый hop вопроса) и privacy reward (учится ли classifier, который видит, что утекает из запросов). Результат: strict chain success вырастает с 48.7% до 58.7%, а утечка упадает с 34% до 9.9%. Вопреки интуиции, агент не просто ищет меньше: он ищет больше запросов, но чище (бросает специфичные цифры и даты из запросов, удерживая полезность поиска).

Ключевые факты

Research-агенты утекают приватные информацию через паттерны web-запросов (mosaic effect): каждый запрос невинен, но сумма разоблачает секреты
Prompt 'не утекай' почти не работает (25% reduction); обучение на accuracy делает утечку хуже (51.7%)
PA-DR использует RL с task reward + privacy reward для одновременного обучения точности и приватности
Результат: 58.7% strict chain success (вверх с 48.7%) и 9.9% утечка (вниз с 34%)
Утечка может быть трёх видов: Intent (что агент исследует), Answer (ответ на известный вопрос о приватных данных), Full-Information (вывести новые приватные факты без подсказки)

Ред. Три невинных запроса складываются в один секрет. Та самая мозаика, которую годами демонстрировали на людях, теперь собирают сами агенты.

Почему это важно

По мере того как компании интегрируют LLM-агентов в свои корпоративные процессы, комбинирование приватных данных с открытыми инструментами (web search, public APIs) становится стандартом. Проблема в том, что сама структура запросов может разоблачить то, что агент пытается найти или верифицировать. MosaicLeaks показывает, что стандартные подходы к приватности (шифрование данных, ограничение доступа) недостаточны: нужно защищать сам паттерн запросов. PA-DR показывает, что это возможно без жертвы качеством.

Ред. Главный вывод отрезвляет: шифрование и контроль доступа не спасают, если агент сам выбалтывает секрет по частям через поисковую строку. Защищать надо поведение, а не только данные.

Кому это важно

DevSecOps-командам, развёртывающим research-агентов на корпоративных данных; компаниям в regulated industries (healthcare, finance) с приватной информацией; разработчикам agential frameworks (AutoGPT, Crewai и т.п.); исследователям в области AI safety и privacy.

Ред. Healthcare, finance и всем, кто радостно подключил research-агента к приватным документам, не подумав, что его поисковые логи кто-то читает.

Как это применить

Если вы развёртываете research-агента на приватных документах: (1) не полагайтесь только на промпты о приватности; (2) если возможно, ограничьте external tool access (меньше API, только whitelist URLs); (3) рассмотрите PA-DR-подход: обучите агента через RL с privacy objective, используя classifier, который детектирует утечки в логе запросов; (4) оцените утечку перед production (запустите MosaicLeaks-подобный тест). (5) мониторьте логи запросов на production.

Ред. Пункт первый и самый ценный: не верьте промпту «не утекай». Цифры в статье показывают, что вежливая просьба к модели почти ничего не меняет.

Можно ли доверять

Исследование от ServiceNow и academic partners (published arXiv 2605.30727). Это controlled benchmark, не реальные deployment. Но методология звучит solid: 1001 цепочек вопросов, комбинирующих локальные и web документы, standardized harness. PA-DR обучение на Privacy + Task reward это логичный подход. Однако эксперименты ограничены одним harness design, одной моделью baseline (Qwen3-4B), синтетическими документами.

Ред. Одна baseline-модель, синтетические документы, один harness. Методология выглядит крепко, но 9.9% утечки это не «решено», это «стало терпимее».

Риски и подводные камни

PA-DR требует обучить дополнительный privacy classifier и запустить RL, что сложнее, чем просто использовать базовую модель. Classifier сам может быть обманут adversarial запросами. Неясно, как PA-DR масштабируется на агентов с более сложным reasoning (не just multi-hop QA, но например итеративное планирование). В production нужно мониторить, что classifier не деградирует. Также нужен способ оценить, какой уровень утечки приемлем для вашего случая (9.9% может быть всё ещё слишком много).

Ред. Самое неудобное в статье: агент стал умнее и тут же стал болтливее (утечка с 34% до 51.7%). То есть приватность и качество тянут в разные стороны по умолчанию, и PA-DR лишь временно их мирит.

«Making the agent better made it leak more. Strict chain success rose from 48.7% to 59.3%. But answer/full-information leakage climbed right alongside it, from 34.0% to 51.7%.»

— MosaicLeaks (ServiceNow)