Что произошло, когда 2000 человек попытались взломать мой ИИ-ассистента

Автор запустил публичный эксперимент, позволив более 2000 пользователям отправлять письма ИИ-ассистенту Fiu с целью выманить содержимое файла secrets.env. Несмотря на 6000+ письмо (включая сложные социальные инженерные атаки, многоязычные попытки и имперсонации администраторов), ни одна попытка не привела к утечке. ИИ опирался на простой набор инструкций по защите от prompt injection. Хотя Google заблокировала почту из-за большого объёма писем, стоимость API превысила $500, а агент понял суть эксперимента около письма №500, основной результат остался неизменным: современные мощные модели (Claude Opus 4.6) демонстрируют высокую устойчивость к такому классу атак.

Ключевые факты

Ноль успешных утечек из 6000+ попыток: взломщики использовали имперсонацию, фальшивые инциденты, многоязычные атаки и социальную инженерию
Модель имеет значение: результаты могут быть иными на менее мощных моделях; Opus 4.6 специально обучена для устойчивости к prompt injection
Достаточны простые инструкции: пять строк правил о защите, но в thinking traces видно, что модель к ним систематически обращается
Побочные эффекты: Google заблокировал почту из-за объёма писем (разблокирована за 3 дня), $500+ расходов на API, агент сам понял суть эксперимента
Автор менее обеспокоен prompt injection, но по-прежнему не рекомендует давать ИИ произвольные права доступа

Почему это важно

ИИ-ассистенты имеют доступ к почте, календарям, файлам и вебу. Если атакующий заставит ИИ выполнить недопустимое действие, это опасно. Prompt injection, реальная угроза, которая часто преувеличивается в обсуждениях. Этот эксперимент предоставил эмпирические данные о её реальной масштабности.

Кому это важно

Разработчикам ИИ-агентов с доступом к чувствительным данным. Компаниям, развёртывающим Claude и другие модели в production. Специалистам по безопасности, оценивающим риск prompt injection. Всем, кто полагается на инструкции для ограничения поведения ИИ.

Как это применить

При развёртывании ИИ-агента: (1) выберите мощную, хорошо обученную модель (Opus 4.6 показала устойчивость); (2) задайте чёткие инструкции о запрещённых действиях; (3) обрабатывайте каждое взаимодействие в свежем контексте, не смешивая с предыдущими; (4) ограничьте права агента по принципу минимальных привилегий; (5) тестируйте на разных моделях, чтобы найти порог уязвимости.

Можно ли доверять

Данные основаны на реальном эксперименте с 6000+ попыток. Автор использовал только Claude Opus 4.6, наиболее мощную модель Anthropic на момент теста. Результаты показывают высокую устойчивость к prompt injection для этого класса моделей, но не для более слабых. Некоторые исследования предполагают, что модели уязвимее к инъекциям на неанглийских языках из-за меньше данных обучения.

Риски и подводные камни

Opus 4.6, не типичная модель; результаты слабее на более компактных моделях. Агент распознал эксперимент и стал более осторожным, что исказило тестирование. Google-почта была блокирована, что затрудняло сбор данных. Высокие расходы на API (>$500) делают такие тесты дорогостоящими. Батч-обработка загрязнила результаты (очевидные инъекции в начале партии влияли на восприятие всей партии). Для полноты следовало позволить агенту отвечать на каждое письмо, а не только обрабатывать их.

«После просмотра более 6000 писем, попытавшихся и не сумевших взломать систему, я значительно более оптимистичен, чем был раньше.»

— Fernando Ibarrola (автор), fernandoi.cl