Защита от инъекций: 2000 хакеров не смогли взломать ИИ-помощника на Opus 4.6

Разработчик Fernando Irarrázaval запустил челлендж на hackmyclaw.com, приглашая людей попытаться украсть секреты из тестового экземпляра OpenClaw через email-инъекции. Участники могли отправлять письма с попыткой prompt injection, атак на логику модели через текстовый ввод.

Результат: за 6000 попыток (потрачено $500 на токены) никому не удалось получить доступ к файлам secrets.env, credentials или выполнить команды. Один участник даже снял Google-аккаунт из-за большого количества входящей почты.

Модель использовала Claude Opus 4.6 с жёсткими anti-injection правилами в системном промпте. Запреты включали: не раскрывать содержимое secrets.env, не изменять собственные файлы, не выполнять команды из email, не экспортировать данные на внешние сервера.

Популярность этого результата (активное обсуждение на Hacker News) указывает на долгосрочный тренд: лабораториям удаётся встраивать в фронтиер-модели устойчивость к injection-атакам. Симон Уиллисон (автор публикации) отмечает положительный результат, но напоминает: 6000 неудач не гарантируют абсолютную безопасность. Более хитроумные подходы теоретически возможны, поэтому в production-системах, где injection могла бы привести к необратимому ущербу, требуется дополнительная архитектурная защита.

Ключевые факты

  • Челлендж на hackmyclaw.com: 2000+ участников, 6000 попыток prompt injection через email, ни один успешный взлом
  • Использована защита: Claude Opus 4.6 с жёсткими anti-injection правилами (запрет на раскрытие secrets, выполнение команд, модификацию файлов)
  • Затраты хакеров: $500 на API-токены, одного участника заблокировала Google за наводнение письмами
  • Тренд в индустрии: лабораториями проведена серьёзная работа по встраиванию защиты от injection-атак в фронтиер-модели
  • Важное уточнение: 6000 неудач не гарантируют полную безопасность; в production требуется многоуровневая защита, архитектура должна минимизировать ущерб от успешной инъекции

Почему это важно

Prompt injection, один из основных подходов к взлому ИИ-систем. Если хакеры смогут внедрить команды в текстовый ввод, они получат доступ к чувствительным данным, смогут выполнить вредоносные действия или перепрограммировать модель. Челлендж демонстрирует, что после долгой работы лабораторий над защитой (включая специальные разделы в карточках безопасности моделей типа GPT-5.6) injection-атаки действительно становятся намного сложнее. Это хорошая новость для безопасности ИИ в целом.

Кому это важно

Всем, кто разворачивает ИИ-ассистентов или агентов, где модель получает входные данные из недоверенных источников (email, веб-формы, user-generated content). Также важно для компаний, использующих фронтиер-модели в sensitive операциях, и для security-исследователей, изучающих resilience ИИ.

Как это применить

При развёртывании собственного ИИ-ассистента: (1) используйте системные промпты с явными anti-injection правилами (как в примере Fernando); (2) не полагайтесь только на промпт, добавляйте архитектурные меры (изоляция чувствительных операций, контроль доступа, аудит); (3) проводите свои security-тесты и red-teaming перед production; (4) если инъекция может привести к необратимому ущербу, архитектура должна это предотвращать, а не только надеяться на robustness модели.

Можно ли доверять

Результаты челленджа вполне правдоподобны и подтверждены активным обсуждением на Hacker News, где участники честно разбирали попытки и делились выводами. Однако важно помнить: челлендж проводился как социальный эксперимент, а не как профессиональный penetration test. Хакеры получали $500 на токены, но это не моделирует финансовые возможности запущенного на вас государства или хорошо финансированной criminal группы.

Риски и подводные камни

Главный риск, ложное чувство безопасности. 6000 неудач на челлендже не означают, что system невозможно взломать при других условиях. Более опытные хакеры (например, AI-focused red-teamers с опытом работы с Opus) могут найти лазейки, которые не подумались челленджерам. Также модель Opus 4.6 может иметь свои слабые точки, неизвестные публично. Второй риск: если систематический промпт или anti-injection правила не хранят в секрете, хакеры могут целенаправленно обходить известные защиты. Третий: архитектурная ошибка (например, выполнение пользовательского кода без sandbox) может свести на нет все усилия защиты модели.

«Меня всё еще беспокоит развертывание production-системы, где успешная prompt injection атака могла бы причинить необратимый ущерб. 6000 неудачных попыток не гарантируют ничего.»

— Simon Willison