Anthropic восстановит доступ к Fable 5 после переговоров с администрацией Трампа

Anthropic восстановит доступ к Fable 5 после переговоров с администрацией Трампа

После недель переговоров с администрацией Трампа компания Anthropic получила уведомление о снятии экспортных ограничений с моделей Claude Fable 5 и Mythos 5. Начиная со среды компания начнёт восстанавливать доступ для пользователей, а вскоре переведёт модели на платформы AWS, Google Cloud и Microsoft Azure (сроки не уточняются).

Проблема началась в начале июня, когда администрация Трампа издала экстренный приказ об экспортных ограничениях на обе модели из-за опасений по поводу потенциальных jailbreak'ов. Ограничение запретило иностранцам (включая сотрудников-иностранцев самой Anthropic) использовать эти модели, что произошло ровно после гипирования новых продуктов.

Для решения проблемы с jailbreak'ом (который был выявлен исследователями Amazon) Anthropic разработала улучшенный классификатор безопасности, который специально блокирует данную атаку. Компания отмечает, что техника из доклада Amazon блокируется в более чем 99% случаев. Если запрос к Fable 5 будет заблокирован, пользователю об этом сообщат, а запрос перенаправят на более раннюю версию Opus 4.8.

Администрация Трампа разрешила вернуть Mythos 5 первоначально только для одобренного списка организаций, где иностранным сотрудникам Anthropic также снова разрешен доступ. Подобным образом администрация поступила и с GPT-5.6 OpenAI, пошаговый выпуск только для предварительно одобренных организаций и государственных ведомств.

Аnthropic публикует ряд инициатив по сотрудничеству с администрацией: предварительный доступ для государственного тестирования моделей перед публичным выпуском, включая возможность провести независимую оценку способностей и проверить защиты. Компания обещает быстрое информирование об обнаруженных jailbreak'ах и злоупотреблениях, а также участие в разработке общих стандартов безопасности и оценки для провайдеров frontier models совместно с другими AI-лабораториями. Anthropic выделит вычислительные ресурсы для государственного тестирования и предоставит свои экспертизу в области безопасности и red-teaming.

Аdministrация также согласилась работать с самой Anthropic над разработкой единого фреймворка для оценки тяжести jailbreak'ов. В рамках инициативы Project Glasswing компания партнёрствует с Amazon, Microsoft, Google и другими организациями для создания согласованного подхода. Фреймворк включает четыре категории: прирост возможностей для атакующего, широта прироста возможностей, простота оружейного использования и обнаруживаемость (как легко другому повторить).

Anthropic также создаёт новую команду для 24/7 мониторинга каналов submission jailbreak'ов и вскоре запустит HackerOne программу для исследователей. Компания признаёт, что полностью сделать модели робастными к jailbreak'ам невозможно и ожидает обнаружения некоторых уязвимостей различной тяжести.

Ключевые факты

  • Anthropic получила официальное разрешение от администрации Трампа на восстановление доступа к Fable 5 и Mythos 5 после снятия экспортных ограничений
  • Компания разработала улучшенный классификатор безопасности, блокирующий известный jailbreak из доклада Amazon в 99%+ случаев
  • Первоначально Mythos 5 будет доступна только для одобренного списка организаций, подобно тому как OpenAI поступила с GPT-5.6
  • Anthropic обязалась предоставлять ранний доступ моделей для государственного тестирования перед публичным релизом и проводить быстрое информирование об обнаруженных уязвимостях
  • Компания участвует в разработке единого фреймворка для оценки тяжести jailbreak'ов совместно с Amazon, Microsoft, Google и другими лидирующими AI-лабораториями

Почему это важно

Восстановление Fable 5 символизирует новый этап взаимоотношений между крупными AI-компаниями и государством. Экспортные ограничения на AI-модели становятся инструментом национальной безопасности, и способность Anthropic договориться об условиях доступа определяет её конкурентоспособность. Одновременно это первый реальный тест механизмов сотрудничества между промышленностью и регуляторами в области AI-безопасности.

Кому это важно

Пользователей Fable 5 по всему миру, включая иностранных сотрудников Anthropic и международных клиентов на AWS/GCP/Azure. Также релевантно для других AI-компаний (OpenAI, Meta, и т.д.), которые сталкиваются с похожими регуляторными требованиями. Исследователям безопасности важно развитие стандартизированного подхода к оценке jailbreak'ов через Project Glasswing.

Как это применить

Для организаций, использующих Anthropic: переподготовка команд на восстановленные модели, переоценка рабочих процессов с Fable 5. Для исследователей безопасности: участие в HackerOne программе Anthropic и следование новым стандартам оценки jailbreak'ов при тестировании моделей. Для бизнеса: учёт регуляторных рисков при выборе AI-провайдера и понимание того, что доступность моделей может быть временно ограничена политическими факторами.

Можно ли доверять

Утверждение о блокировке 99%+ jailbreak'ов из доклада Amazon требует независимой проверки, это заявление самой компании, а не третьей стороны. Разработанная классификатор может быть очень эффективна против конкретной техники, но не гарантирует отсутствие других уязвимостей. Сама Anthropic честно признаёт, что полная robustness невозможна.

Риски и подводные камни

Первоначальное ограничение доступа к Mythos 5 только для одобренного списка организаций снижает конкурентное преимущество перед OpenAI. Неясно, когда и как будет расширен доступ на международные партнёры. Строгое требование государственного pre-release доступа и тестирования может замедлить выпуск новых моделей. Есть риск, что красивые обещания о сотрудничестве (Project Glasswing, стандарты) окажутся декоративными без реального влияния на процессы.

«Мы получили уведомление о том, что Министерство торговли сняло экспортные ограничения с Claude Fable 5 и Mythos 5. Мы начнём восстанавливать доступ с завтрашнего дня и вскоре поделимся обновлением. Мы благодарны нашим пользователям за терпение и всем, кто работал с нами над переразвёртыванием моделей.»

— Anthropic