Anthropic восстановила доступ к моделям Claude Fable и Mythos после снятия экспортных ограничений

Anthropic объявила о восстановлении доступа к своим новейшим моделям Claude Fable 5 и Mythos 5, которые были заблокированы 12 июня из-за экспортных ограничений, наложенных американским правительством. Проблема началась с отчёта исследователей Amazon, обнаруживших метод обхода защит Fable 5 при помощи специального промптинга, модель смогла выявить несколько уязвимостей в программном обеспечении и в одном случае продемонстрировала, как её эксплуатировать. Anthropic провела расширенное тестирование и подтвердила, что многие менее мощные модели (Claude Opus 4.8, GPT-5.5, Kimi K2.7) способны делать то же самое, а все протестированные модели (включая Haiku 4.5 и Sonnet 4.6) дали идентичный результат при попытке эксплуатировать конкретную уязвимость. Компания развернула улучшенный классификатор безопасности, блокирующий описанный в отчёте Amazon метод в более чем 99% случаев. Начиная с 1 июля Fable 5 доступна глобально на Claude Platform, Claude.ai, Claude Code и Claude Cowork; на облачных сервисах AWS, Google Cloud и Microsoft восстановление доступа идёт. Mythos 5 (модель с меньшими ограничениями, предназначенная для оборонительной кибербезопасности) вновь открыта для набора американских организаций. Anthropic объявила о разработке совместно с Amazon, Microsoft, Google и партнёрами программы Glasswing единого индустриального стандарта для оценки серьёзности взломов систем безопасности ИИ-моделей по четырём критериям: прирост возможностей, широта применения, простота боевого использования и открытость техники.

Ключевые факты

Экспортные ограничения США на Fable 5 и Mythos 5 (от 12 июня) сняты; модели восстановлены начиная с 30 июня, глобальный доступ к Fable 5 открыт с 1 июля.
Повод для ограничений: исследователи Amazon выявили метод обхода защит Fable 5 путём специального промптинга для выявления и демонстрации эксплуатации уязвимостей; однако Anthropic установила, что это поведение не уникально для Mythos и доступно многим менее мощным моделям.
Anthropic развернула улучшенный классификатор, блокирующий описанный метод в 99%+ случаев; новый классификатор может отклонять и безвредные запросы при кодировании и отладке.
Компания совместно с Amazon, Microsoft, Google разрабатывает единый стандарт (framework) для объективной оценки серьёзности взломов ИИ-моделей, по критериям прироста возможностей, широты, простоты боевого использования и открытости техники.
Anthropic укрепляет сотрудничество с американским правительством: пред-релизное тестирование, обмен информацией и совместные исследования.

Почему это важно

Событие знаменует возвращение к оперативной работе после политического давления и демонстрирует, что сообщество разработчиков начинает вырабатывать общие стандарты оценки рисков при взломах моделей. В контексте растущей мощности ИИ-систем, особенно в области кибербезопасности, отсутствие единого языка для описания серьёзности уязвимостей создаёт неопределённость как для разработчиков, так и для органов государственной власти. Предложенный Anthropic framework с четырьмя критериями может стать основой для более предсказуемого и справедливого регулирования.

Кому это важно

Разработчикам, использующим Claude в своих приложениях (особенно на AWS, Google Cloud, Microsoft); пользователям Pro, Max и Team-планов Claude; организациям, задействованным в оборонительной кибербезопасности и в программе Glasswing; регуляторам и органам государственной власти, ответственным за политику экспорта ИИ-технологий; индустрии в целом, конкурентам Anthropic, которые должны будут согласовать собственные подходы к безопасности с появляющимся стандартом.

Как это применить

Разработчики, блокировавшие интеграцию Fable 5 из-за ограничений, могут вновь включить модель в production-системы начиная с 1 июля. Те, кто использует Claude через облачные платформы, должны дождаться восстановления доступа (идёт, сроки не указаны). Организации, работающие в области кибербезопасности, могут подать заявку на участие в программе Glasswing для получения доступа к Mythos 5 с менее строгими ограничениями. Разработчикам стоит следить за уточнением индустриального framework'а и вырабатывать собственные процессы оценки рисков в соответствии с появляющимися стандартами.

Можно ли доверять

Высокая надёжность. Anthropic приводит подробные данные независимого тестирования (проверка восстановленными классификаторами, тестирование конкурирующих моделей), прозрачно описывает каскад защитных механизмов и масштаб ложных срабатываний. Центр стандартов и инноваций в ИИ (CAISI) при Минторговле США подтвердил, что safeguards'ы «чрезвычайно мощны». Однако оценка важности самого отчёта Amazon отсутствует в публикации, содержание report'а не раскрыто полностью, видна только описанная Anthropic интерпретация.

Риски и подводные камни

Новый классификатор вызывает ложные срабатывания при легитимном кодировании и отладке, Anthropic обещает его доработку, но в текущем виде может ухудшить пользовательский опыт. Фреймворк для оценки взломов остаётся в стадии разработки и может не получить поддержку конкурентов. Отсутствует информация о сроках восстановления доступа через AWS и облачные партнёры, что может создать ситуацию неравного доступа. Критерии серьёзности взлома («ease of weaponization», «discoverability») предполагают субъективную оценку, и консенсус по их применению не гарантирован.

«Мы преднамеренно установили классификаторы безопасности срабатывать на множество запросов, которые мы знаем, вероятно, безвредны. Такой подход с «safety margin» означает, что запрос должен выглядеть очень явно безопасным, чтобы не вызвать срабатывания классификатора. Для Fable 5 мы сделали эту зону безопасности намного большей, чем при любом предыдущем запуске, означая, что много больше безвредных запросов будут заблокированы.»

— Anthropic (из официального объявления о Fable 5)