Anthropic добавила защиту безопасности, чтобы вернуть одобрение администрации Трампа

Администрация Трампа отменила экспортные ограничения на модель Claude Fable 5 компании Anthropic после того, как компания согласилась расширить существующий механизм защиты (guardrail). Новая защита блокирует попытки пользователей получить доступ к определенным ограниченным возможностям, уведомляя их об отказе и направляя запросы на менее продвинутую модель Opus 4.8.

Ранее запросы, связанные с чувствительными возможностями в области кибербезопасности и биологии, уже обрабатывались через Opus 4.8. Расширение guardrail касается конкретного поведения, выявленного в исследовании Amazon. Анализ Katie Moussouris, основателя компании Luta Security, обнаружил, что пользователи могли обойти ограничения на Fable 5, попросив модель исправить код вместо того, чтобы найти уязвимости. Хотя эксперты по кибербезопасности не считают это поведение проблемным, администрация использовала это как причину для введения экспортных ограничений.

Коммерч-секретарь Howard Lutnick в письме объявил об отмене ограничений и подчеркнул, что Anthropic согласилась "проактивно выявлять и устранять риски безопасности, которые представляют модели". Исследователи из Center for AI Standards and Innovation и Innovation посчитали, что safeguards на Fable 5 достаточно надежны для текущего момента.

Однако полный конфликт еще не разрешен. Secretary of Defense Пит Hegseth сообщил советникам, что нет четкого пути к отмене его приказа от 28 февраля, который обозначил Anthropic как риск для цепи поставок. Таким образом, несмотря на прогресс с Commerce Department, компания все еще сталкивается с другими преградами.

Ключевые факты

Anthropic расширила guardrail-защиту для Claude Fable 5, блокируя доступ к ограниченным возможностям и перенаправляя запросы на Opus 4.8
Экспортные ограничения Трампа на Fable 5 снимаются после согласия компании на дополнительные меры безопасности
Новый guardrail была вызвана исследованием Amazon, выявившим метод обхода ограничений через просьбы исправить код вместо поиска уязвимостей
Commerce Department признал достаточность safeguards после проверки Center for AI Standards and Innovation
Defense Secretary по-прежнему сохраняет приказ, обозначающий Anthropic как риск цепи поставок, что создает новые препятствия

Почему это важно

Это событие отражает политизацию ИИ-регулирования в США. Администрация Трампа использует экспортные ограничения как инструмент влияния на разработчиков ИИ, требуя выполнения конкретных условий безопасности в обмен на доступ к рынку. Для Anthropic это означает необходимость согласовывать дизайн моделей с политическими приоритетами администрации.

Кому это важно

Это касается Anthropic и разработчиков Claude API, которые планировали использовать Fable 5 с экспортом. Также это важно для других ИИ-компаний, которые теперь видят, что политическое давление администрации может требовать изменений в архитектуре безопасности моделей.

Как это применить

Разработчики, использующие Claude Fable 5, должны учитывать, что запросы на выполнение кода, которые могут интерпретироваться как попытки обойти ограничения безопасности, будут перенаправлены на Opus 4.8. При разработке приложений, требующих полной функциональности Fable 5 в области кибербезопасности, может потребоваться использовать другие модели или уровни доступа.

Можно ли доверять

Commerce Department привлек независимых исследователей из Center for AI Standards and Innovation для проверки safeguards, что добавляет некоторую объективность. Однако сам guardrail основан на интерпретации Amazon исследования, которое эксперты по кибербезопасности не считают значимой уязвимостью. Это указывает на потенциальную переоценку риска политическими органами.

Риски и подводные камни

Риск эскалации: Defense Secretary все еще может усилить ограничения через приказ о риске цепи поставок. Непредсказуемость: политическое давление может привести к дальнейшим изменениям требований безопасности. Прецедент: это событие показывает, что ИИ-компании могут быть вынуждены менять архитектуру в ответ на политическое давление, а не только на реальные технические проблемы безопасности.

«Anthropic согласилась проактивно выявлять и устранять риски безопасности, которые представляют модели»

— Commerce Secretary Howard Lutnick