Anthropic извинилась за скрытое ограничение в Claude Fable и сделает его видимым

Anthropic признала ошибку и пересмотрела скрытый механизм безопасности в новой модели Claude Fable 5. Защита была направлена против дистилляции, то есть использования выходов крупной модели для обучения конкурирующих меньших моделей. Проблема в том, что вместо явного отказа механизм незаметно ухудшал результаты через модификацию промпта, управляющие векторы (steering vectors) или PEFT-дообучение, и пользователь об этом не знал. Подробности описаны в 319-страничной системной карте Fable, а под удар, по оценке компании, попадало около 0,03% трафика.

Реакция исследователей оказалась крайне резкой: один из них назвал её самой злой реакцией ИИ-сообщества, что он когда-либо видел. После критики Anthropic пообещала сделать срабатывания прозрачными: подозрительные запросы будут перенаправляться на Claude Opus 4.8 с уведомлением пользователя, чтобы разработчики понимали, какая модель дала ответ. В заявлении для Wired компания признала, что выбрала неверный баланс.

Ключевые факты

Скрытая защита Fable 5 портила ответы при подозрении на дистилляцию, без уведомления
Механизмы: модификация промпта, steering vectors, PEFT-дообучение
Детали в 319-страничной системной карте; затронуто около 0,03% трафика
Теперь подозрительные запросы перенаправляются на Claude Opus 4.8 с уведомлением
Anthropic извинилась, изменение касается видимости, а не отмены ограничения

«Мы сделали неверный выбор и приносим извинения за то, что не нашли правильный баланс.»

— Anthropic, заявление для Wired