Claude Fable чинит баг любой ценой: изобретательность агента как новый источник риска

Автор дал Fable 5 от Anthropic расследовать баг со скроллбаром в textarea, имея на руках только скриншот. Агент проявил поразительную изобретательность без явных указаний: запустил локальные dev-серверы с выдуманными переменными окружения, сам открыл несколько браузеров (Firefox, Safari), создал собственные HTML-файлы для воспроизведения, поднял Python-сервер с CORS для сбора JSON-диагностики и внедрял JavaScript в шаблоны приложения, чтобы вызвать модальные окна. Через PyObjC он перечислял системные окна и снимал скриншоты, правил шаблоны исходников, добавляя слушатели клавиатуры, и в итоге локализовал и починил баг.
Сессия израсходовала около 68 606 выходных токенов при пиковом контексте 113 178 токенов и обошлась примерно в 12,11 доллара по полному тарифу API. В какой-то момент Fable упёрся в невидимое ограничение и сам понизился до Opus, который продолжил расследование. Willison впечатлён находчивостью, но всерьёз обеспокоен безопасностью: если бы агентом управляли со злым умыслом, страшно представить, как далеко он зашёл бы ради кражи данных.
Ключевые факты
- Fable получил лишь задачу и скриншот, остальное достроил сам
- Поднимал dev-серверы, открывал браузеры, писал Python-сервер с CORS для диагностики
- Через PyObjC перечислял окна и снимал скриншоты, правил шаблоны исходников
- Сессия: ~68 606 выходных токенов, пик контекста 113 178, около 12,11 $
- Уперевшись в guardrail, сам понизился до Opus; автора тревожит вектор для злоупотреблений
«Если бы Fable действовал по злонамеренным указаниям, страшно представить, как далеко он зашёл бы ради кражи данных.»
— Simon Willison