OpenAI Codex писал логи в SSD без контроля, сгорал hardware миллионов пользователей

AI-агент OpenAI Codex имел критический баг в логировании. Неправильная реализация писала огромные объёмы диагностических данных на SSD без контроля. Разработчик Руи Фан сообщил: после 21 дня работы основной SSD получил 37 ТБ write-операций. Годовая экстраполяция: 640 ТБ/год. Типичный consumer NVMe (Samsung 990, 2ТБ) имеет rating 600 TBW (terabytes written), эта норма была бы исчерпана менее чем за год. Один пользователь подсчитал: баг стоил ему $38.64 в 'value of drive'. OpenAI сама провела анализ: за 3 месяца (март-июнь) регрессия сожгла 'low-single-digit millions dollars' по формуле $0.13 за ТБ (стоимость drive / rated endurance). Root cause: февральская работа по внедрению SQLite логирования на TRACE level, которое генерирует огромные verbosity. Ирония: Codex сама ревьювила эти коммиты, но ошибку не поймала. OpenAI подтвердила, что engineers работают над fix через PR, но пользователи продолжают видеть issues.
Ключевые факты
- Logging на TRACE level SQLite генерирует неконтролируемый объём данных, 37ТБ за 3 недели на одной машине
- Годовая норма write на типичном SSD (600 TBW) исчерпывалась за несколько месяцев при работе Codex
- OpenAI оценила убытки за 3 месяца в low-single-digit millions долларов; расчёт по $0.13/TB (стоимость/endurance)
- Баг просочился через code-review самого Codex, иллюстрирует недостатки AI-ассистентов в поиске performance-regressions
- Fix в работе, но медленный, users продолжают жаловаться даже после попыток патча
Почему это важно
Это классический пример hidden cost AI-инструментов. Logging на максимальной verbosity, полезен для debug, но прямо уходит на жёсткий диск. Если логирование не мониторится, может целиком уничтожить economics инструмента. Показывает, что даже OpenAI's own tools не ловят такие regressions автоматически. Рефлексия AI на свой собственный код, недостаточна.
Кому это важно
Пользователям OpenAI Codex (разработчики, компании). Владельцам AI-инструментов, warning о необходимости logging-control. Инженерам, заинтересованным в observability и cost-management AI-систем. Security/ops командам, необходимо мониторить disk write patterns.
Как это применить
Для AI-платформ: (1) логирование TRACE должно быть default-off или time-bounded, (2) мониторить write-rate на дисках real-time, (3) alerting на аномальные объёмы, (4) code-review процесс должен включать performance-regression checks. Для пользователей Codex: проверить версию, отключить verbose logging в конфигах, мониторить SSD health.
Можно ли доверять
The Register, утверждённый tech-источник. Оценка OpenAI ($0.13/TB), публичная. Рассчёт 37TB за 21 день проверяемый. Упоминание PR-fix, доступно в OpenAI repos.
Риски и подводные камни
Fix от OpenAI может быть неполным (users всё ещё жалуются). Logging, наследственная сложность; каждое обновление рискует переинтродуцировать verbose режим. Нет гарантии, что подобные regressions не введены в другие tools компании.
«After about 21 days of uptime, the main SSD has written about 37 TB»
— Рассчёт пользователя Codex (Рui Fan)