В GPT-5.5 Codex обнаружена аномалия в распределении reasoning-токенов

В GPT-5.5 Codex обнаружена аномалия в распределении reasoning-токенов

Разработчик naille обнаружил в телеметрии Codex аномалию, связанную с распределением reasoning-токенов в ответах GPT-5.5. Анализ данных за февраль-июнь 2026 года показал, что ответы модели непропорционально часто заканчиваются на точном значении 516 reasoning-токенов, с дополнительными пиками на 1034 и 1552. GPT-5.5 при этом составляет лишь 19.3% от всех ответов, но генерирует 82% всех событий точного совпадения с 516 токенами, это в 33.6 раза выше, чем у других моделей.

Парадоксально, что эта аномалия совпадает с общим снижением интенсивности использования reasoning-токенов в мае-июне по сравнению с февралем-апрелем. Фиксированные значения 516, 1034 и 1552 выглядят не как естественные вариации в зависимости от сложности задачи, а как жесткие пороги срабатывания какого-то внутреннего механизма.

Это подтверждается связанной проблемой #29353, где ответ GPT-5.5, завершивший ровно на 516 reasoning-токенах, дал неправильный результат на сложной задаче. Разработчик не утверждает прямо, что происходит усечение цепочки рассуждений, а выдвигает более узкую гипотезу: телеметрия Codex показывает специфичную для GPT-5.5 аномалию в кластеризации токенов, которая согласуется с пороговым поведением бюджета рассуждений.

Ключевые факты

  • Ответы GPT-5.5 Codex кластеризуются на точных значениях 516, 1034 и 1552 reasoning-токенов, в то время как для других моделей такой паттерн отсутствует
  • Модель GPT-5.5 генерирует 82% всех событий точного совпадения 516 токенов, хотя представляет только 19.3% ответов
  • Аномалия совпадает со снижением общей интенсивности reasoning-токенов в мае-июне, что указывает не на рост использования, а на активацию какого-то порогового механизма
  • Связанная ошибка (#29353) продемонстрировала случай, где точное значение 516 токенов привело к неправильному ответу на сложной задаче
  • Фиксированные пороги предполагают наличие ограничения бюджета рассуждений или маршрутизации, которые могут объяснить деградацию качества на высокосложных задачах

Почему это важно

Качество рассуждений в языковых моделях критически зависит от количества выделенного бюджета токенов. Если система вынуждает модель завершить размышление на жестких порогах (516, 1034 токена) независимо от того, готово ли решение, это может приводить к преждевременному завершению логических цепочек и неправильным ответам. Такая аномалия на уровне телеметрии сигнализирует о потенциальной проблеме с надежностью модели на сложных задачах, где требуется глубокое рассуждение.

Кому это важно

В первую очередь, разработчикам и компаниям, использующим GPT-5.5 через Codex для критичных задач программирования и решения сложных проблем. Команды, полагающиеся на качество и предсказуемость модели для production-кода, должны быть осведомлены о потенциальной деградации. Также это касается OpenAI и всего сообщества LLM, где такие паттерны указывают на системные проблемы, требующие внимания.

Как это применить

Если вы активно используете GPT-5.5 Codex: мониторьте результаты на сложных задачах, особенно если модель выдает неожиданно короткие или неполные ответы. Рассмотрите переключение на другие модели (GPT-5.2, GPT-5.4) для критичных задач до выяснения причины. В разговорах с поддержкой OpenAI указывайте эту аномалию. Для автоматизированных систем добавьте валидацию качества ответов Codex и fallback-механизмы на случай деградации.

Можно ли доверять

Данные основаны на официальной телеметрии Codex, это надежный источник. Статистический паттерн очевиден и воспроизводим (33.6-кратное отклонение от средней частоты). Однако причина аномалии остается неуточненной, это может быть как скрытое ограничение бюджета, так и какой-то другой механизм внутри системы. Нужна официальная позиция OpenAI для подтверждения. Related issue #29353 добавляет конкретный пример с неправильным ответом, но это одиночный case, требуется систематическое воспроизведение.

Риски и подводные камни

Главный риск, скрытое усечение цепочки рассуждений, из-за которого модель выдает неполное или неправильное решение, но пользователь этого не замечает. Фиксированные пороги (516, 1034, 1552) выглядят как жесткие ограничения, которые не зависят от реальной сложности задачи. Если это так, то результаты GPT-5.5 на сложных задачах могут быть систематически ненадежны. Возможна и другая подводная камень: это может быть легитимный оптимизационный механизм, и паттерн вызван не ошибкой, а намеренным дизайном, без разъяснений OpenAI это неясно.

«gpt-5.5 ответы плотно кластеризуются ровно на 516 reasoning-токенах, с соответствующими пиками около 1034 и 1552. Этот паттерн гораздо слабее или отсутствует у нескольких других моделей.»

— GitHub issue #30364, openai/codex