OpenAI представляет GPT-5.6: Sol, Terra и Luna

OpenAI начала ограниченное превью семейства GPT-5.6, которое включает три модели с разными характеристиками. Sol, флагманская модель с наиболее продвинутыми возможностями. Terra предлагает конкурентную производительность GPT-5.5 при цене в 2 раза ниже. Luna, самая доступная и быстрая модель из семейства.

Модели демонстрируют значительные улучшения в нескольких ключевых направлениях. На бенчмарке Terminal-Bench 2.1, проверяющем работу с командной строкой, требующей планирования и координации инструментов, Sol устанавливает новый рекорд. В сфере биологии GPT-5.6 Sol показывает лучшие результаты на GeneBench v1, анализирующем долгосрочные геномные исследования, при этом используя меньше токенов, чем предыдущая версия.

В кибербезопасности Sol демонстрирует наиболее продвинутые возможности. На бенчмарке ExploitBench Sol конкурирует с моделью Mythos Preview, используя примерно 1/3 токенов. На ExploitGym, созданном исследователями UC Berkeley совместно с OpenAI, все три модели показывают заметное улучшение в киберспособностях по сравнению с предыдущими версиями.

OpenAI ввела новые возможности рассуждений. Максимальный уровень рассуждений даёт Sol больше времени для глубокого анализа. Ультра-режим выходит за пределы способностей одного агента, используя подагентов для ускорения сложной работы.

Цены установлены на уровне $5 входной/$30 выходной для Sol, $2.50/$15 для Terra и $1/$6 для Luna за миллион токенов. Также введено улучшенное кэширование подсказок с поддержкой явных точек разрыва кэша и минимальным временем жизни 30 минут. Запись в кэш стоит 1.25x от базовой цены, чтение получает 90% скидку.

Ценность Sol в кибербезопасности заключается в том, что модель лучше помогает находить и исправлять уязвимости, чем надёжно проводить полные цепочки атак. Sol не пересекает порог Cyber Critical согласно Preparedness Framework OpenAI: в тестировании на Chromium и Firefox модель идентифицировала баги и примитивы эксплуатации, но не создавала автономно полнофункциональный exploit при условиях теста.

Для управления рисками OpenAI применила многоуровневый подход безопасности: защиты, встроенные в саму модель; проверки реального времени при генерации; анализ на уровне аккаунта; дифференцированный доступ; мониторинг; соблюдение; продолжающееся тестирование. Модель обучена отказывать в помощи по запрещённым кибероперациям, включая попытки замаскировать намерение. Классификаторы реального времени для кибербезопасности и биологии добавляют второй слой защиты, оценивая выход по мере генерации.

OpenAI потратила более 700 000 GPU-часов эквивалента A100 на автоматизированный красный пинг (тестирование на уязвимости), нацеленный на универсальные взломы, которые могут работать во многих контекстах. Параллельно проводился экспертный красный пинг с участием третьих сторон.

Превью начинается с ограниченного доступа через API и Codex избранной группе партнёров и организаций. Массовый выпуск запланирован на ближайшие недели для пользователей ChatGPT, Codex и API. В июле Cerebras запустит Sol с пропускной способностью до 750 токенов в секунду для избранных клиентов.

Оглашение связано с координацией с правительством США. OpenAI сообщила о планах и возможностях моделей перед запуском и стартует с ограниченного превью со статусом "trusted partners", информация о которых была передана правительству. Такой процесс доступа, временная мера, ориентированная на более широкое распространение в ближайшие недели параллельно с работой администрации над Cyber Executive Order.

Ключевые факты

OpenAI выпустила три модели GPT-5.6: Sol (флагманская), Terra (2x дешевле GPT-5.5), Luna (бюджетная и быстрая)
Sol устанавливает новые рекорды на бенчмарках в кодировании (Terminal-Bench 2.1), биологии (GeneBench v1) и кибербезопасности (ExploitBench, ExploitGym)
Цены: Sol $5/$30, Terra $2.50/$15, Luna $1/$6 за 1M токенов; улучшено кэширование подсказок с 90% скидкой на чтение из кэша
Многоуровневая система безопасности: встроенные защиты, классификаторы реального времени, анализ уровня аккаунта; Sol не пересекает порог Cyber Critical, идентифицирует баги, но не создаёт полные exploits
Ограниченное превью с избранными партнёрами перед массовым выпуском в ближайшие недели; Cerebras версия с 750 токенами/сек запустится в июле

Почему это важно

Выпуск GPT-5.6 представляет значительный прогресс в возможностях фронтирных моделей, особенно в сложных рабочих процессах кодирования, биологии и кибербезопасности. Введение трёхуровневой структуры (Sol/Terra/Luna) с ясной ценовой дифференциацией меняет конкурентный ландшафт, позволяя разработчикам выбирать модель в зависимости от требуемого баланса между интеллектом, скоростью и стоимостью. Новые режимы рассуждений, включая ультра-режим с подагентами, открывают возможности для автономного выполнения сложных многошаговых задач. Особенно значимо внимание OpenAI к кибербезопасности как в плане способностей, так и в плане защиты от миссьюза, что отражает растущую роль ИИ в критических оборонительных операциях.

Кому это важно

Разработчикам и компаниям, работающим с кодированием, биологией и кибербезопасностью. Предприятиям, ищущим баланс между производительностью и затратами (Terra может заменить GPT-5.5 дешевле). Защитникам киберсистем и исследователям безопасности, которые получают инструменты для выявления уязвимостей с меньшим риском миссьюза. Пользователям ChatGPT и Codex, которые получат доступ к более мощным моделям. Компаниям, использующим Cerebras, которые смогут добиться беспрецедентной скорости обработки.

Как это применить

Разработчики могут выбрать Terra для повседневных задач кодирования с сокращением расходов в 2 раза, оставляя Sol для сложных операций, требующих максимальной интеллектуальности. Команды безопасности могут использовать Sol для автоматизированного поиска уязвимостей и разработки патчей в режиме с максимальным рассуждением, зная, что встроенные защиты ограничат риск создания полных эксплойтов. Биологи и исследователи может использовать Sol для анализа геномных данных с меньшим расходом токенов. Новое кэширование подсказок с 90% скидкой на чтение позволяет экономить на повторяющихся анализах длинных контекстов. Luna может служить эффективным выбором для высокочастотных простых задач или примеров для конечных пользователей.

Можно ли доверять

OpenAI опубликовала систематические результаты бенчмарков (Terminal-Bench 2.1, GeneBench v1, ExploitBench, ExploitGym) с третьесторонней верификацией (UC Berkeley для ExploitGym). Объём инвестиций в безопасность (700 000 GPU-часов на красный пинг, третьесторонние экспертные тесты, многоуровневая система защиты) подтверждает серьёзный подход. Вместе с тем, модели находятся в фазе ограниченного превью, и полные результаты оценки будут опубликованы при массовом выпуске. Кибербезопасность, область, где небольшие отклонения в поведении модели могут иметь серьёзные последствия, поэтому результаты экспертного красного пинга будут ключевым сигналом надёжности при более широком доступе.

Риски и подводные камни

Несмотря на гарантии, Sol демонстрирует улучшенные киберспособности, которые могут быть использованы неправомерно, если системы защиты будут обойдены или если дефекты в многоуровневой системе безопасности будут выявлены. Фаза превью может выявить ранее неизвестные способы circumvention. Ограниченный доступ в превью означает, что полная картина способностей и рисков проявится только при более широком развёртывании. Terra и Luna ещё не подтверждены на производственных масштабах. Новая система рассуждений с подагентами усложняет отладку и предсказуемость поведения модели, что может затруднить обнаружение проблем в production-сценариях. Цена за токены может измениться после превью. Интеграция государственного координирования на этапе превью может означать, что некоторые функции или модели могут быть задержаны в регионах с определённой регуляторной политикой.

Ред. Самое честное место релиза это раздел рисков, где между строк написано: киберспособности выросли, защиты могут обойти, поведение подагентов толком не отлаживается, а цены после превью могут и подрасти. Добавьте сюда координацию с правительством США и статус «trusted partners», и доступ к флагману начинает напоминать не магазин, а список допущенных. Превью у избранных удобно ещё и тем, что полная картина рисков всплывёт уже не на их совести.

«GPT-5.6 Sol не пересекает порог Cyber Critical согласно нашему Preparedness Framework. При оценке Chromium и Firefox модель идентифицировала баги и примитивы эксплуатации, строительные блоки эксплойта, но не создавала автономно функциональный полноцепочечный эксплойт при условиях, в которых проводилось тестирование.»

— OpenAI