OpenAI анонсирует GPT-5.6 с тремя уровнями моделей: Sol, Terra и Luna

OpenAI объявила о начале ограниченного превью семейства GPT-5.6, состоящего из трёх моделей: Sol (флагманская), Terra (сбалансированная, 2x дешевле GPT-5.5) и Luna (быстрая и самая доступная). Все три модели имеют несколько слабых мест в тестировании на чёрные ящики, но для легитимной защиты и исследования уязвимостей считаются безопасными.

Sol показывает значительные улучшения в трёх ключевых областях: кодирование (новый рекорд на Terminal-Bench 2.1), биология (улучшения на GeneBench v1) и кибербезопасность (конкурентоспособен с Mythos Preview при использовании ~1/3 токенов). Все три модели обучены отказывать во вредоносной помощи и используют многоуровневую защиту: предварительно обученные ограничения, проверки в реальном времени, анализ на уровне аккаунта и выборочный доступ.

OpenAI потратила над 700 тысяч часов GPU A100-equivalent на автоматизированный краснотестирование (поиск универсальных джейлбреков), а также привлекла третьих лиц для ручного эксперт-тестирования. Sol не пересекает "Cyber Critical" порог в рамках фреймворка готовности, определил ошибки в Chromium и Firefox, но не создал функциональные полноценные эксплойты. Ограниченный превью доступен выбранной группе доверенных партнёров и организаций; полный выпуск запланирован на ближайшие недели.

Цены: Sol, $5 ввод / $30 вывод, Terra, $2.50 ввод / $15 вывод, Luna, $1 ввод / $6 вывод за 1M токенов. Введена новая система кэширования с явными контрольными точками и 30-минутным минимумом жизни. В июле Sol также запустится на Cerebras с пропускной способностью до 750 токенов в секунду.

Ключевые факты

GPT-5.6 состоит из трёх моделей: Sol (флагманская), Terra (2x дешевле 5.5) и Luna (самая доступная), каждая с собственными ценовыми точками и характеристиками
Sol устанавливает новый рекорд в кодировании (Terminal-Bench 2.1), биологии (GeneBench v1) и кибербезопасности (1/3 токенов vs Mythos Preview)
OpenAI использовала 700k+ GPU часов на автоматизированное краснотестирование для поиска универсальных джейлбреков и защиты от адаптивных атак
Sol не пересекает порог "Cyber Critical", находит уязвимости, но не создаёт полноценные автономные эксплойты
Ограниченный превью для доверенных партнёров, полный выпуск на ChatGPT/API/Codex в ближайшие недели

Почему это важно

GPT-5.6 Sol демонстрирует качественный скачок в способностях агентов, особенно в синтезе код-инструмент-планирование (Terminal-Bench), длинных научных задачах (биология) и поиске уязвимостей (кибербезопасность). Это первый случай, когда OpenAI выпускает семейство с явными уровнями мощности, где Terra обещает GPT-5.5-уровень производительности за половину цены. Для разработчиков и предприятий это открывает доступ к фронтирной мощности при разных бюджетных ограничениях.

Кому это важно

Разработчики (новые способности в агентном кодировании и multi-step planning), исследователи в биологии (GeneBench v1), специалисты по безопасности и defensive-команды (уязвимости/патчи, не эксплуатация), и предприятия, которые ищут более экономные варианты к GPT-5.5.

Как это применить

API пользователи получат доступ через openai.com в превью (ограниченный круг); полный доступ будет в ChatGPT, Codex и API. Цены: Sol $5/$30, Terra $2.50/$15, Luna $1/$6 за 1M токенов. В июле Sol на Cerebras обещает 750 токенов/сек. Новый параметр "max reasoning effort" и режим "ultra" (с сабагентами) для сложных задач.

Можно ли доверять

OpenAI применила комплексный подход: 700k+ GPU часов на краснотестирование, привлечение третьих лиц, многоуровневая защита (модель + проверки в реальном времени + анализ аккаунта). Sol не пересекает "Cyber Critical" порог (не создаёт полноценные автономные эксплойты), но OpenAI прямо признаёт, что превью может блокировать легитимные запросы и добро пожаловать feedback для уточнения.

Риски и подводные камни

Превью-фаза означает, что защиты ещё тестируются и могут чрезмерно блокировать легитимную работу (особенно в dual-use областях, где защита и атака выглядят одинаково). OpenAI требует ограниченный доступ перед полным выпуском (по запросу правительства США), что замедляет распределение. Sol может отказать в некоторых запросах, а обработка сложных задач может требовать дополнительного времени для проверки. Нет гарантии, что защиты останутся эффективными при адаптации атакующих тактик.

«GPT-5.6 Sol, наша самая мощная модель на данный момент. Sol лучше помогает людям находить и исправлять уязвимости, чем надёжно проводить полноценные end-to-end атаки. По мере развития этих возможностей, наш приоритет, убедиться, что они достигают и приносят пользу защитникам, которые могут использовать эти инструменты для поиска слабых мест, разработки патчей и укрепления систем.»

— OpenAI в анонсе GPT-5.6