OpenAI вполовину снизила стоимость ответов гостевых пользователей ChatGPT

По словам осведомлённого источника из The Information, инженеры OpenAI в начале месяца сообщили коллегам об успешной оптимизации инфраструктуры. Им удалось сократить затраты на запуск (inference costs) существующих моделей ИИ более чем вполовину. Оптимизация была применена к ChatGPT, в частности для посетителей без учётной записи, которые используют гостевой доступ. По данным источника, количество GPU от Nvidia, необходимых для обслуживания этих пользователей, снизилось до нескольких сотен. Точное количество необходимых GPU до оптимизации и применённые методы оптимизации не раскрыты.

Гостевые пользователи имеют доступ только к ограниченному набору функций ChatGPT, поэтому неясно, будут ли эти успехи перенесены на полный продукт. Освободившиеся ресурсы можно направить на масштабирование сервисов, развитие более мощных моделей, ускорение отклика или увеличение прибыли. Однако, поскольку расширение центров обработки данных движется медленно, подобные оптимизации дадут компаниям больше свободы действия, но вряд ли снизят спрос на чипы.

Ключевые факты

OpenAI сократила затраты на inference для гостевых ChatGPT пользователей более чем на 50%
Количество требуемых Nvidia GPU снизилось до нескольких сотен (прежнее количество не уточнено)
Оптимизация применена только к гостевому доступу с ограниченным функционалом
DeepSeek одновременно выпустила open-source метод ускорения inference на 60, 85%
Освобождённые ресурсы направятся на масштабирование, модели или маржу, а не на снижение спроса на чипы

Почему это важно

Инфраструктурная эффективность, ключ к экономике генеративного ИИ. Снижение затрат на inference вполовину означает возможность либо масштабировать сервис при тех же затратах, либо нарастить маржинальность. Это также свидетельствует о том, что крупные лаборатории всё ещё находят низкохранящийся потенциал в оптимизации, а не только в новых архитектурах. Параллельно выход open-source решения DeepSeek показывает, что конкуренция в области скорости inference обостряется.

Кому это важно

Потребителям ChatGPT, они могут получить лучший сервис или более низкие цены; OpenAI, снижение затрат укрепляет позицию в ценовой войне с конкурентами; инвесторам, это позитивный сигнал о контроле затрат. Также эффективны enterprise-клиенты, которым дорога скорость обработки и стоимость владения.

Как это применить

Для OpenAI оптимизация может означать либо расширение гостевого доступа к ChatGPT без пропорционального роста затрат, либо применение этих методов к полным версиям продукта для снижения розничной цены или улучшения маржи. В долгосрочной перспективе, это позволяет использовать освобождённые мощности для обучения новых моделей или расширения в развивающихся рынках.

Можно ли доверять

Информация исходит от The Information, которая ссылается на осведомленный источник, но не предоставляет деталей о методах оптимизации и точных цифрах. Снижение GPU-ов до «нескольких сотен», конкретное число, но без базовой цифры контекст ограничен. OpenAI официально не подтвердила достижение.

Риски и подводные камни

Неясна масштабируемость: метод работает для гостевого доступа с урезанным функционалом, но не гарантирует такие же результаты для полной версии. Если эффект действительно значительный, это может указывать на ранее неэффективное использование ресурсов, что ставит вопросы о текущей прибыльности. Конкуренция (DeepSeek, другие) быстро сокращает преимущества в efficiency, поэтому стратегический выигрыш может быть временным.