На сколько месяцев открытые LLM отстают от закрытых: анализ тренда до конца 2026 года

Блогер проанализировал тренд разрыва в производительности между открытыми (open-weights) и закрытыми (closed-source) языковыми моделями на данных Artificial Analysis. Разрыв измеряется так: берётся текущая граница производительности открытых моделей, смотрят, на сколько месяцев назад закрытые модели находились на таком же уровне.

На одном главном бенчмарке разрыв действительно сокращается и при экстраполяции уходит в ноль примерно 3 декабря 2026 года, шесть месяцев от момента написания. Это подало бы повод для паники о том, что через полгода открытые модели полностью вытеснят закрытые.

Однако при анализе всех 18 доступных бенчмарков картина меняется. Для каждого из 18 датасетов автор построил аналогичные графики. При усреднении по всем бенчмаркам линия тренда оказалась почти горизонтальной, разрыв держится на уровне чуть менее 5 месяцев на протяжении всего периода наблюдения.

Самый заметный прогресс открытых моделей произошёл в кодировании: здесь разрыв сократился с 15 месяцев до 1, 2 месяцев. Для большинства других бенчмарков разрыв либо слегка растёт, либо остаётся стабильным.

Вывод: выбор бенчмарка критичен. Если смотреть только на один тест, можно предсказать «открытый апокалипсис» к рождеству; если анализировать комплексно, открытые LLM устойчиво отстают на 5 месяцев и эта дистанция не схлопывается так быстро, как кажется на первый взгляд.

Ключевые факты

  • Разрыв между открытыми и закрытыми LLM на одном бенчмарке (Artificial Analysis Intelligence Index) сокращается с 15+ месяцев в 2023, 2024 году до нуля в проекции на декабрь 2026
  • При анализе всех 18 бенчмарков Artificial Analysis средний разрыв стабилен на уровне ~5 месяцев и не показывает признаков схлопывания
  • Наибольший прогресс открытых моделей в кодировании: от 15 месяцев отставания до 1, 2 месяцев
  • Выбор одного бенчмарка даёт ложную картину ускорения конвергенции; комплексный анализ показывает стабильный разрыв
  • Качество LLM сложно измерить однозначно, разные метрики дают противоречивые выводы о темпах развития открытых моделей

Почему это важно

Вопрос о скорости сближения открытых и закрытых моделей определяет стратегию инвестиций и планов развития как в открытом AI, так и в коммерческих сервисах. Мифология об «открытом апокалипсисе» часто опирается на одну метрику; этот анализ показывает, что реальность сложнее и разрыв не так стремительно закрывается, как может показаться на первый взгляд. Это влияет на справедливость оценок потенциала открытых решений.

Кому это важно

Разработчикам и предпринимателям, выбирающим между открытыми и закрытыми моделями для production систем; инвесторам в AI-стартапы; исследователям, отслеживающим тренды конвергенции; аналитикам, оценивающим конкурентоспособность open-source решений; сторонникам открытого AI, ищущим объективные данные вместо нарратива о неминуемом доминировании открытых моделей.

Как это применить

При оценке готовности открытой модели для своего use case смотрите не на один популярный бенчмарк, а на несколько метрик, релевантных именно для вашей задачи (кодирование, математика, языкопонимание и т. д.). Если вам нужна модель для конкретного направления (например, кодирование), проверьте отставание именно на coding-related бенчмарках, там разрыв уже минимален. Для задач, где требуется комплексное понимание, ориентируйтесь на средний разрыв в 5 месяцев как реалистичный горизонт перехвата закрытыми моделями.

Можно ли доверять

Источник опирается на данные Artificial Analysis, которые общедоступны и признаны в индустрии как надёжный набор бенчмарков. Методология (линия тренда, экстраполяция, усреднение по датасетам) математически корректна. Автор сам указывает на ограничения: это анализ одного инструмента оценки, а не окончательный вердикт. Нельзя исключить, что новые бенчмарки или метрики раскроют другие аспекты разрыва.

Риски и подводные камни

Линия тренда, прямая экстраполяция, которая не учитывает скачкообразные прорывы в открытом AI (новые архитектуры, методы обучения). Бенчмарки не отражают все аспекты качества модели (надёжность, alignment, способность к долгоконтекстному мышлению). Разрыв может сокращаться неравномерно: в кодировании открытые модели уже очень близко, а в других направлениях отставание может оказаться стабильным или растущим. Демография бенчмарков тоже может смещаться, новые тесты, поддержанные коммерческими игроками, могут изменить картину.

«Это упражнение указывает на трудность измерения качества LLM. В зависимости от того, как вы его измеряете, вы можете предсказать открытый сингуляритет к Рождеству или сказать, что открытые LLM последовательно отстают на 5 месяцев, и разрыв может даже расти.»

— kkm, блогер DoubleWord