GLM-5.2 против Opus: тест на 3D-игре показал выбор между ценой и качеством

GLM-5.2 против Opus: тест на 3D-игре показал выбор между ценой и качеством

Сравнение двух моделей на одной задаче: попросили каждую модель написать с нуля 3D-платформер на чистом WebGL без игровых движков. Opus справился за 34 минуты, GLM-5.2 за 71 минуту; по деньгам Opus обошёлся в четыре раза дороже. Обе модели построили рабочую игру, но Opus доставил чище: правильная смерть от шипов, работающее условие победы, текстуры на персонаже. GLM-5.2 оставил плоский персонаж без текстур, шипы не срабатывают, нет финиша. Ключевое различие: Opus мультимодален (увидел скриншот, заметил ошибки), GLM-5.2 только текст (проверял через пиксели, не увидел баги). Бенчмарки подтверждают: на кодировании и многошаговых задачах Opus впереди, но GLM-5.2 ведёт открытые веса (MIT лицензия) и доступен везде по цене один к пяти.

Ключевые факты

  • GLM-5.2 стоит пятую часть цены Opus за выходные токены, но работает в два раза медленнее
  • На тесте с 3D-игрой Opus выдал рабочий результат, GLM-5.2, функциональный, но с заметными графическими и логическими ошибками
  • Отсутствие мультимодальности (не видит скриншоты) помешало GLM-5.2 поймать свои ошибки при самопроверке
  • GLM-5.2 с открытыми весами (MIT) можно запустить локально или вызывать по API; Opus, облачный сервис
  • На бенчмарках GLM-5.2 лучший среди открытых моделей, но Opus впереди на кодировании и агентских задачах

Ред. Одна задача, одна попытка, один платформер. Это не бенчмарк, это анекдот с цифрами; на выборке из единицы любой вывод держится на честном слове автора.

Почему это важно

Сравнение показывает реальное положение вещей: открытые модели хорошеют, но закрытые остаются впереди на качестве. GLM-5.2, первая открытая модель, которую имеет смысл бросить в бой рядом с Opus. Вопрос больше не в том, может ли открытая модель что-то, а в том, какую цену вы готовы платить за скорость и полировку.

Ред. Формулировка сместилась с «может ли открытая модель» на «сколько вы готовы доплатить за полировку», и это честнее. Только полировка тут означает работающий финиш и не убивающие игрока шипы, то есть не косметику, а собственно рабочую игру.

Кому это важно

Разработчикам, которые думают о миграции с Opus на более дешёвый вариант и готовы жертвовать скоростью. Компаниям, которым нужна мультимодальность (Opus), для них нет альтернативы. Тем, кого волнует контроль: если модель работает на ваших серверах, никто не может её снять (Fable был изъят внезапно).

Ред. Аргумент про контроль («модель на ваших серверах никто не снимет») звучит весомо ровно до счёта за GPU. Свобода весов настоящая, но платят за неё не лицензией, а железом, и эту строчку в смету обычно забывают вписать.

Как это применить

Если бюджет критичен и задача только текстовая, с долгим контекстом и не требует мультимедии, GLM-5.2 по API через OpenRouter дешевле. Хотите запустить локально, веса на Hugging Face, берёте vLLM или SGLang. Для работы со скриншотами, диаграммами, любых визуальных потоков, остаётесь на Opus. Для гибридных сценариев: GLM-5.2 для чернового кода и мышления, Opus для полировки и проверки.

Ред. Схема «GLM для черновика, Opus для проверки» выглядит экономно на бумаге. На практике это две интеграции, два биллинга и лишний шов между моделями; считать экономию стоит после того, как этот шов кто-то начнёт сопровождать.

Можно ли доверять

Тест честный: одинаковый промпт, одна попытка, одинаковые активы, сам результат можно видеть в браузере (ссылки на обе игры в статье). Бенчмарки от Z.ai (её модель) и независимая проверка от ArtificialAnalysis совпадают. Авторы не скрывают недостатки, GLM-5.2 проиграла в темпе и чистоте. Напоминают о цене Opus: это ведомо и уравнивает поле. Нарратив живой, местами с иронией, но данные прямые.

Ред. Тест и правда аккуратный, но половина бенчмарков от Z.ai, то есть от автора модели. Совпадение с ArtificialAnalysis успокаивает; «авторы не скрывают недостатки» успокаивать не должно, ведь проиграла в этом забеге не их модель.

Риски и подводные камни

GLM-5.2 не видит изображения, для любого потока с визуалами (веб-интерфейсы, скриншоты, диаграммы) нужна замена. На сложных многошаговых агентских задачах Opus стабильнее. Цена GLM-5.2 дешёвая при вызове по API, но если запускаете локально, нужны мощные GPU (модель большая). Open-weights звучит как свобода, но на практике M1/M2 ноутбук не потянет. Бенчмарк, одна задача; продуктивное применение может дать другую картину.

Ред. Главное ограничение спрятано в одной строке: GLM не видит картинки. Для новостей про 3D-игру это решает исход, а половина реальной разработки сегодня это и есть визуальные потоки, скриншоты и диаграммы; «дешевле в пять раз» на них просто не считается.

«Because it could see the frame, Opus noticed the debug readouts it had left on screen and cleared them before finishing.»

— авторы статьи о том, как мультимодальность помогла Opus заметить и исправить свои ошибки