GLM-5.2, как запустить локально через Unsloth

Новая открытая модель GLM-5.2 от Z.ai показывает производительность на уровне закрытых моделей (Claude 4.8 Opus, GPT-5.5, Gemini 3 Pro) благодаря специальной архитектуре: 744B полных параметров с 40B активных за счёт Mixture of Experts, контекстное окно 1M токенов. Unsloth выпустил динамические GGUF-квантизации для локального запуска. Модель поддерживает три режима reasoning (отключённый, High и Max), что помогает контролировать расход токенов на размышление. Динамическая 2-bit квантизация (239GB) помещается на 256GB Mac или 24GB GPU + 256GB RAM, 1-bit версия требует 223GB, а полная 8-bit требует 810GB.

Ключевые факты

GLM-5.2: 744B параметров, 40B активных (MoE), контекст 1M токенов
Производительность на уровне Opus 4.8 и GPT-5.5 по бенчмаркам Artificial Analysis
Динамическая 2-bit квантизация сохраняет 82% точности при 84% меньше памяти
Можно запустить на локальном оборудовании через llama.cpp или Unsloth Studio
Поддерживает управляемый reasoning (High/Max/disabled) для оптимизации токен-расходов

Ред. 744 миллиарда параметров, открытые веса и всего-то 256 гигабайт оперативки, чтобы это "бесплатно" запустить.

Почему это важно

Открытые модели на уровне frontier-систем (Opus, GPT-5.5) до недавно были недоступны. GLM-5.2 впервые предлагает такую производительность с открытым весами, что позволяет разработчикам избежать зависимости от облачных API и запускать самые сильные модели локально. Динамическая квантизация Unsloth позволяет снизить требования к памяти на 84% с потерей только 18% точности.

Ред. Свобода от облака формулируется красиво, пока не дойдёшь до строчки про 239GB на диск и Mac за цену подержанной машины. Зависимость от API меняется на зависимость от своего электричества и терпения.

Кому это важно

Разработчикам, которые хотят использовать frontier-качество reasoning без облачного провайдера. Исследователям, изучающим большие языковые модели. Компаниям с требованиями конфиденциальности, не готовым отправлять данные в облако. Людям с мощным локальным оборудованием (128GB+ RAM или high-end GPU).

Ред. Тем, у кого требования к конфиденциальности оказались дороже, чем 256GB RAM. Список короче, чем кажется на первый взгляд.

Как это применить

Установить llama.cpp с поддержкой CUDA (или Metal для Mac). Загрузить нужную квантизацию GLM-5.2-GGUF (рекомендуется UD-IQ2_M, 239GB) через huggingface_hub или вручную. Запустить через llama-cli с указанием файла модели и параметров (temperature=1.0, top_p=0.95). Для UI можно использовать Unsloth Studio (веб-интерфейс с управлением режимами reasoning).

Ред. Инструкция из четырёх шагов заканчивается там, где начинается реальность: токены в секунду на CPU считаются по пальцам, а High и Max режимы reasoning эти пальцы доедают.

Можно ли доверять

Z.ai, известная китайская компания, GLM-серия выпускается уже несколько лет. Unsloth, авторитетный проект по оптимизации моделей, его квантизации проходят детальные KLD (KL Divergence) тесты. Бенчмарки сравниваются на стандартных наборах (Artificial Analysis, SWE-Bench Pro), результаты воспроизводимы.

Ред. Бенчмаркам верим, цифре "на уровне Opus" верим осторожнее: воспроизводимость есть, а вот сохранится ли это качество после 2-bit квантизации на вашей задаче, проверять придётся самим.

Риски и подводные камни

Требования к памяти высокие даже для квантизованных версий (223GB для 1-bit). Инфренс медленнее, чем облачные API, особенно на CPU. Динамическая квантизация 1-bit вводит ~24% потери в точности; для сложных задач нужна минимум 2-bit. Модель поддерживает английский и китайский; качество на других языках неизвестно. Локальный запуск требует администраторского доступа и знания Linux/Docker.

Ред. Тут честно сказано про 24% потери на 1-bit и неизвестное качество на русском. То есть открытая модель есть, а попробовать её по-человечески всё равно дешевле в облаке.

«GLM-5.2 is Z.ai's new open model, delivering SOTA performance across long-horizon coding, reasoning, and agentic tasks.»

— Unsloth documentation