Qwen 3.6 27B, оптимальный вес для локальной разработки

Qwen 3.6 27B, оптимальный вес для локальной разработки

Блогер из Quesma поделился впечатлениями от локального запуска Qwen 3.6 27B, трёхслойной модели от Alibaba. По его словам, это первая локальная модель, которая действительно имеет смысл как универсальный интеллект, в отличие от разочаровывающих прототипов прошлого.

Модель поставляется в двух вариантах: MoE Qwen 3.6 35B A3B (быстрее на 3x, но медленнее обучается нюансам) и плотная Qwen 3.6 27B (медленнее, но мощнее по качеству выходов). Автор рекомендует версию 27B.

Тестирование показало хорошие результаты на творческих задачах (стихи о квантовой физике с рифмовкой, которые имеют смысл) и практических (за один промпт создала Node.js-пакет с шестиугольным сапёром, что не удалось версии 35B). На бенчмарках Artificial Analysis Qwen 3.6 27B конкурирует с frontier-моделями, превосходя Gemma 4 31B и DeepSeek V4 Flash (DwarfStar4).

Запуск через llama.cpp тривиален: одна команда подтягивает 8-битную квантизацию из Hugging Face (unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0), поддерживающую многотокеновое предсказание (MTP). На MacBook Max M5 с 128 ГБ памяти модель развивает 30 токенов/сек (95% GPU), что в пределах типичного диапазона frontier API. Также протестирована на RTX 5090 с Q6_K квантизацией, 50 токенов/сек при 123k context.

Автор видит эпоху локального запуска моделей как решение для: финансовой экономии (frontier-модели работают с субсидией, но это не вечно); приватности данных; не-зависимости от фронтир-сервисов (Claude Fable 5 was taken down).

Ключевые факты

  • Qwen 3.6 27B показывает практическое качество на кодировании и творчестве, обойдя более быструю версию 35B A3B по выходам
  • Запуск локально через llama.cpp с 8-битной квантизацией требует одной команды и обходит зависимость от Ollama
  • На MacBook Max M5 модель выдаёт 30 токенов/сек; на RTX 5090, 50 токенов/сек при 123k контексте
  • Вес конкурирует с frontier-моделями на бенчмарках (Artificial Analysis), опережает Gemma 4 31B и DeepSeek V4 Flash
  • Локальные модели решают проблему приватности данных, финансовой зависимости и надёжности (frontier-сервисы отключаются или требуют подписки со скрытыми суммами)

Почему это важно

Локальный запуск качественной модели означает независимость от frontier-сервисов, которые работают на субсидии (Claude, GPT, Gemini стоят дорого, но работают в минус). Более того, Claude Fable 5 недавно был отключен. Qwen 3.6 27B демонстрирует, что открытые веса достигли уровня практического качества для кодирования и анализа текстов на обычном железе, ноутбуке или рабочей станции.

Кому это важно

Разработчикам, ценящим приватность или работающим с чувствительными данными (медицина, финансы). Компаниям, которые не хотят платить месячные подписки на frontier-модели или делиться данными с US/China. Любому, кто хочет fine-tune модель под свои задачи, локальные веса позволяют это делать без ограничений.

Как это применить

Установить llama.cpp (open-source инструмент для запуска локальных моделей). Загрузить квантизированную версию unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 из Hugging Face (8-битная квантизация экономит место в 2 раза с минимальной потерей качества). Запустить одной командой: llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080. После этого обращаться через OpenCode или прямой чат на http://127.0.0.1:8080.

Можно ли доверять

Автор, инженер из Quesma, тестировал на своём hardware (MacBook Max M5, RTX 5090). Бенчмарки из Artificial Analysis, независимый источник, регулярно обновляемый. Результаты 30 токенов/сек на MacBook Max M5 реалистичны (используется 95% GPU, что указывает на эффективность). Код примеров (конфиг OpenCode, CLI команды) приведён с полной синтаксисом и готов к копипасту.

Риски и подводные камни

На MacBook Max M5 модель греется (автор отметил «will make your computer hot»). 8-битная квантизация потенциально немного снижает качество в сравнении с full-precision версией, хотя потери минимальны. На потребительских Nvidia RTX придётся использовать более агрессивные квантизации (4-бит), что может дальше снизить качество. Frontier-модели (Claude, GPT-4) по абсолютному качеству всё ещё впереди; Qwen 3.6 27B, компромисс между приватностью и качеством. Для очень больших контекстов (>256k) DeepSeek V4 Flash может быть более стабилен.

«Я думаю, мы входим в эпоху, когда становится экономически целесообразно запускать собственные модели. Это изменение ускорится дальше благодаря состоянию frontier-моделей, Claude Fable 5 был снят. Другие frontier-модели работают с огромной субсидией, где 100 долларов в месяц дают тысячи долларов токенов. Пользуйтесь скидкой, пока она есть!»

— Автор Quesma