Moonshot AI выпустила Kimi K2.7-Code с экономным расходом токенов

Kimi K2.7-Code это Mixture-of-Experts с 1 триллионом общих параметров, из которых на токен активируется лишь 32 миллиарда. Архитектура включает 61 слой (один плотный), 384 эксперта с выбором 8 на токен, контекстное окно 256K, внимание MLA и активацию SwiGLU. Модель ориентирована на сквозное выполнение задач в сложных инженерных сценариях и заметно экономнее по токенам: расход thinking-токенов сокращён примерно на 30% относительно K2.6.

На бенчмарках виден рост: на Kimi Code Bench v2 модель показала 62.0 против 50.9 у K2.6, а на агентном Kimi Claw 24/7 Bench 46.9 против 42.9. При этом по большинству тестов она пока уступает GPT-5.5 и Claude Opus 4.8. Из специфики: визуальный энкодер MoonViT на 400M параметров, словарь на 160K токенов, нативная INT4-квантизация. Лицензия Modified MIT, доступ через API Moonshot с OpenAI- и Anthropic-совместимыми эндпоинтами, рекомендованные движки vLLM и SGLang.

Ключевые факты

MoE на 1 трлн параметров, 32 млрд активных на токен, контекст 256K
Расход thinking-токенов снижен примерно на 30% против K2.6
Kimi Code Bench v2: 62.0 против 50.9 у K2.6; агентный бенч 46.9 против 42.9
По большинству тестов уступает GPT-5.5 и Claude Opus 4.8
Лицензия Modified MIT, нативный INT4, движки vLLM и SGLang

Ред. Триллион параметров, два бенчмарка с зелёными стрелками и одна строчка мелким шрифтом про то, что всем проигрывает. Угадайте, какую цитируют в пресс-релизе.

Почему это важно

Открытая модель на 1 трлн параметров, которая примерно на 30% экономнее по thinking-токенам предшественницы, снижает стоимость агентного кодинга и даёт альтернативу закрытым GPT и Claude. Для тех, кто считает токены на длинных задачах, экономия прямо бьёт по счёту.

Ред. Ещё одна модель на триллион параметров, которая дешевле думает. К декабрю их будет двенадцать, и у каждой график, где она чуть выше конкурента.

Что нового (против K2.6)

Главное отличие от Kimi K2.6 это экономия: примерно на 30% меньше thinking-токенов при росте качества (Kimi Code Bench v2: 62.0 против 50.9). Плюс нативная INT4-квантизация и мультимодальность через визуальный энкодер MoonViT.

Ред. Минус 30% токенов на размышления. Примерно столько же экономит редакция, не дочитывая пресс-релизы о новых моделях.

Кому это важно

Командам и разработчикам, которым нужен self-hosted кодинг-ассистент без вендор-лока; тем, кто упирается в стоимость токенов закрытых моделей; исследователям, которым важны открытые веса. Менее интересно тем, кому хватает Claude Code или GPT и не нужен self-host.

Ред. Энтузиастам self-host, у которых дома стоит кластер, и тем, кто гордо называет это «просто рабочей станцией».

Как это применить

Веса под Modified MIT, запуск через vLLM или SGLang, доступ к API Moonshot с OpenAI- и Anthropic-совместимыми эндпоинтами, контекст 256K. Можно подключить как бэкенд к существующим агентным инструментам.

Ред. vLLM, SGLang, 256K контекста и всего триллион параметров. Запускается на чём угодно, если под «чем угодно» понимать дата-центр.

Чего это стоит

Веса открыты, но это MoE на 1 трлн параметров: для self-host нужно серьёзное железо. При этом 32 млрд активных параметров на токен и нативный INT4 заметно снижают требования к инференсу. Лицензия Modified MIT, с оговорками, а не чистый MIT.

Ред. Веса бесплатны. Видеопамять, электричество и лицензия «Modified MIT со звёздочкой» уже нет.

Можно ли доверять

Цифры приведены на публичных бенчмарках, а открытые веса позволяют независимую проверку. Важная оговорка: по большинству тестов модель пока уступает GPT-5.5 и Claude Opus 4.8, так что «лучшая экономия» не равно «лучшее качество». Часть метрик от самого вендора.

Ред. Веса открыты, проверить можно. Но «лучшая экономия токенов» в таблице, где ты уступаешь всем по качеству, это победа в номинации «самый бюджетный проигрыш».