Moonshot AI выпустила Kimi K2.7-Code с экономным расходом токенов

Kimi K2.7-Code это Mixture-of-Experts с 1 триллионом общих параметров, из которых на токен активируется лишь 32 миллиарда. Архитектура включает 61 слой (один плотный), 384 эксперта с выбором 8 на токен, контекстное окно 256K, внимание MLA и активацию SwiGLU. Модель ориентирована на сквозное выполнение задач в сложных инженерных сценариях и заметно экономнее по токенам: расход thinking-токенов сокращён примерно на 30% относительно K2.6.
На бенчмарках виден рост: на Kimi Code Bench v2 модель показала 62.0 против 50.9 у K2.6, а на агентном Kimi Claw 24/7 Bench 46.9 против 42.9. При этом по большинству тестов она пока уступает GPT-5.5 и Claude Opus 4.8. Из специфики: визуальный энкодер MoonViT на 400M параметров, словарь на 160K токенов, нативная INT4-квантизация. Лицензия Modified MIT, доступ через API Moonshot с OpenAI- и Anthropic-совместимыми эндпоинтами, рекомендованные движки vLLM и SGLang.
Ключевые факты
- MoE на 1 трлн параметров, 32 млрд активных на токен, контекст 256K
- Расход thinking-токенов снижен примерно на 30% против K2.6
- Kimi Code Bench v2: 62.0 против 50.9 у K2.6; агентный бенч 46.9 против 42.9
- По большинству тестов уступает GPT-5.5 и Claude Opus 4.8
- Лицензия Modified MIT, нативный INT4, движки vLLM и SGLang
Ред. Триллион параметров, два бенчмарка с зелёными стрелками и одна строчка мелким шрифтом про то, что всем проигрывает. Угадайте, какую цитируют в пресс-релизе.
Почему это важно
Открытая модель на 1 трлн параметров, которая примерно на 30% экономнее по thinking-токенам предшественницы, снижает стоимость агентного кодинга и даёт альтернативу закрытым GPT и Claude. Для тех, кто считает токены на длинных задачах, экономия прямо бьёт по счёту.
Ред. Ещё одна модель на триллион параметров, которая дешевле думает. К декабрю их будет двенадцать, и у каждой график, где она чуть выше конкурента.
Что нового (против K2.6)
Главное отличие от Kimi K2.6 это экономия: примерно на 30% меньше thinking-токенов при росте качества (Kimi Code Bench v2: 62.0 против 50.9). Плюс нативная INT4-квантизация и мультимодальность через визуальный энкодер MoonViT.
Ред. Минус 30% токенов на размышления. Примерно столько же экономит редакция, не дочитывая пресс-релизы о новых моделях.
Кому это важно
Командам и разработчикам, которым нужен self-hosted кодинг-ассистент без вендор-лока; тем, кто упирается в стоимость токенов закрытых моделей; исследователям, которым важны открытые веса. Менее интересно тем, кому хватает Claude Code или GPT и не нужен self-host.
Ред. Энтузиастам self-host, у которых дома стоит кластер, и тем, кто гордо называет это «просто рабочей станцией».
Как это применить
Веса под Modified MIT, запуск через vLLM или SGLang, доступ к API Moonshot с OpenAI- и Anthropic-совместимыми эндпоинтами, контекст 256K. Можно подключить как бэкенд к существующим агентным инструментам.
Ред. vLLM, SGLang, 256K контекста и всего триллион параметров. Запускается на чём угодно, если под «чем угодно» понимать дата-центр.
Чего это стоит
Веса открыты, но это MoE на 1 трлн параметров: для self-host нужно серьёзное железо. При этом 32 млрд активных параметров на токен и нативный INT4 заметно снижают требования к инференсу. Лицензия Modified MIT, с оговорками, а не чистый MIT.
Ред. Веса бесплатны. Видеопамять, электричество и лицензия «Modified MIT со звёздочкой» уже нет.
Можно ли доверять
Цифры приведены на публичных бенчмарках, а открытые веса позволяют независимую проверку. Важная оговорка: по большинству тестов модель пока уступает GPT-5.5 и Claude Opus 4.8, так что «лучшая экономия» не равно «лучшее качество». Часть метрик от самого вендора.
Ред. Веса открыты, проверить можно. Но «лучшая экономия токенов» в таблице, где ты уступаешь всем по качеству, это победа в номинации «самый бюджетный проигрыш».