LongCat-2.0: китайская MoE-модель с 1,6 трлн параметров и 48 млрд активных

LongCat представила LongCat-2.0, масштабную MoE-модель (Mixture of Experts) с 1,6 трлн общих параметров и 48 млрд активных параметров. По словам авторов, модель была натренирована на специализированной инфраструктуре с десятками тысяч AI-чипов (предположительно Huawei Ascend 910C), без опоры на NVIDIA GPU. Веса обещаны на Hugging Face, но на момент анонса ещё не загружены.

Модель привлекла внимание сообщества тем, что демонстрирует независимость от NVIDIA в предварительной подготовке, авторы работали на собственных вычислительных ресурсах. Однако первые тесты в сообществе показали смешанные результаты: при проверке сложных специализированных задач (например, ядерной физики) модель дала детальный, но неверный ответ, заняв третье место после Gemini Flash и Qwen 3.7 Plus. Обсуждение на HN указало, что архитектура имеет сходство с подходами DeepSeek, но содержит собственные разработки.

Для практического использования модель требует мощной инфраструктуры, минимум 400 ГБ памяти даже с квантизацией, что выводит её из категории "общедоступного железа". Полная техническая документация пока недоступна.

Ключевые факты

MoE-архитектура: 1,6T параметров всего, 48B активных в каждый момент времени
Тренировка на независимой инфраструктуре без NVIDIA GPU, потенциально значительный прорыв в диверсификации вычислений
Веса обещаны на Hugging Face, но ещё не опубликованы; полная техническая документация отсутствует
Первичные тесты показали корректные ответы, но на сложных специализированных задачах уступает Gemini Flash и Qwen 3.7 Plus
Требует 400+ ГБ памяти, специализированное оборудование, недоступна на потребительском уровне

Почему это важно

LongCat-2.0 символизирует усилия китайских разработчиков создавать конкурентные модели вне экосистемы NVIDIA. В условиях санкций на чипы высокого класса это демонстрирует параллельный путь развития AI-инфраструктуры. MoE-архитектура позволяет натренировать большую модель с эффективной активацией параметров, только часть сети работает на каждом примере. Успешная тренировка на собственных чипах (Ascend 910C) может вдохновить другие регионы на локальное развитие AI-оборудования.

Кому это важно

Разработчикам моделей, ищущим альтернативы NVIDIA для масштабного обучения; компаниям, зависящим от импортного оборудования и интересующимся диверсификацией поставок. Исследователям в области эффективных архитектур (MoE, дистилляции, квантизации). Пользователи промышленных приложений, если модель выпустят, можно будет оценить её для узкоспециализированных задач.

Как это применить

На текущий момент применение ограничено: веса не опубликованы. Когда появятся, можно будет проверить на собственных задачах через Hugging Face или локальный DeepSeek-style deployment. Для интеграции потребуется мощный сервер (400+ ГБ память). Может быть полезна для компаний с высокими требованиями к приватности данных, возможность запустить собственную модель локально. Сейчас, мониторить обновления на Hugging Face и в сообществе LongCat.

Можно ли доверять

Размер модели (1,6T параметров) и архитектура правдоподобны для 2025 года, такие масштабы реальны. Однако полная документация отсутствует, веса не загружены, поэтому независимую проверку провести невозможно. Сообщество HN высказало скептицизм к качеству: тесты на специализированных задачах показали неверные ответы. Заявления о независимости от NVIDIA требуют проверки, возможны обсуждение архитектурных деталей после выхода весов. На данный момент, это анонс, требующий верификации.

Риски и подводные камни

Отсутствие весов и документации затрудняет оценку реального качества и воспроизводимость. Если модель будет выпущена, она может оказаться переоценена маркетингом, как часто бывает с крупными объявлениями. Требование 400+ ГБ памяти ограничит практическое применение, большинству организаций будет проще использовать облачные API или квантизованные версии других моделей. Долгая задержка выхода весов может указывать на проблемы с качеством или необходимость доработки. Возможны проблемы совместимости, если модель построена на нестандартных чипах, её развёртывание может быть сложным.