VibeThinker-3B: 3 млрд параметров, которые конкурируют с Opus на задачах reasoning

Исследовательская работа показывает, что reasoning можно эффективно сжать в компактные модели. VibeThinker-3B (всего 3 млрд параметров) достигает 94.3 на AIME26 (улучшается до 97.1 с test-time scaling), 80.2 Pass@1 на LiveCodeBench v6 и 96.1% acceptance на свежих LeetCode контестах. Это соответствует уровню frontier-систем, которые на порядок больше. Достигается через curriculum-based supervised fine-tuning, multi-domain reinforcement learning (GRPO) и offline self-distillation. Авторы вводят Parametric Compression-Coverage Hypothesis: reasoning компрессируется в небольшое ядро, а open-domain знание требует широкого параметрического покрытия. Инструкция controllability (IFEval 93.4) при этом не страдает.

Ключевые факты

VibeThinker-3B: 3 млрд параметров, SOTA reasoning, конкурирует с 100x+ крупными моделями
AIME26: 94.3 баллов (97.1 с test-time scaling), LiveCodeBench: 80.2 Pass@1
Parametric Compression-Coverage Hypothesis: reasoning компрессируется, knowledge требует ширины
Методология: curriculum SFT + GRPO + offline self-distillation из крупных моделей
IFEval 93.4: controllability не теряется при экстремальной оптимизации на reasoning

Ред. 3 миллиарда параметров против сотен миллиардов, но сравнивают строго по олимпиадной математике и LeetCode. На задачах, где ответ можно проверить, а не там, где нужна эрудиция.

Почему это важно

Большие модели (100B+, 744B+) требуют мощного оборудования и дорогих облачных вычислений. Если можно достичь пик-производительности в reasoning на 3B параметрах, это меняет экономику AI: локальный запуск становится реальным, edge-deployment возможным, стоимость снижается радикально. Гипотеза о компрессируемости reasoning, это потенциально новое понимание в конструировании моделей.

Ред. Открытие красивое, но с подвохом в собственной гипотезе авторов: reasoning сжимается, знания нет. То есть мы получили блестящего олимпиадника, который при этом мало что знает о мире.

Кому это важно

Разработчикам, которые хотят встроить reasoning в мобильные приложения или edge-устройства. Компаниям с требованиями низкой латентности и локальной обработки. Исследователям в области эффективных моделей и knowledge distillation. Индустрии, где стоимость инфренса критична.

Ред. Тем, кому нужен узкий специалист по логике на edge-устройстве, а не собеседник на все темы. Это разные продукты, которые удобно путать в пресс-релизе.

Как это применить

Загрузить VibeThinker-3B с HuggingFace (как только станет доступна). Запустить локально на ноутбуке, планшете или edge-устройстве благодаря малому размеру. Использовать для задач: олимпиадная математика, code generation, логические задачи, instruction-following. Сравнить инфренс время с облачными API на свои кейсы, для многих может оказаться VibeThinker достаточным.

Ред. Применять можно, как только выложат веса (формулировка "as soon as available" в мире arXiv растягивается надолго). До тех пор это красивый график, а не инструмент.

Можно ли доверять

Работа опубликована на arXiv (препринт от 15 июня 2026). Авторы обосновывают результаты через стандартные бенчмарки (AIME, LiveCodeBench, LeetCode, IFEval) и comparison с известными моделями. Результаты логичны для компактной модели, оптимизированной на reasoning. Самодистилляция от большой модели (как техника) проверена в литературе.

Ред. Препринт честно опирается на стандартные бенчмарки, и в этом же риск: оптимизация маленькой модели под конкретные тесты и переобучение под них выглядят на графике одинаково.

Риски и подводные камни

Модель оптимизирована на reasoning, поэтому general-knowledge может быть слабее, чем у больших моделей. Это не универсальный помощник, а специализированный инструмент. Результаты на других языках (не английский) неизвестны. Нужна верификация на production-случаях; бенчмарки могут перефитироваться. Доступность весов зависит от того, выпустит ли автор code/weights открыто.

Ред. Авторы сами признают слабость в general-knowledge и неизвестность за пределами английского. Перед тем как нести "уровень Opus" в продакшен, стоит вспомнить, что Opus отвечает не только про AIME.

«VibeThinker-3B achieves frontier-level performance on highly demanding verifiable tasks, effectively placing it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger.»

— Abstract, arXiv:2606.16140