VibeThinker-3B: 3 млрд параметров, которые конкурируют с Opus на задачах reasoning

Исследовательская работа показывает, что reasoning можно эффективно сжать в компактные модели. VibeThinker-3B (всего 3 млрд параметров) достигает 94.3 на AIME26 (улучшается до 97.1 с test-time scaling), 80.2 Pass@1 на LiveCodeBench v6 и 96.1% acceptance на свежих LeetCode контестах. Это соответствует уровню frontier-систем, которые на порядок больше. Достигается через curriculum-based supervised fine-tuning, multi-domain reinforcement learning (GRPO) и offline self-distillation. Авторы вводят Parametric Compression-Coverage Hypothesis: reasoning компрессируется в небольшое ядро, а open-domain знание требует широкого параметрического покрытия. Инструкция controllability (IFEval 93.4) при этом не страдает.
Ключевые факты
- VibeThinker-3B: 3 млрд параметров, SOTA reasoning, конкурирует с 100x+ крупными моделями
- AIME26: 94.3 баллов (97.1 с test-time scaling), LiveCodeBench: 80.2 Pass@1
- Parametric Compression-Coverage Hypothesis: reasoning компрессируется, knowledge требует ширины
- Методология: curriculum SFT + GRPO + offline self-distillation из крупных моделей
- IFEval 93.4: controllability не теряется при экстремальной оптимизации на reasoning
Ред. 3 миллиарда параметров против сотен миллиардов, но сравнивают строго по олимпиадной математике и LeetCode. На задачах, где ответ можно проверить, а не там, где нужна эрудиция.
Почему это важно
Большие модели (100B+, 744B+) требуют мощного оборудования и дорогих облачных вычислений. Если можно достичь пик-производительности в reasoning на 3B параметрах, это меняет экономику AI: локальный запуск становится реальным, edge-deployment возможным, стоимость снижается радикально. Гипотеза о компрессируемости reasoning, это потенциально новое понимание в конструировании моделей.
Ред. Открытие красивое, но с подвохом в собственной гипотезе авторов: reasoning сжимается, знания нет. То есть мы получили блестящего олимпиадника, который при этом мало что знает о мире.
Кому это важно
Разработчикам, которые хотят встроить reasoning в мобильные приложения или edge-устройства. Компаниям с требованиями низкой латентности и локальной обработки. Исследователям в области эффективных моделей и knowledge distillation. Индустрии, где стоимость инфренса критична.
Ред. Тем, кому нужен узкий специалист по логике на edge-устройстве, а не собеседник на все темы. Это разные продукты, которые удобно путать в пресс-релизе.
Как это применить
Загрузить VibeThinker-3B с HuggingFace (как только станет доступна). Запустить локально на ноутбуке, планшете или edge-устройстве благодаря малому размеру. Использовать для задач: олимпиадная математика, code generation, логические задачи, instruction-following. Сравнить инфренс время с облачными API на свои кейсы, для многих может оказаться VibeThinker достаточным.
Ред. Применять можно, как только выложат веса (формулировка "as soon as available" в мире arXiv растягивается надолго). До тех пор это красивый график, а не инструмент.
Можно ли доверять
Работа опубликована на arXiv (препринт от 15 июня 2026). Авторы обосновывают результаты через стандартные бенчмарки (AIME, LiveCodeBench, LeetCode, IFEval) и comparison с известными моделями. Результаты логичны для компактной модели, оптимизированной на reasoning. Самодистилляция от большой модели (как техника) проверена в литературе.
Ред. Препринт честно опирается на стандартные бенчмарки, и в этом же риск: оптимизация маленькой модели под конкретные тесты и переобучение под них выглядят на графике одинаково.
Риски и подводные камни
Модель оптимизирована на reasoning, поэтому general-knowledge может быть слабее, чем у больших моделей. Это не универсальный помощник, а специализированный инструмент. Результаты на других языках (не английский) неизвестны. Нужна верификация на production-случаях; бенчмарки могут перефитироваться. Доступность весов зависит от того, выпустит ли автор code/weights открыто.
Ред. Авторы сами признают слабость в general-knowledge и неизвестность за пределами английского. Перед тем как нести "уровень Opus" в продакшен, стоит вспомнить, что Opus отвечает не только про AIME.
«VibeThinker-3B achieves frontier-level performance on highly demanding verifiable tasks, effectively placing it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger.»
— Abstract, arXiv:2606.16140