Открытая модель Mistral Leanstral 1.5 решает сложные математические задачи и находит реальные баги в коде

Компания Mistral AI представила Leanstral 1.5, открытую модель с лицензией Apache 2.0, специализированную на формальной верификации на языке программирования Lean 4. Lean 4 разработан для формальной верификации математических доказательств и проверки корректности программного обеспечения, что отличает его от обычных языков программирования.

По результатам тестирования Leanstral 1.5 демонстрирует впечатляющие показатели. На бенчмарке miniF2F, включающем задачи от уровня средней школы до олимпиадных по математике, модель достигла 100% точности. На бенчмарке PutnamBench, содержащем 672 задачи из международного соревнования Putnam, решила 587 задач. На алгебраических бенчмарках FATE-H и FATE-X, тестирующих задачи уровня магистратуры и докторантуры в теории групп и теории колец, показала результаты 87% и 34% соответственно.

Хотя модель обучена в основном для работы с математикой, она также хорошо справляется с верификацией кода. При практическом тестировании модель проанализировала 57 открытых репозиториев и обнаружила пять ранее неизвестных ошибок, включая баг переполнения в популярной Rust-библиотеке varinteger. Это демонстрирует, что модель работает не только на учебных задачах, но и полезна для реальной разработки.

Модель доступна через Hugging Face и бесплатный API. Обучение включало три этапа: mid-training (промежуточное обучение), supervised fine-tuning (обучение с учителем) и reinforcement learning (обучение с подкреплением).

Ключевые факты

Leanstral 1.5 достигла 100% точности на miniF2F, бенчмарке с задачами от средней школы до олимпиадного уровня
На PutnamBench (672 задачи соревнования Putnam) решила 587 задач; на FATE-X (доктарантура), 34%
Модель обнаружила 5 ранее неизвестных багов в 57 открытых репозиториях, включая ошибку переполнения в Rust-библиотеке varinteger
Открытая модель с лицензией Apache 2.0, доступна через Hugging Face и бесплатный API
Обучение включало три этапа: промежуточное обучение, обучение с учителем и обучение с подкреплением

Почему это важно

Формальная верификация, критический инструмент для математиков и разработчиков, позволяющий доказать корректность доказательств и программного кода. Традиционное тестирование находит баги, но не гарантирует их полное отсутствие. Leanstral 1.5, первая высокопроизводительная ИИ-модель, способная практически работать с формальной верификацией. Главное, модель обнаруживает реальные, ранее неизвестные ошибки в существующих проектах, что показывает практическую ценность, а не просто решение учебных задач.

Кому это важно

Математикам, использующим Lean 4 для формальной верификации доказательств; разработчикам, ищущим способы автоматизировать поиск ошибок в критичном коде; исследователям в области формальной верификации и ИИ; организациям, где требуется высокая надёжность кода (финтех, aerospace, системы управления); мейнтейнерам open-source проектов, которые могут использовать Leanstral для поиска потенциальных уязвимостей и ошибок.

Как это применить

Модель доступна через Hugging Face и бесплатный API, что позволяет сразу начать экспериментировать. Разработчики на Lean 4 могут использовать её для анализа существующего кода, поиска доказательств теорем или верификации алгоритмов. Для проектов на других языках интеграция требует большего труда, но модель можно встроить в CI/CD для автоматической проверки критических секций. Основной сценарий, это математическая верификация и работа с Lean 4, хотя потенциал для общей верификации кода уже демонстрируется на практике.

Можно ли доверять

Модель достигла впечатляющих результатов на бенчмарках, но стоит учитывать контекст. 100% на miniF2F, успех, однако это относительно узкие задачи; на более сложных алгебраических тестах (FATE-X) результаты скромнее (34%). Реальное обнаружение багов в 57 репозиториях подтверждает практическую полезность. Mistral, репутационный разработчик в сфере открытого ПО (линейка Mistral 7B и другие модели), что повышает доверие. Однако результаты модели стоит проверять вручную, особенно для критичного кода, полной автоматизации ждать не стоит.

Риски и подводные камни

Модель глубоко специализирована на Lean 4 и математике, универсальность ждать не стоит. На задачах вне этой области предсказуемость падает. Reinforcement learning в процессе обучения может привести к непредсказуемому поведению на edge cases. Бесплатный API может иметь лимиты по использованию или измениться в будущем. Главный риск, полагаться на модель для критичного кода без ручной верификации опасно; нужно рассматривать её как помощника, а не замену code review.

«При тестировании модель проанализировала 57 открытых репозиториев и обнаружила пять ранее неизвестных ошибок, включая баг переполнения в библиотеке Rust varinteger.»

— Mistral AI