Will It Mythos? Бенчмарк безопасности моделей на поиск уязвимостей

Публичный бенчмарк "Will It Mythos?" проверяет способность различных LLM находить реальные уязвимости в исходном коде. В корпусе 9 багов, которые были найдены самой Mythos; каждый баг верифицирован как реальный через Opus 4.7 и доступен как в исходном коде, так и после исправления. Модели получают ссылку на файл и доступ к полному репозиторию, но без подсказок. Результаты: Opus 4.8 и GPT 5.5, лидеры (4/9 и 2/4 соответственно), но китайские MiMo и DeepSeek достигают сопоставимой точности при цене на порядок ниже. Qwen 3.6 27B удивил своим мастерством (small open model, самостоятельно хостится). Gemini 3.5 Flash превзошёл Gemini 3.1 Pro. Sonnet и Haiku показали слабо; Mistral Medium и Laguna провалились.

Ключевые факты

Бенчмарк из 9 реальных уязвимостей, найденных Mythos, верифицирован Opus
Лидеры: Opus 4.8 (44% точность), MiMo и DeepSeek (44% при цене на порядок ниже)
Qwen 3.6 27B (open) конкурирует с коммерческими моделями несмотря на размер
Gemini 3.5 Flash обошёл Gemini 3.1 Pro, но стоит почти как крупные модели
Все модели показали хуже, чем ожидал автор; многофайловые баги особенно сложны

Ред. 9 багов, мало повторов, и на этом основании целый рейтинг моделей. Выборка, на которой выводы делать рано, но заголовок уже готов.

Почему это важно

Mythos, это закрытая система Anthropic для автоматического поиска уязвимостей в коде, доступная только через API с ограничениями. Компания обосновывает это тем, что модель слишком мощная. Публичный бенчмарк позволяет объективно оценить: действительно ли Mythos уникально хороша, или это маркетинг? Результат показывает: да, Mythos хороша, но и другие модели на рынке близки к её уровню, при этом значительно дешевле.

Ред. Anthropic закрыла Mythos, потому что она "слишком мощная", а независимая проверка нашла модели вдвое дешевле с тем же результатом. Аргумент про опасность звучит убедительнее, когда конкурентов не пускают мерить.

Кому это важно

Security-аудиторам и компаниям, которые выбирают инструменты для автоматического поиска уязвимостей. Инженерам, которые должны принять решение между облачным API (Mythos) и локальным запуском (Qwen, MiMo). Исследователям в области AI security. Разработчикам LLM, интересующимся своим положением в бенчмарках безопасности.

Ред. Тем, кто выбирает между "максимальной уверенностью с бюджетом" и "почти тем же самым за десятую часть цены". Для большинства security-команд второй вариант перестаёт быть стыдным.

Как это применить

Для поиска уязвимостей в своём коде: если бюджет позволяет, использовать Opus (самый точный). Если нужна цена, выбрать MiMo или DeepSeek (дешевле, почти столько же находят). Для локального запуска без облака, Qwen 3.6 27B (требует 128GB RAM и медлителен, но работает). Для быстрого скрининга, Gemini 3.5 Flash (обходит 3.1 Pro). Mythos имеет смысл только если нужна максимальная уверенность и есть бюджет.

Ред. Совет здравый, но с оговоркой: дешёвый DeepSeek находит столько же ровно до того момента, как сервис приляжет в неподходящую минуту аудита.

Можно ли доверять

Автор провёл работу честно: использовал одинаковый тестовый harness для всех моделей, воспроизводимый бенчмарк с реальными багами из публичных источников, верификацию через Opus. Ограничения честно приведены (мало данных, мало повторов, только англоязычный код, агенты не помогали). Результаты логичны и соответствуют интуиции про размер/цену моделей.

Ред. Автор честен до конца, включая признание, что данных мало. Это и есть главный результат: не "китайцы лучше", а "никто пока не измерил толком".

Риски и подводные камни

Бенчмарк мал: только 9 уязвимостей, мало повторов по модели. Многофайловые баги особенно сложны, модели не всегда понимают контекст. Некоторые модели (Qwen) медленны и требуют дорогого оборудования. Gemini отказывается работать с явными просьбами найти уязвимости (guardrails). DeepSeek быстр, но дешёвый сервис может быть менее надёжен. Результаты специфичны для этого набора багов, другие уязвимости дадут другие оценки.

Ред. Лучшая деталь спрятана в конце: Gemini отказывается искать уязвимости, если попросить прямо. Идеальный security-инструмент, который боится слова "уязвимость".

«The cheap Chinese models kick ass. MiMo and DeepSeek are directly competitive with Opus 4.8 and GPT 5.5 at roughly an order of magnitude lower price.»

— автор бенчмарка