Senior SWE-Bench: открытый бенчмарк для оценки ИИ-агентов как опытных инженеров

Senior SWE-Bench, это открытый бенчмарк от Snorkel для оценки способностей ИИ-агентов решать задачи, как это делают опытные инженеры. В отличие от традиционных бенчмарков, здесь используются реалистичные инструкции на естественном языке, которые короче стандартных на 31% (медиана инструкции Senior SWE-Bench составляет лишь треть от SWE-Bench Pro). Это отражает, как senior-инженеры действительно получают задачи в работе, не через детальные спецификации, а через естественное общение.

Бенчмарк состоит из двух типов задач. Feature-задачи требуют реализации функционала в многосервисной архитектуре (в среднем затрагивают 11 файлов). Bug-задачи имитируют поступление трюковых user-отчётов и требуют runtime-отладки: запуск сервисов, анализ логов, профилирование, воспроизведение проблемы. Все задачи длинного горизонта, для их решения даже лучшие агенты должны выполнить сотни шагов.

Оценка включает не только прохождение тестов, но и проверку качества кода по неявным практикам кодовой базы. Для этого используется валидационный агент, который пишет поведенческие тесты, адаптируясь к решению. Результаты показывают, что лучшая модель (Claude Opus 4.8 с Mini-SWE-Agent) достигает лишь 24% на лидерборде, а frontier-модели в целом не способны корректно завершить более 75% задач. Задачи получены из реальных PR в production-коде в различных репозиториях (от библиотек до многосервисных приложений), авторы, инженеры с сотнями коммитов в своих проектах.

Ключевые факты

Senior SWE-Bench использует реалистичные недоспецифицированные инструкции на 31% короче, чем SWE-Bench Pro, отражая реальное общение с инженерами
Задачи требуют runtime-отладки (запуск сервисов, анализ логов, профилирование) и работают с реальными кодовыми базами из production PR
Оценка включает не только функциональную корректность, но и проверку качества кода по неявным практикам кодовой базы через валидационный агент
Frontier-модели достигают низких результатов: Claude Opus 4.8, 24%, GPT-5.5, 16%, остальные ниже 15% (фактически более 75% задач не решаются корректно)
Задачи многоэтапные, длинного горизонта, требуют сотен шагов для решения, в среднем затрагивают 11 файлов

Почему это важно

Большинство бенчмарков для кода оценивают ИИ по чётким спецификациям и небольшим задачам. Реальные инженеры работают иначе: получают размытые требования, должны разбираться в сложных систем, отлаживать неочевидные проблемы и следить за качеством в контексте кодовой базы. Senior SWE-Bench впервые ставит задачу так, как это происходит на самом деле. Это позволяет более честно оценить, готовы ли ИИ-агенты решать реальные production-задачи, а не только синтетические примеры. Текущие результаты (даже лучшие модели проваливаются на 76% задач) показывают, что разрыв между бенчмарковой оценкой и реальной готовностью всё ещё велик.

Кому это важно

Разработчикам, которые внедряют ИИ-агентов в разработку и хотят понять, какие задачи агенты могут решать надёжно. Исследователям, работающим над улучшением моделей и систем агентов. Командам, которые выбирают между моделями для автоматизации кода, результаты явно показывают, что ни одна текущая модель не готова к production-задачам без контроля. Компаниям вроде Anthropic, OpenAI и других, заинтересованным в честной оценке своих решений.

Как это применить

Используйте Senior SWE-Bench для тестирования собственных агентов, прежде чем применять их к production-коду. Сравнивайте результаты вашей системы с лидербордом, чтобы понимать реальный потенциал. Если нужна автоматизация кода в production, исходите из допущения, что агент решит ~20, 25% сложных задач корректно и требует human review. Используйте методологию валидационного агента (поведенческие тесты, адаптирующиеся к решению) для собственной оценки качества. Для фич-разработки сосредоточьтесь на простых задачах (< 3 файлов), для отладки, на автоматизации первичной диагностики (сбор логов, воспроизведение).

Можно ли доверять

Бенчмарк создан авторитетным источником (Snorkel AI, известны своей работой над data engineering и ML). Задачи сгруппированы из реальных PR в production-коде с авторами, имеющими сотни коммитов в своих проектах, это серьёзный материал, не синтетика. Методология оценки (валидационный агент с поведенческими тестами, проверка качества по кодовым практикам) разумна и воспроизводима. Результаты (Claude Opus 4.8 лучше других, но 24%, это низко) соответствуют независимым наблюдениям о возможностях современных агентов. Прозрачность с данными и исходным кодом повышает доверие.

Риски и подводные камни

Бенчмарк отражает определённое множество проблем из определённых кодовых баз, результаты могут не обобщаться на другие стеки (Python vs C++, монолит vs микросервисы). Выбор Mini-SWE-Agent как фреймворка для оценки может влиять на результаты, агенты с другой архитектурой могут показать иные результаты. Чтобы надёяться на результаты для своего случая, лучше запустить свои задачи через ту же систему оценки. Низкие абсолютные показатели могут создать ложную уверенность, что агенты совсем не готовы, хотя частичная автоматизация (даже на 20%) может быть полезна в work-in-progress сценариях.

«Senior инженеры создают функционал без переспецифицированных требований. Senior инженеры решают баги, требующие runtime-отладки из поведенческих отчётов. Senior инженеры отправляют правильный код без подсказок.»

— Senior SWE-Bench (философия оценки)