NatureBench: могут ли ИИ-агенты повторить результаты лучших статей Nature?

Авторы представили NatureBench, кросс-дисциплинарный бенчмарк из 90 задач, извлечённых из рецензируемых публикаций Nature-семейства журналов. Цель: понять, способны ли ИИ-агенты выйти за пределы воспроизведения и двигаться к реальным открытиям на настоящих научных проблемах.

NatureBench построен на NatureGym, автоматизированном конвейере, который конструирует стандартизированное, контейнеризованное окружение для каждой задачи из исходной статьи. Это решает проблему фрагментации окружений, которая раньше снижала достоверность бенчмарков для агентов на исследовательских задачах.

Тестирование охватило десять фронтир-конфигураций агентов при строгом протоколе без доступа к веб-поиску. Результат: самая сильная модель превысила опубликованный state-of-the-art только в 17.8% задач (по критерию g>0.1). Анализ успешных методов показал, что агенты добиваются результатов в основном через методологическую трансформацию, переведение научных задач в знакомые им задачи supervised prediction, а не через подлинные научные изобретения. Доминирующие причины провалов: неверный выбор метода и недостаточный вычислительный бюджет, не непонимание задачи.

Авторы выпустили сам бенчмарк, конвейер NatureGym и публичный leaderboard с воспроизведением на стороне maintainer.

Ключевые факты

NatureBench: 90 задач из Nature-публикаций для оценки способности агентов к научным открытиям, а не только воспроизведению
NatureGym: автоматизированный конвейер для создания контейнеризованных окружений каждой задачи, решает проблему фрагментации
Результат: 10 фронтир-агентов превышают SOTA только в 17.8% задач (критерий g>0.1)
Успехи агентов: переформулировка научных задач в привычные supervised-задачи, а не подлинные открытия
Основные причины падений: неверный выбор метода (не недопонимание), недостаток вычислений, не web-поиск важен

Почему это важно

Это первое серьёзное измерение того, насколько ИИ-агенты готовы к реальной научной работе. До сих пор бенчмарки на агентах были либо синтетическими, либо страдали от фрагментации окружений. Результат 17.8% показывает: агенты пока что далеки от автономных научных открытий, но уже способны на решение структурированных задач.

Кому это важно

Исследователям в области ИИ и автономных агентов. Компаниям, инвестирующим в автоматизацию научных работ. Университетам и лабораториям, рассматривающим ИИ-агентов как ассистентов. Funding-агентствам и грантовым организациям, оценивающим потенциал.

Как это применить

NatureBench можно использовать как ориентир при разработке агентов для научных задач. Знание о том, что агенты чаще всего падают на выборе метода, подсказывает, что стоит инвестировать в лучшую рекомендацию методов и explainability. Результаты помогут калибровать ожидания от агентов в R&D.

Можно ли доверять

Авторы, Frontis AI (серьёзная группа). NatureGym решает реальную проблему воспроизводимости. Строгий протокол (без веб-поиска) обеспечивает честную оценку. Публичный leaderboard позволяет проверить результаты.

Риски и подводные камни

17.8%, это довольно низко, но нельзя забывать, что Nature-задачи чрезвычайно сложны. Возможно, если разрешить веб-поиск, результаты будут выше. Бенчмарк сосредоточен на задачах из опубликованных работ, то есть на уже решённых проблемах, открытие нового может требовать других навыков. Интерпретация g>0.1 может быть дискутируемой.

«the strongest model surpasses SOTA on only 17.8% of tasks under the g>0.1 criterion»

— NatureBench paper