AgenticDataBench: новый бенчмарк для оценки ИИ-агентов анализа данных

Автоматизация анализа данных, ключевой вызов для масштабирования аналитических приложений. ИИ-агенты на основе больших языковых моделей (LLM) становятся перспективным решением для автоматизации работ data-scientist'ов. Но в сфере не хватало надёжных бенчмарков для проверки этих агентов.

Новая работа представляет AgenticDataBench, комплексный набор для оценки ИИ-агентов с точным измерением их производительности. Бенчмарк собран из реальных данных и задач из 15 вертикальных рынков, включая 5 бизнес-примеров от ведущей fintech-компании. Авторы использовали подход, основанный на «навыках», повторяющихся паттернах работы с данными, которые они извлекли из решений на Stack Overflow через кластеризацию. Для доменов без реальных данных они разработали методику автоматического генерирования задач через LLM, опираясь на эти навыки. При отборе реальных задач авторы гарантировали разнообразие комбинаций навыков, чтобы охватить широкий спектр практических сценариев. Авторы оценили современные data-агенты на своём бенчмарке и получили детальные результаты на уровне отдельных навыков, что позволяет точнее видеть сильные и слабые стороны каждого агента.

Ключевые факты

AgenticDataBench включает более 500 задач из 15 отраслей, в том числе реальные примеры от финтех-компании, с детальными разметками
Авторы используют подход на основе «data science skills», повторяющихся паттернов работы с данными, извлечённых из Stack Overflow
Для доменов без достаточного реального материала разработана методика автоматического генерирования реалистичных задач через LLM
Отбор реальных задач максимизирует разнообразие комбинаций навыков, обеспечивая практическое покрытие сценариев
Проведена оценка современных data-агентов с детальным анализом их производительности на уровне отдельных навыков

Почему это важно

Data science требует значительных ручных усилий. Автоматизация через ИИ-агенты на основе LLM обещает снизить затраты и включить data-driven приложения в масштабе. Однако до этого не было надёжного способа оценить, насколько хорошо такие агенты работают на различных задачах с нужной детализацией.

Кому это важно

Исследователям, работающим над LLM-агентами и автоматизацией анализа данных. Компаниям, которые хотят применить ИИ-агентов в своих data-pipeline'ах. Разработчикам инструментов для аналитики, заинтересованным в оценке и улучшении качества автоматизации.

Как это применить

Пользователи могут использовать AgenticDataBench для тестирования собственных data-агентов, сравнения их производительности на разных типах задач и доменах, выявления слабых сторон через анализ на уровне навыков. Открытая тестовая среда позволяет интегрировать новые агенты и отслеживать прогресс.

Можно ли доверять

Работа от авторитетных исследователей с использованием реальных данных от ведущей финтех-компании и задач со Stack Overflow. Методика генерирования синтетических задач через LLM обоснована и проверена на практических сценариях. Оценка современных агентов обеспечивает практическую валидацию бенчмарка.

Риски и подводные камни

Автоматическое генерирование задач через LLM может привнести систематические ошибки или нереалистичные примеры. Качество бенчмарка зависит от представительности выбранных навыков и доменов, редкие или нишевые типы задач могут быть недопредставлены. Результаты на бенчмарке могут не полностью переносится на реальные production-сценарии с уникальными данными и требованиями.

«Недостаток комплексных бенчмарков для строгой оценки этих агентов в разнообразных сценариях с детальной грануляцией был существенным пробелом в сфере.»

— AgenticDataBench: A Comprehensive Benchmark for Data Agents