Могут ли нейросети рисовать науку? Бенчмарк для оценки генерации научных диаграмм

Текст-в-изображение модели (вроде DALL-E, Midjourney) всё чаще используют для создания научных диаграмм: механизмов реакций, схем экспериментов, концептуальных фреймворков и графических аннотаций статей. Но существующие бенчмарки (GenEval, T2I-CompBench, DPG-Bench) оценивают натуральные фотографии по параметрам вроде композиционной согласованности и фотореалистичности, не то, что нужно для науки.

Авторы статьи представили SciDraw-Bench, первый специализированный бенчмарк с 32 задачами генерации научных диаграмм восьми типов из десяти дисциплин. Каждая задача связывает текстовое описание с машиночитаемой спецификацией требуемых элементов: корректные текстовые метки, верная изображения сущностей и их связей, согласованная структура схемы и соблюдение конвенций дисциплины.

Эвалюация происходит по четырём измерениям: Text Fidelity (корректность распознаваемых текстовых меток), Semantic Correctness (видео-языковая модель проверяет соответствие спецификации), Structural Quality (качество структуры) и Convention Adherence (соблюдение дисциплинарных норм). Авторы провели пилотный тест над всеми восемью типами диаграмм и сравнили специализированную систему SciDraw AI с универсальными моделями. Результат: SciDraw AI значительно превосходит общепурпозные модели по всем измерениям, особенно по семантической корректности и соблюдению конвенций. Текстовая разборчивость остаётся самым сложным параметром для всех систем.

Ключевые факты

Существующие бенчмарки оценивают натуральные изображения, а не научные диаграммы, в науке нужны корректные метки, верные сущности и соблюдение конвенций
SciDraw-Bench содержит 32 структурированные задачи восьми типов диаграмм из десяти дисциплин с машиночитаемыми спецификациями требований
Четырёхмерный протокол оценки: Text Fidelity, Semantic Correctness, Structural Quality, Convention Adherence
Специализированная система SciDraw AI существенно превосходит универсальные текст-в-изображение модели на каждом параметре
Распознавание текстовых меток остаётся критическим слабым местом для всех систем, включая специализированные

Почему это важно

Научные статьи требуют диаграмм с точными подписями, правильной топологией и соблюдением дисциплинарных норм. Универсальные модели предназначены для фотографий и арта, не для воспроизведения научной нотации. До сих пор не было инструмента для измерения качества генерируемых научных визуалей, бенчмарк заполняет эту брешь. Это открывает путь для специализированных моделей, которые смогут помогать учёным и авторам в создании иллюстраций к статьям.

Кому это важно

Исследователям и студентам, создающим научные статьи и презентации. Разработчикам моделей для генерации изображений, ориентированным на науку. Издателям и научным журналам, которым нужны инструменты для проверки качества иллюстраций. Компаниям, разрабатывающим AI-ассистентов для научного письма.

Как это применить

Авторы предоставляют открытый бенчмарк SciDraw-Bench и код для его использования. Разработчики моделей могут применить четырёхмерный протокол оценки к своим системам. При работе с текст-в-изображение моделями для научных целей нужно проверять не только визуальное качество, но и корректность текстовых элементов, семантическое соответствие спецификации и соблюдение конвенций дисциплины.

Можно ли доверять

Авторы, исследователи из области компьютерного зрения и обработки естественного языка; статья опубликована на arxiv в качестве препринта. Методология строго определена: каждая задача имеет машиночитаемую спецификацию, оценка проводится по объективным метрикам (OCR для текста, VLM для семантики). Человеческая валидация оценки всё ещё ведётся (как упоминают авторы), но межэксперт согласованность анализируется. Пилотные результаты показывают разумное дифференцирование между системами.

Риски и подводные камни

Текстовая разборчивость остаётся нерешённой проблемой, даже лучшие системы ошибаются при воспроизведении точных символов в диаграммах. Бенчмарк охватывает 10 дисциплин, но не все области науки могут быть представлены. Специализированная система (SciDraw AI) опережает универсальные модели, но подробности её архитектуры в тексте не раскрываются. Оценка семантической корректности опирается на другую VLM, которая сама может содержать ошибки. Авторы планируют добавить базовый подход на основе кода, но в текущем исследовании он не представлен.

«Существующие бенчмарки оценивают естественные изображения и измеряют композиционность, подсчёт объектов или фотореалистичность. Ни один из них не измеряет то, что делает генерируемую научную диаграмму пригодной к использованию: корректные и разборчивые текстовые метки, верное изображение сущностей и их отношений, согласованную диаграммную структуру и соблюдение дисциплинарных конвенций рисования.»

— Из статьи SciDraw-Bench