Исследование способности LLM решать задачи по статике

В исследовании систематически проанализирована производительность LLM на конкретном типе инженерных задач, вопросах по статике. Авторы использовали process distillation: из ChatGPT было экстрагировано 25 текстовых задач по статике, затем созданы два дополнительных датасета путём добавления диаграмм и изменения числовых значений. Результаты показали контрастный паттерн: на чистых текстовых задачах LLM показывают хороший результат, но при введении визуальных элементов точность падает. Дополнительный анализ выявил, что снижение производительности вызвано не дефицитом способностей к распознаванию изображений, а сложностями в многошаговом рассуждении и консистентном применении информации, извлечённой из диаграмм, на последовательных этапах решения. Исследование значимо, поскольку заполняет пробел в изучении LLM-способностей на предметно-специфичных задачах инженерного образования и показывает конкретный механизм деградации производительности.

Ключевые факты

Методология model distillation: экстрагировано 25 задач по статике из ChatGPT, созданы три датасета (текст, текст+диаграммы, модифицированные значения)
LLM демонстрируют приемлемую точность на чистых текстовых задачах по статике, но теряют 15, 25% точности при добавлении диаграмм
Причина падения производительности, не визуальное распознавание, а трудности в многошаговом рассуждении и связывании информации между этапами решения
Инженерное образование (особенно механика) требует систематического анализа LLM-способностей на специфичных проблемных типах, а не на открытых датасетах
Результаты имеют практическое значение для внедрения LLM в инженерную подготовку и выявления узких мест в рассуждении

Почему это важно

Языковые модели активно внедряются в образование, но их способность решать сложные инженерные задачи изучена недостаточно. Статика (раздел механики) требует не только знания формул, но и пространственного мышления, применения диаграмм и многошагового логического вывода. Исследование выявляет конкретные ограничения LLM, которые критичны для безопасного использования этих инструментов в инженерной подготовке.

Кому это важно

Преподавателям инженерных дисциплин, разработчикам образовательных LLM-приложений, исследователям в области AI и education, а также студентам и профессионалам, полагающимся на LLM как вспомогательный инструмент при решении задач по механике.

Как это применить

При использовании LLM для решения инженерных задач следует ожидать снижение надёжности при наличии диаграмм; рекомендуется проверять многошаговые решения вручную. Разработчикам LLM-инструментов для образования стоит фокусироваться на улучшении многошагового рассуждения и явном связывании визуальной и текстовой информации. Преподавателям полезно использовать такие результаты при объяснении студентам ограничений AI-ассистентов.

Можно ли доверять

Исследование методологически обоснованно: авторы использовали model distillation вместо открытых датасетов, что исключает влияние данных обучения на результаты. Проверка гипотезы (что проблема в визуальном распознавании, а не в рассуждении) выполнена через контролируемое манипулирование входными данными. Результаты соответствуют ожиданиям и логичны, но выборка (25 задач) невелика, результаты требуют масштабирования.

Риски и подводные камни

Относительно небольшой датасет (25 исходных задач) может не отражать полноту проблемного пространства статики. Исследование сосредоточено на ChatGPT и не покрывает другие современные модели (GPT-4o, Claude, Llama и т.д.), поэтому обобщаемость результатов ограничена. Кроме того, трудно разделить вклад визуального распознавания от многошагового рассуждения на практике, улучшение одного может скрыть проблемы другого.