Know2Guess: бенчмарк для оценки границ знаний в больших языковых моделях с учётом загрязнения данных

Know2Guess, это многозонный бенчмарк для объективной оценки надёжности больших языковых моделей. Основная задача: разделить три независимых аспекта поведения модели: (1) когда модель способна ответить на основе знаний, (2) когда она должна отказаться отвечать на неизвестное, (3) когда происходит загрязнение данных (утечка информации в обучение). Бенчмарк содержит 1200 примеров по пяти доменам с явными ожиданиями отказа и метаданными о риске загрязнения. Используется двойная обработка: строгий парсер и нормализованный парсер для оценки устойчивости. На тестах моделей FLAN-T5, Qwen2.5-Instruct и Llama-3-Instruct выявлено: общее поведение неответа не гарантирует качественный отказ; сильные инструкционные модели показывают неполный переход от ответов к отказам; Qwen2.5-3B-Instruct лидирует по надёжности, но имеет проблемы с калибровкой и неоправданными отказами на простых вопросах. Бенчмарк стабилен к изменениям промпта и парсера, обеспечивая воспроизводимый протокол для аудита ответственности, отказа и загрязнения как отдельных измерений надёжности моделей.

Ключевые факты

Бенчмарк разделяет три ортогональных аспекта: ответ на известное, отказ на неизвестное и загрязнение данных, они часто смешиваются в эвалюациях
1200 примеров по 5 доменам с явными ожиданиями отказа и метаданными загрязнения; двойной парсинг для проверки устойчивости
Сильные модели (Qwen2.5-3B) показывают избирательный, но неполный переход от ответов к отказам; сохраняются проблемы с калибровкой
Общее поведение неответа (generic refusal) не решает бенчмарк, даже FLAN слаба на продуктивный отказ
Результаты устойчивы к вариантам промпта и парсера, обеспечивая воспроизводимость для аудита надёжности моделей

Почему это важно

Текущие методы оценки больших моделей неправильно смешивают три разных проблемы: способность модели ответить, её способность признать незнание и наличие утечек данных в обучении. Это приводит к неправильным выводам о надёжности. Know2Guess разделяет эти аспекты, позволяя аудировать каждый независимо. Это критично для систем, где неправильный ответ хуже, чем отказ.

Кому это важно

Разработчикам и исследователям, которые: (1) строят критические системы на основе LLM, где надёжность и отказ важны (медицина, право, финансы); (2) оценивают модели и хотят понять реальные границы их знаний; (3) работают над калибровкой моделей и их способностью отказываться от неверных ответов; (4) борются с галлюцинациями и контролируют качество генерации.

Как это применить

Бенчмарк предоставляется в открытом доступе (GitHub). Разработчики могут использовать его как часть конвейра оценки моделей перед deploymentом критических систем. Строгий парсер даёт объективные метрики, нормализованный парсер тестирует устойчивость. Результаты показывают, что нужно работать над: (1) калибровкой (модели должны знать, когда они не знают); (2) различением истинного отказа от поддельного; (3) улучшением инструкций для явного управления ответом/отказом.

Можно ли доверять

Высокая доверительность. Бенчмарк прошёл проверки: двойной парсинг подтверждает стабильность рангирования моделей; результаты остаются консистентны при изменениях промпта и парсера; авторы явно указывают метаданные загрязнения (не скрывают). Ограничение: 1200 примеров, разумный, но небольшой размер; 5 доменов не охватывают всё многообразие. Выводы применимы к близким доменам, но нужна осторожность при экстраполяции.

Риски и подводные камни

Бенчмарк ловит калибровку и отказ на фиксированных примерах, но не гарантирует, что модель будет одинаково надёжна на новых данных вне набора. Результаты скорее всего специфичны для конфигурации (locked answer-or-abstain промпты); другие инструкции могут дать иное поведение. Важно: меньший размер бенчмарка означает, что изменения в обучении или fine-tuning требуют переоценки. Авторы отмечают, что даже лучшие модели остаются плохо калиброванными, это не волшебная таблетка, а инструмент диагностики.