Hugging Face встроила результаты Every Eval Ever в карточки моделей

Every Eval Ever (EEE), это проект EvalEval Coalition, запущенный в февраля 2026, который стандартизирует отчётность о результатах оценки ИИ-моделей. Проблема: оценочные результаты разбросаны по статьям, лидербордам, блогам и логам, каждый в своём формате. Одна модель (например LLaMA 65B) может получить разные баллы на одном бенчмарке (MMLU: 63.7 или 48.8) в зависимости от того, кто и как её оценил.

EEE предложил единую JSON-схему, которая фиксирует: кто оценивал, какую модель, как к ней обращались, параметры генерации, что означает метрика и опциональный JSONL с результатами по каждому примеру. С февраля 2026 хранилище EEE на Hugging Face накопило 229 000 результатов по 22 000+ моделям и 2 200 бенчмарков из 31 разного формата. Воспроизведение всех этих запусков с нуля обошлось бы в сотни тысяч долларов.

Теперь Hugging Face Community Evals интегрирована с EEE. Разработчики могут отправить результат в оба сервиса одновременно: конвертер автоматически преобразует EEE-запись в YAML-файл, который ожидает Hugging Face. Результат появляется в карточке модели с синим бейджем (автор), зелёным (сообщество) или галочкой (независимая проверка). Каждый баллл содержит ссылку-источник на полную EEE-запись с конфигом генерации, версией harness и замечаниями о воспроизводимости.

Ключевые факты

Every Eval Ever запустили в феврале 2026, чтобы унифицировать раздробленные результаты оценки ИИ-моделей
Единая JSON-схема фиксирует: оценивающего, модель, способ доступа, параметры генерации, значение метрики
EEE-хранилище Hugging Face вмещает 229 000 результатов по 22 000+ моделям и 2 200 бенчмарков
Конвертер автоматически переводит EEE-записи в YAML для Hugging Face Community Evals, без дублирования форматов вручную
Каждый результат на карточке модели содержит бейдж (автор/сообщество/независимый) и обратную ссылку на полную структурированную запись

Почему это важно

Результаты оценки моделей, основа, на которой пользователи, исследователи и политики выбирают и доверяют моделям ИИ. Сегодня эти результаты разбросаны и несопоставимы: одна модель на одном бенчмарке получает разные баллы в зависимости от параметров оценки, которые часто не документированы. EEE и Community Evals решают эту проблему единой схемой и кросс-ссылками, которые позволяют прочитать полный контекст оценки и воспроизвести её.

Кому это важно

Исследователям и разработчикам, которые публикуют результаты оценок (создатели моделей, независимые лаборатории); пользователям Hugging Face, которые выбирают модели по её характеристикам; политикам и надзорным органам, которым нужны надёжные данные о возможностях и безопасности ИИ.

Как это применить

Если вы оценили модель по стандартному бенчмарку (MMLU-Pro, GPQA, HLE, GSM8K), загрузите результат в EEE-хранилище, затем запустите конвертер: uv run tools/hf-community-evals/community_evals_converter.py MMLU-Pro --datastore evaleval/EEE_datastore@main. Инструмент создаст локальные превью YAML, проверит конфликты с существующими результатами, а затем откроет Pull Request в модельный репо. После одобрения ваша оценка появится в карточке модели и на лидербордах бенчмарков.

Можно ли доверять

Hugging Face Community Evals поддерживает три типа бейджей: автор-модели (наиболее авторитетно), независимая проверка (галочка, если результат верифицирован) и сообщество (любой может отправить PR). Каждый результат содержит прямую ссылку на полную EEE-запись с полной метаинформацией, что позволяет проверить параметры оценки и воспроизводимость. Автор модели может закрыть любой PR или скрыть результат в своём репо.

Риски и подводные камни

Конвертер поддерживает только четыре официальных бенчмарка (MMLU-Pro, GPQA, HLE, GSM8K), для других нужно переводить в EEE вручную. Если модель не разрешается на Hub или уже есть результат по этому бенчмарку, конвертер пометит это при подготовке PR. Интеграция требует явного подтверждения перед открытием PR, чтобы избежать случайной отправки неправильных данных.

«Воспроизведение только этих запусков с нуля обошлось бы в сотни тысяч долларов, что является разумным аргументом против того, чтобы давать данным разойтись после того, как кто-то потратил на их генерацию.»

— Hugging Face Blog