OpenThoughts-Agent: как готовить данные для обучения ИИ-агентов

Проблема: существующие подходы к обучению агентных моделей (SWE-Smith, SERA, Nemotron-Terminal) обычно нацелены на один бенчмарк и не обобщаются на разные типы задач. OpenThoughts-Agent решает эту проблему полностью открытым пайплайном курации данных. Исследователи провели более 100 контролируемых абляционных экспериментов для систематического анализа каждого этапа подготовки данных, выявив важность разнообразия и источников задач. На основе этого пайплайна собран датасет из 100K примеров, на котором дообучена Qwen3-32B. Модель показала среднюю точность 44.8% на семи агентских бенчмарках, что на 3.9 процентных пункта выше лучшего открытого аналога (Nemotron-Terminal-32B: 40.9%). Данные также демонстрируют хорошие масштабируемые свойства, превосходя альтернативные открытые датасеты при любом размере обучающего набора в сравнениях с контролем по вычислениям. Все материалы (датасеты, пайплайн, экспериментальные данные, модели) выложены на openthoughts.ai.
Ключевые факты
- Первый открытый пайплайн для системной подготовки данных обучения агентных моделей с 100+ абляционными экспериментами
- Qwen3-32B, обученная на 100K примеров, превосходит Nemotron-Terminal на 3.9 п.п. (44.8% vs 40.9%)
- Данные масштабируются хорошо: на любом размере обучающего набора лучше открытых аналогов
- Результаты охватывают семь агентских бенчмарков, демонстрируя обобщаемость подхода
- Все артефакты (модели, код, данные, эксперименты) открыто выложены для воспроизводимости
Почему это важно
Агентные модели расширяют применение ИИ, но процесс подготовки универсальных обучающих данных остаётся чёрным ящиком. Открытый пайплайн с систематическим анализом каждого этапа позволяет сообществу воспроизводить и улучшать результаты, а не полагаться на проприетарные решения.
Кому это важно
Исследователям и компаниям, обучающим агентные модели для решения разнородных задач. Тем, кто хочет улучшить качество данных обучения без больших вычислительных ресурсов на эксперименты. Open-source сообществу, которому нужны воспроизводимые методики.
Как это применить
Использовать открытый пайплайн openthoughts.ai как основу для подготовки данных собственных агентов. Применить выводы об источниках и разнообразии задач при сборке датасета. Дообучить или файн-тюнить свои модели на выложенных 100K примерах. Адаптировать пайплайн под специфику своих задач через абляционные эксперименты.
Можно ли доверять
Исследование проведено с полной прозрачностью: 100+ контролируемых экспериментов, тестирование на семи независимых бенчмарках, сравнение с известным открытым baseline. Все данные и код открыто выложены для верификации. Результаты воспроизводимы.
Риски и подводные камни
44.8% точности, всё ещё относительно низко для производственных агентов. Результаты специфичны для выбранного набора бенчмарков и типов задач; результаты на других типах задач неизвестны. Масштабирование на большие модели (выше 32B параметров) требует дополнительной проверки. Затраты на вычисления для 100+ экспериментов велики, что может затруднить воспроизведение на локальных ресурсах.