OpenThoughts-Agent: как готовить данные для обучения ИИ-агентов

Проблема: существующие подходы к обучению агентных моделей (SWE-Smith, SERA, Nemotron-Terminal) обычно нацелены на один бенчмарк и не обобщаются на разные типы задач. OpenThoughts-Agent решает эту проблему полностью открытым пайплайном курации данных. Исследователи провели более 100 контролируемых абляционных экспериментов для систематического анализа каждого этапа подготовки данных, выявив важность разнообразия и источников задач. На основе этого пайплайна собран датасет из 100K примеров, на котором дообучена Qwen3-32B. Модель показала среднюю точность 44.8% на семи агентских бенчмарках, что на 3.9 процентных пункта выше лучшего открытого аналога (Nemotron-Terminal-32B: 40.9%). Данные также демонстрируют хорошие масштабируемые свойства, превосходя альтернативные открытые датасеты при любом размере обучающего набора в сравнениях с контролем по вычислениям. Все материалы (датасеты, пайплайн, экспериментальные данные, модели) выложены на openthoughts.ai.

Ключевые факты

Первый открытый пайплайн для системной подготовки данных обучения агентных моделей с 100+ абляционными экспериментами
Qwen3-32B, обученная на 100K примеров, превосходит Nemotron-Terminal на 3.9 п.п. (44.8% vs 40.9%)
Данные масштабируются хорошо: на любом размере обучающего набора лучше открытых аналогов
Результаты охватывают семь агентских бенчмарков, демонстрируя обобщаемость подхода
Все артефакты (модели, код, данные, эксперименты) открыто выложены для воспроизводимости

Почему это важно

Агентные модели расширяют применение ИИ, но процесс подготовки универсальных обучающих данных остаётся чёрным ящиком. Открытый пайплайн с систематическим анализом каждого этапа позволяет сообществу воспроизводить и улучшать результаты, а не полагаться на проприетарные решения.

Кому это важно

Исследователям и компаниям, обучающим агентные модели для решения разнородных задач. Тем, кто хочет улучшить качество данных обучения без больших вычислительных ресурсов на эксперименты. Open-source сообществу, которому нужны воспроизводимые методики.

Как это применить

Использовать открытый пайплайн openthoughts.ai как основу для подготовки данных собственных агентов. Применить выводы об источниках и разнообразии задач при сборке датасета. Дообучить или файн-тюнить свои модели на выложенных 100K примерах. Адаптировать пайплайн под специфику своих задач через абляционные эксперименты.

Можно ли доверять

Исследование проведено с полной прозрачностью: 100+ контролируемых экспериментов, тестирование на семи независимых бенчмарках, сравнение с известным открытым baseline. Все данные и код открыто выложены для верификации. Результаты воспроизводимы.

Риски и подводные камни

44.8% точности, всё ещё относительно низко для производственных агентов. Результаты специфичны для выбранного набора бенчмарков и типов задач; результаты на других типах задач неизвестны. Масштабирование на большие модели (выше 32B параметров) требует дополнительной проверки. Затраты на вычисления для 100+ экспериментов велики, что может затруднить воспроизведение на локальных ресурсах.