OpenThoughts-Agent: как готовить данные для обучения ИИ-агентов

OpenThoughts-Agent: как готовить данные для обучения ИИ-агентов

Проблема: существующие подходы к обучению агентных моделей (SWE-Smith, SERA, Nemotron-Terminal) обычно нацелены на один бенчмарк и не обобщаются на разные типы задач. OpenThoughts-Agent решает эту проблему полностью открытым пайплайном курации данных. Исследователи провели более 100 контролируемых абляционных экспериментов для систематического анализа каждого этапа подготовки данных, выявив важность разнообразия и источников задач. На основе этого пайплайна собран датасет из 100K примеров, на котором дообучена Qwen3-32B. Модель показала среднюю точность 44.8% на семи агентских бенчмарках, что на 3.9 процентных пункта выше лучшего открытого аналога (Nemotron-Terminal-32B: 40.9%). Данные также демонстрируют хорошие масштабируемые свойства, превосходя альтернативные открытые датасеты при любом размере обучающего набора в сравнениях с контролем по вычислениям. Все материалы (датасеты, пайплайн, экспериментальные данные, модели) выложены на openthoughts.ai.

Ключевые факты

  • Первый открытый пайплайн для системной подготовки данных обучения агентных моделей с 100+ абляционными экспериментами
  • Qwen3-32B, обученная на 100K примеров, превосходит Nemotron-Terminal на 3.9 п.п. (44.8% vs 40.9%)
  • Данные масштабируются хорошо: на любом размере обучающего набора лучше открытых аналогов
  • Результаты охватывают семь агентских бенчмарков, демонстрируя обобщаемость подхода
  • Все артефакты (модели, код, данные, эксперименты) открыто выложены для воспроизводимости

Почему это важно

Агентные модели расширяют применение ИИ, но процесс подготовки универсальных обучающих данных остаётся чёрным ящиком. Открытый пайплайн с систематическим анализом каждого этапа позволяет сообществу воспроизводить и улучшать результаты, а не полагаться на проприетарные решения.

Кому это важно

Исследователям и компаниям, обучающим агентные модели для решения разнородных задач. Тем, кто хочет улучшить качество данных обучения без больших вычислительных ресурсов на эксперименты. Open-source сообществу, которому нужны воспроизводимые методики.

Как это применить

Использовать открытый пайплайн openthoughts.ai как основу для подготовки данных собственных агентов. Применить выводы об источниках и разнообразии задач при сборке датасета. Дообучить или файн-тюнить свои модели на выложенных 100K примерах. Адаптировать пайплайн под специфику своих задач через абляционные эксперименты.

Можно ли доверять

Исследование проведено с полной прозрачностью: 100+ контролируемых экспериментов, тестирование на семи независимых бенчмарках, сравнение с известным открытым baseline. Все данные и код открыто выложены для верификации. Результаты воспроизводимы.

Риски и подводные камни

44.8% точности, всё ещё относительно низко для производственных агентов. Результаты специфичны для выбранного набора бенчмарков и типов задач; результаты на других типах задач неизвестны. Масштабирование на большие модели (выше 32B параметров) требует дополнительной проверки. Затраты на вычисления для 100+ экспериментов велики, что может затруднить воспроизведение на локальных ресурсах.