35-миллиардная модель достигает производительности триллион-параметрового агента через масштабирование горизонта

Исследователи представили Agents-A1, 35-миллиардную модель Mixture-of-Experts, которая показывает производительность триллион-параметровых моделей на сложных задачах агентов. Вместо увеличения числа параметров авторы масштабировали горизонт агента, длину траекторий действий и спектр способностей.

Для этого была создана инфраструктура для работы с долгими горизонтами, которая связывает знания, действия, наблюдения и результаты проверки, производя траектории агента в среднем из 45 тысяч токенов.

Трёхэтапное обучение включает: полнодоменную супервизированную настройку для выравнивания модели с поведениями агента; обучение учительских моделей на уровне доменов для специализированной экспертизы; многоучительскую доменно-маршрутизированную он-полисийную дистилляцию с выравниванием словаря для эффективной передачи знаний между шестью гетерогенными доменами.

Agents-A1 лидирует на ключевых бенчмарках: SEAL-0 (56.4), IFBench (80.6), HiPhO (46.4), FrontierScience-Olympiad (79.0) и MolBench-Bind (56.8). На других бенчмарках остаётся конкурентоспособной (SciCode 44.3, HLE 47.6, BrowseComp 75.5), при этом конкурирует с существенно более крупными моделями вроде Kimi-K2.6 и DeepSeek-V4-Pro.

Ключевые факты

Agents-A1 (35B параметров, MoE) достигает производительности 1T-параметровых моделей через масштабирование горизонта агента, а не параметров
Инфраструктура поддерживает траектории в 45K токенов (знания, действия, наблюдения, проверки) для долгоцепочечных задач
Трёхэтапный рецепт: полнодоменная SupervisionedFT, доменные учителя для специализации, многоучительская дистилляция с выравниванием словаря
Лидирует на SEAL-0, IFBench, HiPhO, FrontierScience-Olympiad и MolBench-Bind; унифицирует 6 доменов в одну развёртываемую модель
Демонстрирует практический путь масштабирования агентов через горизонт вместо роста параметров

Почему это важно

Конкуренция в LLM долгое время опиралась на увеличение параметров: больше параметров = выше качество. Но это экспоненциально дорого. Agents-A1 показывает, что триллион-параметровую производительность можно достичь на 35-миллиардной модели, если масштабировать не ширину, а глубину рассуждений агента, длину цепочек действий и разнообразие навыков. Это открывает более экономичный путь для развёртывания мощных агентов в production без мегамоделей.

Кому это важно

Компаниям, которые хотят развёртывать продвинутых ИИ-агентов, но не могут себе позволить вычислительные затраты триллион-параметровых моделей. Также интересно исследователям, ищущим альтернативы масштабированию параметров. Разработчикам, работающим над многодоменными агентами (поиск, кодирование, наука, рассуждения).

Как это применить

Результаты применимы при разработке агентов для задач, требующих длинных цепочек действий: сложный поиск информации, решение научных задач, программирование, многошаговое планирование. Ключ, инвестировать в инфраструктуру для долгих траекторий (памяти, наблюдений, проверок), а не просто масштабировать параметры. Если модель должна работать с кодом, наукой и поиском одновременно, дистилляция от доменных учителей позволит объединить их в одном весе без потери специализации.

Можно ли доверять

Авторы, Lei Bai и коллеги, использовали стандартные публичные бенчмарки (SEAL-0, IFBench, HiPhO, FrontierScience-Olympiad, SciCode, BrowseComp). Сравнение с Kimi-K2.6 и DeepSeek-V4-Pro, реальными конкурирующими моделями, даёт уверенность в результатах. Код и модель, похоже, готовятся к публикации на Hugging Face. Ограничение: это исследовательская работа, а не готовый production-product; промышленное применение потребует дополнительного тестирования.

Риски и подводные камни

Увеличение горизонта траектории (45K токенов) означает больше вычислений на инференс для каждого запроса, это медленнее и дороже, чем запрос к базовой модели. Дистилляция от нескольких учителей требует значительного объёма данных и вычислений на этапе обучения. Специализированные модели (учителя) нужно обучить и поддерживать. Производительность на доменах вне шести протестированных остаётся неизвестной. Толку от метода только если задача действительно требует длинной цепочки рассуждений; для простых классификаций это будет медленнее.

«Мы надеемся, что эта работа предоставит сообществу практический путь для масштабирования горизонта агента, используя 35-миллиардный агент, который может достигнуть или сравняться с производительностью 1 триллион-параметровых моделей на долгоцепочечных задачах.»

— Lei Bai и соавторы, Agents-A1