Ornith-1.0: открытые самосовершенствующиеся модели для агентного кодирования

Команда DeepReinforce выпустила Ornith-1.0, семейство открытых моделей для агентного кодирования, построенное на базе Gemma 4 и Qwen 3.5. Модели доступны в четырёх конфигурациях: 9B-Dense (плотная, для одного GPU), 35B-MoE и 397B-MoE (смесь экспертов, требуют тензорный параллелизм), а также промежуточный вариант 31B-Dense.

Отличительная черта Ornith-1.0, применение обучения с подкреплением (RL) для самосовершенствования. Модель одновременно оптимизирует не только решения кодовых задач, но и «леса» (scaffold), вспомогательные структуры, которые направляют поиск. Совместная оптимизация позволяет модели обнаруживать лучшие траектории поиска и генерировать решения выше качеством.

Производительность: Ornith-1.0 показывает лучшие результаты среди открытых моделей сопоставимого размера на бенчмарках Terminal-Bench 2.1, SWE-Bench (Verified, Pro, Multilingual), NL2Repo и OpenClaw.

По умолчанию модель выпускает рассуждения в виде блока … перед финальным ответом. Поддерживает инструменты (tool calling), контекстное окно 256K токенов. Требует свежие версии Transformers (≥5.8.1), vLLM (≥0.19.1) или SGLang (≥0.5.9). Модель под лицензией MIT, глобально доступна без региональных ограничений.

Может быть развёрнута как OpenAI-совместимый API через vLLM или SGLang, использует стандартный интерфейс /v1/chat/completions, совместима с агентскими фреймворками (MCP серверы, OpenHands, OpenClaw). Для локального вывода доступны GGUF-сборки для 9B и 35B через llama.cpp и Ollama.

Ключевые факты

Семейство из 4 размеров: 9B, 31B, 35B-MoE, 397B-MoE; 9B вмещается на один 80GB GPU
Самосовершенствование через RL: модель оптимизирует и решения, и вспомогательные структуры (scaffold), улучшая стратегию поиска
Лучшие результаты среди открытых моделей на Terminal-Bench, SWE-Bench, NL2Repo, OpenClaw в своих весовых классах
Встроенная поддержка инструментов (tool calling) с OpenAI-совместимым интерфейсом; цепь рассуждений выделяется в отдельное поле
MIT-лицензирована, развёртывается как OpenAI-совместимый API, работает с OpenHands и другими агентскими фреймворками

Почему это важно

Открытые модели для кодирования редко достигают качества закрытых аналогов. Ornith-1.0 впервые показывает, что применение обучения с подкреплением для совместной оптимизации решений и поисковых структур даёт явное улучшение. Это важно для экосистемы: исследователи и разработчики получают модель, которая действительно конкурирует с закрытыми агентами для кодирования.

Кому это важно

Разработчикам, использующим локальные модели или на приватных сетях (требование независимости от облачных API). Исследователям в области агентного поведения и обучения с подкреплением. Компаниям, обучающим или адаптирующим моделей для кодирования на своих данных. Операторам агентских фреймворков и инструментов разработки, которые могут интегрировать Ornith как бэкэнд.

Как это применить

Установить свежие версии зависимостей, выбрать модель по размеру (9B для локала, 35B/397B для сервера) и развернуть через vLLM или SGLang с флагом --enable-auto-tool-choice. Подключить как OpenAI-совместимый бэкэнд к OpenHands, OpenClaw или любому инструменту, ожидающему /v1/chat/completions. Для offline-вывода использовать llama.cpp или Ollama с GGUF-вариантом.

Можно ли доверять

Да. Модель в открытом исходнике на GitHub (deepreinforce-ai/Ornith-1), есть детальные инструкции тестирования, бенчмарки опубликованы с методикой. MIT-лицензия гарантирует юридическую ясность. Авторы привели полные параметры оценки (Timeout, контекст, температура, количество прогонов) для воспроизводимости.

Риски и подводные камни

Модель, это reasoning-модель, выпускает блоки , что увеличивает latency. Для MoE-вариантов нужен многогвукавый сервер с тензорным параллелизмом (не вмещается на одну карту). Бенчмарки показаны на специальных харнесах (Terminal-Bench, SWE-Bench); результаты на собственных задачах могут отличаться. Требует свежие версии рантаймов, старые окружения потребуют обновления.

«Ornith-1.0 оптимизирует не только разворачиваемые решения, но и сами структуры, которые управляют этими разворачиваниями. Совместная оптимизация позволяет модели обнаруживать лучшие траектории поиска и генерировать решения выше качеством.»

— DeepReinforce Team, Ornith-1.0 GitHub