Dockerless: верификатор кода без окружения для агентов-кодеров

При обучении ИИ-агентов для написания кода обычно используют верификаторы, которые выбирают траектории для обучения и дают награды для reinforcement learning (RL). Традиционная верификация требует запуска unit-тестов в специальных окружениях (например, Docker-образах для каждого репозитория), что требует значительных ресурсов на настройку окружения.

Результат исследования: Dockerless, верификатор без окружения, который оценивает корректность патчей кода агентов БЕЗ их выполнения. Вместо простого сравнения с эталонными патчами Dockerless использует агентное исследование репозитория для сбора доказательств корректности. На тестовом датасете Dockerless превосходит лучший открытый верификатор на 14,3 AUC-пункта.

Практическое применение: с Dockerless как фильтром траекторий для SFT и источником наград для RL можно создавать полностью независимые от окружения pipeline-ы обучения. Модель, обученная таким способом, показывает: 62,0% на SWE-bench Verified, 50,0% на Multilingual и 35,2% на Pro, превосходя Qwen3.5-9B на 2,4, 8,7 и 2,9 пункта соответственно, и сравниваясь с методами на базе окружения.

Ключевые факты

Dockerless проверяет код агентов без запуска контейнеров, исключает затраты на настройку окружения
Метод основан на агентном исследовании репозитория для сбора доказательств, а не на прямом сравнении с эталонами
На бенчмарке Dockerless превосходит лучший открытый верификатор на 14,3 AUC-пункта
Полный pipeline без окружения (фильтр траекторий + RL-награды) достигает 62% на SWE-bench Verified
Результаты совпадают с environment-based методами, но без инфраструктурной сложности

Почему это важно

Верификация кода, узкое место при обучении ИИ-агентов. Docker-окружения требуют больших вычислительных ресурсов и времени на настройку. Если избавиться от этой зависимости и сохранить качество верификации, можно масштабировать обучение дешевле и быстрее. Dockerless показывает, что это возможно, открывая путь к более доступному обучению сильных кодеров.

Кому это важно

Исследователям, разрабатывающим ИИ-агентов для кода (инструменты вроде GitHub Copilot, Claude для программирования). Компаниям, которые обучают собственные модели кодирования и ищут способ снизить затраты инфраструктуры. Open-source сообществу, так как Dockerless предлагает более доступный способ работать с верификацией кода.

Как это применить

Если разрабатываете агента для написания кода, Dockerless можно использовать прямо в пайплайне обучения вместо Docker-based верификаторов. Берёте репозиторий с задачей, генерируете патч через агента, пускаете его через Dockerless вместо выполнения контейнера, агент исследует репозиторий и выносит вердикт о корректности. Далее этот вердикт идёт в обучение (SFT-фильтр или RL-награда). Инфраструктура упрощается, стоимость вычислений падает.

Можно ли доверять

Исследование прошло на стандартных бенчмарках (SWE-bench Verified/Multilingual/Pro) и показывает, что Dockerless не уступает по качеству методам с реальным выполнением. Авторы, исследователи, работающие на основе научного подхода. Однако это первый шаг, в реальной разработке всё ещё могут быть случаи, где агентное исследование недостаточно (например, очень сложные скрытые зависимости между файлами), хотя данные показывают редкость таких ситуаций.

Риски и подводные камни

Dockerless полагается на способность агента исследовать репозиторий и делать выводы, если агент ошибается при анализе, верификатор тоже может ошибиться. Для очень больших или нестандартных репозиториев агентное исследование может быть неэффективным. Кроме того, метод пока протестирован на исходном коде (SWE-bench), переносимость на другие домены (например, бинарные патчи, специализированные языки) требует проверки.

«Dockerless судит о корректности патча, используя свидетельства, собранные через агентное исследование репозитория. На тестовом датасете верификатора Dockerless превосходит сильнейший открытый верификатор на 14,3 AUC-пункта.»

— Статья Dockerless