Evolution Fine-Tuning: учим LLM искать решения через эволюционный поиск

Исследователи представили Evolution Fine-Tuning (EFT), метод, который учит большие языковые модели (LLM) эффективнее решать задачи оптимизации. Ключевая идея: вместо подхода, когда каждая новая задача решается с нуля, модель учится переносить накопленный опыт между разными проблемами.

Для этого авторы создали датасет Finch Collection из 156 тысяч траекторий эволюционного поиска, охватывающий 10 различных областей и 371 задачу оптимизации. На этом датасете они обучили открытые LLM размером от 2 до 9 миллиардов параметров.

Результаты значительные: модели, обученные EFT, превосходят базовые версии в среднем на 10,22% на 22 неизвестных задачах. При комбинации с reinforcement learning во время тестирования модели достигают лучших известных результатов на задачах упаковки кругов и превосходят базовые модели на проблеме минимального перекрытия Эрдёша.

Практическое значение заключается в том, что EFT позволяет создавать универсальные агенты открытия, которые применяют накопленные знания об эволюционном поиске вместо решения новых проблем с нуля.

Ключевые факты

EFT позволяет LLM переносить опыт эволюционного поиска между 371 разными задачами оптимизации вместо решения каждой с нуля
Датасет Finch Collection содержит 156 тысяч траекторий поиска из 10 областей, реальные примеры эволюционных процессов
Обученные модели показывают 10,22% среднее улучшение по сравнению с базовыми версиями на неизвестных задачах
Метод достигает лучших известных результатов на задачах упаковки кругов и проблеме минимального перекрытия Эрдёша
EFT работает как "фаза практики" для универсальных агентов, которые могут решать новые классы задач более эффективно

Почему это важно

Сейчас LLM решают каждую новую задачу оптимизации с нуля, накопленный опыт теряется. EFT переносит сложность эволюционного поиска из поисковых каркасов в саму модель. Модель учится, какие части решения мутировать, как откатываться и когда менять стратегию. Это создаёт основу для универсальных агентов открытия, которые применяют знания вместо повторного сканирования пространства решений.

Кому это важно

Исследователям в машинном обучении, оптимизации и символьных вычислениях. Разработчикам, работающим над GPU-оптимизацией, дизайном кристаллов и открытием научных законов. Создателям AI-агентов, которые хотят, чтобы системы обучались на разных типах задач и переносили знания между ними.

Как это применить

Возьмите открытый LLM (2B, 9B параметров), создайте или загрузите датасет траекторий эволюционного поиска из целевых задач, обучите модель на этих траекториях. Затем используйте обученную модель как помощника в поиске решений для похожих или новых задач оптимизации. При инференсе можно комбинировать с reinforcement learning для улучшения результатов.

Можно ли доверять

Исследование опубликовано на HuggingFace с полной методологией. Авторы чётко сообщают результаты, включают сравнения с базовыми моделями и честно обсуждают ограничения. Датасет Finch Collection из 156K траекторий, реальный вклад в сообщество. Тестирование на held-out задачах показывает подлинное обобщение, а не переучивание.

Риски и подводные камни

EFT требует значительных вычислительных ресурсов для сбора датасета траекторий (эволюционный поиск по 371 задаче). Модель может переучиться на специфику данных, хотя авторы показали обобщение на неизвестные задачи. Главный вопрос, насколько хорошо метод работает на совершенно новых типах оптимизационных задач, далёких от датасета. Требуется дальнейшее исследование безопасности и надёжности универсальных discovery агентов.

«EFT служит «фазой практики» для универсальных агентов открытия, которые решают новые проблемы не с нуля»

— Авторы исследования Evolution Fine-Tuning