SkillHone: как учить агентов совершенствовать свои навыки через память о решениях

Исследователи представили SkillHone, фреймворк для непрерывного совершенствования скилов ИИ-агентов на основе сохранённой истории решений. Проблема: текущие методы развития навыков работают в ограниченных сессиях и сохраняют только финальный результат, теряя весь путь достижения, диагнозы, попытки, отклонённые варианты. Из-за этого агенты не понимают, почему был сделан тот или иной выбор, и переоткрывают те же ошибки.

SkillHone решает это через структурированную историю: каждая ревизия скила записывается вместе с оценочными данными из практики, диагнозами проблем, вариантами решений и исходами. Когда нужно улучшить скил, отдельные сабагенты тестируют кандидаты на практических примерах, видят результаты и предлагают новые ревизии, опираясь на прошлые решения. Это позволяет улучшать скилы между сессиями, не переделывая уже пройденное.

На двух сложных бенчмарках (GAIA и WebWalkerQA-EN) SkillHone показал результаты лучше, чем коммерческий глубокий поисковый агент: на 15,8 пункта выше на GAIA, на 3,2 пункта выше на WebWalkerQA-EN. Фреймворк работал без встроенного стека поиска, только с самим механизмом развития скилов. На внутренних сценариях анализа с инструментами точность возросла в среднем на 18,8 пункта через семь различных тестов.

Ключевые факты

Основная проблема: текущие системы развития скилов теряют историю решений, поэтому агенты не понимают логику прошлых изменений
SkillHone хранит полную структурированную историю ревизий, диагнозов, вариантов и исходов каждого скила
Отдельные сабагенты тестируют новые версии скилов и предлагают улучшения, опираясь на накопленный опыт
На GAIA опережает коммерческие аналоги на 15,8 пункта, на WebWalkerQA-EN на 3,2 пункта без встроенного поискового стека
На внутренних тестах, прирост в среднем на 18,8 пункта точности по семи различным сценариям анализа

Почему это важно

Агенты эффективны только на задачах, для которых у них есть хорошие скилы. Но когда окружение меняется или нужен новый инструмент, скилы тоже должны меняться. До сих пор системы обучали скилы один раз за сессию и забывали всю логику: почему отклонили тот вариант, что уже пробовали, какие ошибки уже учили. SkillHone решает проблему памяти, агент теперь может опираться на всю историю, как инженер, который читает код ревью от коллег вместо того, чтобы писать с нуля.

Кому это важно

Разработчикам ИИ-систем, которые строят долгоживущие агенты (исследовательские системы, аналитические инструменты, автоматизация сложных рабочих процессов). Особенно актуально там, где задачи и окружение меняются часто, а ошибки дорогие. Также интересно авторам LLM-фреймворков типа LangChain, Claude SDK и аналогов.

Как это применить

Если вы работаете с агентами в LangChain, Claude SDK или другом фреймворке, подумайте, как сделать историю развития скилов видимой. Вместо того чтобы переписывать скил с нуля, сохраняйте старые версии с комментариями о том, почему они не работали. Передавайте эту историю в контекст при новых попытках улучшения. SkillHone показывает, что это улучшает результаты на практике.

Можно ли доверять

Это публикация на HuggingFace Papers с экспериментами на известных бенчмарках (GAIA, WebWalkerQA). Бенчмарки стандартные, результаты сравниваются с коммерческими системами. Нет оснований сомневаться в честности исследования, хотя как всегда полную оценку качества можно сделать только прочитав всю статью.

Риски и подводные камни

SkillHone требует структурированного логирования всех решений и результатов, это добавляет сложность. Не ясно, как хорошо метод работает на совсем новых типах задач, где история может больше навредить, чем помочь (если прошлый контекст полностью неприменим). Также непонятно, как система масштабируется, если история становится очень большой, медленнее ли будут запросы агента и дороже ли контекст.

«SkillHone парит скил-ревизии с оценочными данными со стороны практики, записывая структурированные истории диагнозов, ревизий, доказательств и исходов.»

— HuggingFace Papers, SkillHone