Когда агент должен остановиться? Исследование agentic abstention

Проблема agentic abstention, это способность LLM-агента распознать, когда цель не достижима в текущем окружении, и прекратить действовать вместо того, чтобы делать ненужные обращения к инструментам. Исследование оценило 13 LLM-систем и 2 сценария разработки на более чем 28 000 задач в трёх доменах: веб-покупки, терминальные окружения и ответы на вопросы.

Ключевой вывод: проблема не в том, могут ли агенты воздержаться, а КОГДА они это делают. Некоторые агенты никогда не воздерживаются, когда должны, другие делают это только после множества ненужных взаимодействий. Расхождение особенно велико для задач, где инструкция выглядит выполнимой, пока окружение не покажет обратное (например, нет результатов, соответствующих условию).

Особенно интересно, что масштаб модели, reasoning и архитектура агента влияют на воздержание по-разному: более крупные или способные модели иногда хуже справляются с своевременным воздержанием.

Для решения проблемы предложен метод CONVOLVE, инженерия контекста, которая преобразует полные траектории взаимодействия в переиспользуемые правила остановки. На WebShop CONVOLVE значительно улучшил своевременное воздержание без обновления параметров модели: для Llama-3.3-70B показатель своевременного recall вырос с 26,7% до 57,4%.

Ключевые факты

Agentic abstention, это последовательная задача принятия решений: на каждом ходу агент может ответить, воздержаться или собрать больше информации
Основная проблема: агенты либо не воздерживаются вообще, либо делают множество лишних попыток перед воздержанием
Более крупные и способные модели иногда показывают худшие результаты в своевременном воздержании
CONVOLVE, метод контекстной инженерии, преобразует траектории взаимодействия в правила остановки; поднял recall Llama-70B с 26,7% до 57,4% без переобучения
Оценка охватила веб-покупки, терминальные окружения и вопросно-ответные системы на 28 000+ задачах

Почему это важно

LLM-агенты, работающие с инструментами (поиск, веб-интерфейсы, терминал), должны распознавать непреодолимые препятствия. Безумные попытки действовать, когда цель недостижима, тратят ресурсы, замедляют систему и снижают надёжность. Это особенно критично для production-систем, где отсутствие graceful degradation разочаровывает пользователей. Исследование впервые систематически изучает эту проблему на больших датасетах.

Кому это важно

Разработчикам LLM-агентов и RAG-систем; инженерам, строящим agent-based assistants для корпоративных и потребительских приложений; исследователям, работающим над надёжностью и controllability LLM-систем; компаниям, интегрирующим агентов в критичные workflows (support, shopping, data retrieval).

Как это применить

Использовать CONVOLVE для улучшения агентов без переобучения: собрать примеры успешного воздержания из существующих логов взаимодействия, преобразовать их в правила через контекстную инженерию и встроить в промпт агента. Для веб-покупок метод показал 2x улучшение (recall 26,7% → 57,4%). Подход универсален: применим к терминальным командам, question-answering и другим задачам с инструментами.

Можно ли доверять

Да. Это peer-reviewed исследование из авторитетной лаборатории (автор Han Luo, CONVOLVE опубликована с полным датасетом и кодом). Оценка систематична: 13 моделей, 2 архитектуры, 28 000+ задач, три независимых домена. Результаты воспроизводимы (код доступен на GitHub). Единственное ограничение: CONVOLVE тестирована на 3 доменах; неясно, как она обобщится на совершенно новые окружения.

Риски и подводные камни

CONVOLVE требует примеров успешного воздержания из логов, если логи содержат только неудачи, правила будут неполными. Кроме того, правила, дистиллированные из одного домена, могут не переноситься на другие (например, логика остановки для веб-покупок может не сработать для кодирования). Метод требует тщательной настройки порогов и правил для каждого домена; нет универсального plug-and-play решения.

«Основная проблема не только в том, могут ли агенты воздержаться, но и в том, КОГДА они это делают. Некоторые агенты никогда не воздерживаются, когда должны, а другие делают это только после множества ненужных взаимодействий.»

— Han Luo et al., Agentic Abstention