Когда обратная связь реально улучшает ИИ-агенты: контролируемое исследование на 13 моделях

Авторы провели контролируемое исследование обратной связи (feedback) в мультиоборотных языковых агентах, чтобы разделить эффект от реальной feedback, переоформатирования ответов и дополнительных попыток переподсчёта.

На четырёх бенчмарках (Omni-MATH, Codeforces, BBEH Linguini и ARC-AGI) они тестировали 13 открытых моделей в ролях ученика и учителя. Использовались три условия: внешняя feedback (от другой модели), самогенерируемая feedback (модель критикует саму себя) и просто повторные попытки без guidance.

Ключевые находки:

Самогенерируемая feedback почти не работает. Когда модель критикует саму себя, улучшение практически совпадает с улучшением от простых повторных попыток. Это значит, что самолюбие модели не помогает.
Качественная внешняя feedback даёт реальный прирост. Сильные учителя (модели с лучшим доступом к информации о задаче) дают существенно большее улучшение, чем просто переподсчёт.
Способность ученика важнее личности учителя. Матрицы взаимодействия показали: способность модели-ученика использовать feedback, главный фактор улучшения, а не то, какой учитель выбран (хотя выбор учителя тоже имеет значение).

Исследователи предлагают два вывода: (1) агентов с feedback нужно оценивать на фоне базовых повторных попыток, и (2) узкое место, не наличие feedback, а способность агента её использовать. Проект включает открытый фреймворк для контролируемого тестирования feedback.

Ключевые факты

Самогенерируемая feedback (модель критикует саму себя) улучшает почти столько же, сколько просто повторные попытки, то есть не добавляет пользы
Качественная внешняя feedback от сильного учителя с доступом к истине даёт значительно больший прирост, чем переподсчёт
Главный фактор успеха, способность модели-ученика использовать feedback, а не конкретный выбор учителя
Мультиоборотное улучшение часто неправильно интерпретируется как доказательство использования feedback, когда на самом деле это результат переборки вариантов
Авторы выпустили контролируемый фреймворк для студент-учительского взаимодействия и предлагают использовать его для оценки feedback-агентов

Почему это важно

ИИ-агенты, которые могут учиться на feedback, ключевой тренд. Но остаётся вопрос: помогает ли feedback реально, или улучшение просто от переопробования? Исследование разделяет эти эффекты на примере 13 реальных моделей, показывая, что feedback работает, но только при определённых условиях. Это важно для разработчиков, которые хотят встроить feedback в свои агенты.

Кому это важно

Разработчикам агентов и LLM-приложений (особенно в коде и математике). Исследователям, которые оценивают мультиоборотные системы. Компаниям, инвестирующим в feedback-loop системы, результаты показывают, что просто наличие feedback недостаточно.

Как это применить

При проектировании feedback-систем для агентов: (1) обеспечить качество внешней feedback (не полагаться на самокритику модели), (2) учить модели лучше интерпретировать feedback (это узкое место), (3) при оценке агентов всегда сравнивать с baseline из повторных попыток. Авторы выпустили фреймворк для тестирования на https://j-lojek.github.io/feedback-generation-is-a-bottleneck/.

Можно ли доверять

Исследование выглядит солидно: контролируемый дизайн, 13 моделей (разные веса и размеры), четыре разных бенчмарка (математика, кодирование, рассуждения, визуальное решение). Авторы открыли код и фреймворк. Ограничение: тестировали только open-weight модели (не GPT-4 или Claude), но для LLM-экосистемы это репрезентативно.

Риски и подводные камни

Риск неправильной интерпретации: если агент показал улучшение за несколько попыток, это НЕ значит автоматически, что feedback сработала (может быть просто удача или переборка). Второй риск: модель может быть 'неспособна к feedback' по природе, и никакой учитель её не научит, тогда инвестиции в feedback-системы бесполезны. Авторы предлагают тестировать это явно, прежде чем масштабировать.

«Способность агента использовать обратную связь, а не просто её наличие, центральное узкое место для интерактивного улучшения.»

— Из выводов исследования (переведено)