Мышление как припоминание: как рассуждение раскрывает параметрические знания в LLM

Учёные Google (Zorik Gekhman и Jonathan Herzig) исследовали парадоксальное явление, при котором цепь рассуждений (chain-of-thought) улучшает припоминание простых одношаговых фактов, хотя логических выводов не требуется. Эксперименты на моделях Gemini-2.5 и Qwen3-32B выявили две ключевые механики. Первая, вычислительный буфер: дополнительные токены рассуждения дают модели больше вычислительных шагов для уточнения внутреннего состояния, даже если содержание бессмысленно (тест с повторённым "Let me think" подтвердил эффект). Вторая, припоминание фактов (factual priming): модель генерирует связанные факты, которые служат семантическим «мостом», как распространяющаяся активация в когнитивной психологии. Однако этот механизм хрупкий, галлюцинации в промежуточных фактах снижают точность финального ответа. Авторы показали, что фильтрация рассуждений по верифицируемости промежуточных фактов значительно улучшает точность, открывая путь к оптимизации обучения через process rewards.

Ключевые факты

Рассуждение помогает припоминанию простых фактов через два механизма: дополнительное вычисление и припоминание связанных фактов
Бессмысленный текст той же длины повышает точность, подтверждая гипотезу вычислительного буфера
Галлюцинированные промежуточные факты деградируют финальный ответ, требуя верификации на этапе рассуждения
Приоритизация траекторий с проверяемыми фактами повышает точность без увеличения длины рассуждения
Открывает направление оптимизации обучения через process rewards с поощрением фактически поддержанных промежуточных шагов

Почему это важно

Параметрические знания LLM, это кодированные в весах модели факты, и механизмы их припоминания определяют надёжность моделей. Открытие того, что рассуждение служит не только для декомпозиции сложных задач, но и для припоминания простых фактов, переопределяет наше понимание работы внутренней памяти моделей и позволяет целенаправленно улучшать их точность.

Кому это важно

Исследователям LLM, инженерам по fine-tuning моделей, разработчикам RAG-систем, которые выбирают между основанием рассуждений на параметрических знаниях и внешних источниках, а также компаниям, развивающим reasoning models (как OpenAI o1, DeepSeek) и нуждающимся в понимании механики своих моделей.

Как это применить

При обучении LLM использовать process rewards для поощрения фактически поддержанных промежуточных шагов, а не просто логических переходов. В production внедрить верификацию промежуточных фактов через поиск или внешние источники, с приоритизацией рассуждений без галлюцинаций. В RAG-системах использовать эту механику как метод гибридного припоминания: сначала попробовать параметрическое восстановление с рассуждением, потом дополнить внешними источниками.

Можно ли доверять

Исследование проведено группой Google Research с тщательной экспериментальной методологией (controlled experiments, pass@k метрика, масштабный аудит галлюцинаций). Проверены на двух независимых моделях (Gemini-2.5, Qwen3-32B) и двух датасетах (SimpleQA Verified, EntityQuestions). Авторский состав включает опытных исследователей (Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart). Выводы подтверждены direct experiments, не только корреляцией.

Риски и подводные камни

Механизм припоминания фактов чувствителен к галлюцинациям, одна неверная промежуточная факт заметно снижает точность. Вычислительный буфер имеет убывающую отдачу с увеличением длины рассуждения, что создаёт trade-off между затратами и качеством. Модели генерируют факты, которые сами же галлюцинируют, что требует дорогостоящей верификации через поиск. Применение process rewards в обучении может усилить подтверждение неверных фактов, если метрика верификации не идеальна.

«Рассуждение в языковых моделях служит намного более широкой цели, чем просто декомпозиция задач или математическая логика. Оно действует как фундаментальный механизм для раскрытия внутренней памяти модели и расширения границы её параметрических знаний.»

— Zorik Gekhman и Jonathan Herzig, Google Research