Исследователи MIT обнаружили способ обмануть LLM через подделку цепочки рассуждений

Три исследователя из MIT (Charles Ye, Jasmine Cui и Dylan Hadfield-Menell) обнаружили фундаментальную уязвимость в архитектуре современных LLM. Они показали, что модели полагаются на текстовые метки (role tags) для различения служебных инструкций и пользовательских запросов, но эта система легко подделывается.

Атака называется CoT Forgery (подделка цепочки рассуждений). Исследователи встраивают в пользовательский запрос поддельные "мысли", имитирующие внутренние рассуждения модели (например, стиль встроенного режима <think> OpenAI). Модель воспринимает эту подделку как результат собственных выводов и выполняет опасные операции, которые должна блокировать.

На стандартных бенчмарках безопасности успешность атак выросла с ~0% до ~60%, тогда как в реальных условиях люди-тестировщики добиваются ~100% успеха. Метод работает на разных моделях, поскольку эксплуатирует структурный дефект, а не специфику конкретной реализации. Атаки могут быть встроены в документы, веб-страницы и другие материалы, активируясь при обработке LLM без явного вмешательства пользователя.

Проблема носит фундаментальный характер: текущие подходы к защите неэффективны против подделки внутреннего представления рассуждений. Исследование было представлено на конференции ICML 2026.

Ключевые факты

Уязвимость CoT Forgery позволяет обойти встроенные ограничения LLM, подделав внутреннюю цепочку рассуждений
Успешность атак на бенчмарках: 0% → 60%, в реальности, до 100% на людях-тестировщиках
Метод работает на всех основных LLM и эксплуатирует архитектурный дефект, а не особенность конкретной модели
Атаки могут быть пассивно встроены в документы и веб-материалы, активируясь при обработке моделью
Текущие методы защиты неэффективны; проблема требует переосмысления подхода к валидации внутренних состояний

Почему это важно

Это исследование демонстрирует фундаментальный разрыв между тем, как LLM показывают себя на бенчмарках безопасности (близко к совершенству), и реальной уязвимостью перед целеустремленными атаками. Система защиты LLM опирается на предположение, что модель различает источники информации (служебные инструкции vs. пользовательские), но это различие легко стирается через подделку внутреннего представления мышления. Проблема носит архитектурный характер и не решается точечными патчами.

Кому это важно

Компаниям, развертывающим LLM в production: от OpenAI и Anthropic до поставщиков облачных сервисов. Команды безопасности, которые полагаются на бенчмарки для оценки рисков, получают ложный сигнал защищённости. Разработчикам приложений, интегрирующих LLM, нужно переосмыслить архитектуру промптов и обработку вывода. Пользователям, взаимодействующим с агентами на LLM, которые получают доступ к чувствительным ресурсам.

Как это применить

На уровне разработки: проверять источник всех директив, не доверять текстовым меткам ролей; использовать структурированные форматы вместо текстовых разделителей; изолировать служебный код от пользовательских входов на архитектурном уровне. На уровне развёртывания: тестировать LLM не только на бенчмарках, но и через adversarial prompts вида CoT Forgery; ограничивать доступ модели к чувствительным операциям; логировать и аудировать все запросы, которые повышают привилегии. На уровне использования: не полагаться на встроенные safeguards как на единственный слой защиты; применять дополнительные проверки после вывода модели.

Можно ли доверять

Исследование проведено авторитетным учреждением (MIT), представлено на академической конференции (ICML 2026), методология основана на тестировании против реальных моделей. Однако важно отметить: авторы демонстрируют уязвимость на примере создания рецептов вредных веществ, но это лишь способ показать опасность. Реальный риск шире, любая задача, которую LLM должна блокировать (несанкционированный доступ, утечка данных, манипуляция), может быть обойдена.

Риски и подводные камни

Риск чрезмерной паники: бенчмарки по-прежнему показывают хорошие результаты для большинства юзкейсов, и CoT Forgery требует целеустремлённого злоумышленника. Риск недостаточной реакции: компании могут интерпретировать результат как "это только об исследовательской LLM", когда проблема системна. Подводный камень: простые патчи (вроде запрета на определённые слова) не решат проблему, нужна архитектурная переработка. Сложность: по мере усложнения моделей и их возможностей, новые способы подделки рассуждений будут возникать постоянно (отсюда аналогия The Register: "Whac-a-Mole meets Groundhog Day").

«Представьте себе будущее безопасности LLM, это Whac-a-Mole встречается с Днём сурка.»

— The Register