Как сделать нейросетевые модели мозга понятными: GCT от Microsoft Research

Нейросетевые языковые модели стали лучшим инструментом для предсказания, как человеческий мозг отреагирует на текст. Однако эта точность достигнута за счёт интерпретируемости: модель работает, но никто не понимает, почему, это миллионы неопрозрачных параметров. Учёные из Microsoft Research, UC Berkeley, UC San Francisco и Columbia University разработали метод Generative Causal Testing (GCT), который это меняет.

Метод работает в два этапа. Сначала из модели предсказания извлекаются фразы, которые сильнее всего активируют конкретный вокселя мозга, и ИИ переводит их в короткое словесное объяснение (например, «названия мест» или «приготовление еды»). Затем идёт проверка: ИИ пишет новые истории, специально рассчитанные на активацию целевого региона мозга. Добровольцы читают эти истории в сканере МРТ, и если объяснение верное, область активируется сильнее, чем на контрольном тексте.

Метод подтвердил уже известные функции мозга и разрешил давние споры. Три соседних региона обработки мест (RSC, PPA, OPA) долго считали функционально похожими, но GCT выявил различия: например, RSC реагирует на собственные названия мест (Токио, Коннектикут), а не общие географические термины. Кроме того, открыты новые префронтальные микрорегионы, которые специализируются на очень конкретных концепциях: диалоги, время суток, численные измерения.

Значение метода выходит за границы нейронауки. GCT показывает, что мощные предсказательные модели могут быть дистиллированы в читаемые, проверяемые теории, вместо того чтобы оставаться чёрными ящиками. Это открывает путь к более быстрому и эффективному картированию мозга: AI предлагает гипотезу, закрытый цикл эксперимента её проверяет, и всё происходит в одном исследовании.

Ключевые факты

Языковые нейросетевые модели предсказывают активность мозга с высокой точностью, но сами остаются чёрными ящиками, которые нельзя интерпретировать.
Generative Causal Testing (GCT) извлекает из моделей короткие объяснения (типа 'названия мест'), а затем тестирует их: ИИ пишет истории, люди их слышат в сканере МРТ, и исследователи проверяют, активируется ли целевой регион.
Метод подтвердил известные мозговые функции, разрешил споры о соседних регионах обработки мест и открыл ранее неизвестные микрорегионы, специализирующиеся на диалогах, времени суток и измерениях.
GCT превращает чёрный ящик в цикл генерирования гипотез и их проверки, что ускоряет картирование мозга и возвращает интерпретируемость в вычислительную нейронауку.
Подход применим не только к нейронауке, но к любым сферам, где мощные предсказательные модели нужно перевести в читаемые, проверяемые теории.

Почему это важно

В течение десятилетия нейросетевые модели стали самыми точными инструментами для предсказания реакции мозга на язык. Но успех в точности привёл к провалу в понимании: модели работают, но их параметры остаются чёрным ящиком. Это создало центральную проблему вычислительной нейронауки, пропасть между предсказанием и пониманием. GCT решает эту проблему, позволяя учёным не просто предсказывать, но и объяснять и проверять свои объяснения.

Кому это важно

Нейробиологам, которые картируют функции мозга. Исследователям, работающим с чёрными ящиками машинного обучения в любой области (медицина, физика, финансы). Разработчикам AI, которые нуждаются в интерпретируемости моделей. Компаниям, развивающим приложения на основе нейросетевых моделей и нуждающимся в прозрачности.

Как это применить

GCT работает в два этапа: сначала извлечение объяснений из модели (выявить фразы, которые сильнее активируют регион, перевести их в словесное описание), затем верификация (ИИ пишет целевые истории, люди их читают в сканере МРТ, проверяется активация). Метод демонстрировался на языковых моделях и мозговой активности, но философия (генерирование гипотезы и закрытый цикл проверки) применима к любым предсказательным моделям.

Можно ли доверять

Метод опубликован в Nature Neuroscience, разработан в сотрудничестве лучших университетов (Microsoft Research, UC Berkeley, UCSF, Columbia) и протестирован на трёх добровольцах в реальных экспериментах МРТ. Коды и результаты открыты на GitHub. Синтетические истории, сгенерированные методом, действительно активировали целевые регионы мозга выше контрольного уровня, что подтвердило принцип в живых экспериментах.

Риски и подводные камни

Метод протестирован только на трёх добровольцах и только на языковых моделях, масштабируемость на большие выборки неизвестна. Зависит от качества исходной предсказательной модели: чем стабильнее модель, тем надёжнее её объяснения. Синтетические истории могут быть неестественными или содержать артефакты, влияющие на результат. Требует доступа к МРТ-сканеру, что сильно ограничивает применение за пределами хорошо финансируемых исследовательских лабораторий.

«GCT показывает, что мощная предсказательная модель не обязательно должна быть концом научного поиска; она может быть дистиллирована в читаемую, экспериментально проверяемую теорию, и эта теория может быть проверена против реальности путём генерирования новых экспериментов по требованию.»

— Microsoft Research, из статьи о Generative Causal Testing