SPEX: алгоритм для поиска взаимодействий в больших языковых моделях

Проблема интерпретируемости LLM состоит в том, что их поведение рождается не из отдельных компонентов, а из сложных зависимостей между множеством элементов. Перебрать все возможные взаимодействия невозможно: при N признаков число потенциальных взаимодействий растёт экспоненциально.

Беркли предложили две методологии. SPEX (Spectral Explainer) использует инсайт из обработки сигналов и теории кодирования: хотя общее число взаимодействий огромно, число влиятельных взаимодействий на самом деле мало (спарсивность) и они обычно вовлекают немного элементов (low-degreeness). Алгоритм выбирает стратегические аблации (удаления компонентов) и через эффективное декодирование выделяет точные взаимодействия, ответственные за поведение модели.

ProxySPEX добавляет третий инсайт, иерархию: если важно высокоуровневое взаимодействие, то его подмножества тоже важны. Это снижает затраты в ~10 раз.

Исследователи продемонстрировали SPEX на трёх типах задач. На анализе тональности текста SPEX сохранил высокую точность аттрибуции (faithful) на входах в тысячи признаков, тогда как стандартные методы (LIME, Banzhaf) теряют точность. На модифицированной версии тролли-проблемы GPT-4o mini ошибалась в 92% случаев; SHAP указал на отдельные слова, но замена синонимами не помогала. SPEX выявил доминирующее синергистическое взаимодействие между двумя упоминаниями trolley и словами pulling/lever, замена на синонимы снизила ошибку почти до нуля. На ResNet+CIFAR-10 ProxySPEX нашёл синергистические (визуально непохожие примеры, которые вместе образуют границу решения) и избыточные (дубликаты, закрепляющие одно понятие) взаимодействия между примерами обучения. На MMLU (история) прунинг внимательных голов на основе ProxySPEX не только превзошёл альтернативы, но и улучшил качество модели.

Код обеих методик встроен в популярный репозиторий SHAP-IQ. Работы опубликованы на ICML 2025 и NeurIPS 2025.

Ключевые факты

SPEX находит влиятельные взаимодействия между признаками/данными/компонентами моделей за счёт разреженности и low-degreeness, снижая число необходимых аблаций на порядки
ProxySPEX использует свойство иерархии для дальнейшего ускорения (~10x) и продемонстрирован на аттрибуции признаков, данных и внутренних компонентов
На анализе тональности SPEX сохраняет точность аттрибуции на входах в тысячи признаков, где стандартные методы (LIME, SHAP) теряют истинность
На тролли-проблеме SPEX обнаружил неочевидное синергистическое взаимодействие четырёх слов, в то время как SHAP выбрал только отдельные слова
На прунинге голов внимания MMLU качество модели улучшилось благодаря выявлению синергистических (комплементарных) взаимодействий между компонентами

Почему это важно

Современные LLM работают как чёрные ящики: непонятно, какие именно части входа и какие части модели отвечают за конкретные решения. Безопасность, отладка и доверие к ИИ требуют интерпретируемости. Предыдущие методы либо работали только на малых входах, либо упускали сложные взаимодействия и выдавали неправильные объяснения (как SHAP на тролли-проблеме). SPEX решает это за счёт масштабируемого и математически строгого поиска неочевидных взаимодействий.

Кому это важно

Исследователи интерпретируемости и механистического анализа моделей; разработчики, отлаживающие LLM; команды, работающие над безопасностью ИИ и объяснимостью предсказаний; инженеры машинного обучения, выбирающие архитектурные вмешательства (например, прунинг); организации, требующие аудируемых и доверяемых моделей для критических приложений (медицина, право, финансы).

Как это применить

Метод встроен в SHAP-IQ (GitHub), что упрощает интеграцию в существующие пайплайны. На практике: (1) для анализа поведения LLM на длинных контекстах заменить SHAP на SPEX, чтобы получить верные взаимодействия признаков; (2) для отладки неожиданных ошибок моделей применить ProxySPEX к обучающим примерам и найти синергистические пары/группы, которые модель неправильно комбинирует; (3) для оптимизации архитектуры (прунинг голов, выбор слоёв) использовать interaction discovery вместо простого удаления низкозначимых компонентов.

Можно ли доверять

Методология основана на строгой математической теории (signal processing, coding theory, sparse recovery), апробирована на трёх разнородных задачах (признаки, данные, компоненты) и опубликована в топовых конференциях (ICML, NeurIPS). Верификация на тролли-проблеме показала, что SPEX выявляет фактически ответственные за ошибку слова, а замена на синонимы подтвердила гипотезу. Авторы честны о предположениях (спарсивность, low-degreeness, иерархия) и демонстрируют, где они выполняются.

Риски и подводные камни

SPEX и ProxySPEX опираются на предположение спарсивности: если истинное число влиятельных взаимодействий велико (модель действительно использует экспоненциально много комбинаций), метод не сработает. На практике это маловероятно для хорошо обученных моделей, но возможно для переобученных или деградированных сетей. Вычислительная стоимость, хотя и сокращена, всё ещё требует десятков-сотен аблаций (переинференций или переобучений), что для гигантских LLM может быть дорого. Методология предполагает достаточно полный доступ к модели (возможность аблировать и запускать); на чёрно-ящичных API это не применима. Результаты сильно зависят от качества выбранных для аблации компонентов: плохой выбор → пропуск правильных взаимодействий.

«Модель была обучена на модифицированной версии проблемы тролля, где моральная двусмысленность убрана, поэтому «Верно», ясный правильный ответ. GPT-4o mini ответила неправильно в 92% случаев. Когда мы применили стандартную аттрибуцию признаков (SHAP), она выявила отдельные случаи слова trolley как основные факторы неправильного ответа. Однако замена trolley синонимами (tram, streetcar) почти не повлияла на предсказание модели. SPEX выявила гораздо более богатую историю: доминирующее высокоуровневое синергистическое взаимодействие между двумя случаями trolley и словами pulling и lever, находка, которая совпадает с человеческой интуицией о ядре дилеммы.»

— Berkeley AI Research, исследователи SPEX