Термин «машинное разучивание» переиспользуют в исследованиях больших языковых моделей

Статья утверждает, что в научном сообществе LLM-исследователей произошла терминологическая путаница вокруг понятия «machine unlearning» (машинное разучивание). Авторы предлагают зарезервировать этот термин исключительно для dataset-defined deletion, удаления влияния конкретного набора данных на модель так, чтобы результат был неотличим от переобучения без этих данных.
Однако многие исследования называют «разучиванием» совершенно разные задачи: отказ выполнять вредоносные запросы (alignment/refusal), удаление отдельных фактов или сущностей из базы знаний (knowledge removal), целевое подавление поведения (suppression) и скрытие информации (obfuscation). Каждая из этих задач имеет собственные политические и технические требования, которые несовместимы между собой.
Проблема не только в названиях. Авторы показывают, что путаница приводит к практическим ошибкам в оценке исследований: одни и те же метрики (например, ROUGE, forget accuracy) используются для целей, для которых они не разработаны, что приводит к награждению поверхностных решений. Алгоритм может показать низкие значения метрики, но это не значит, что он достигает эквивалентности переобучению, то есть не гарантирует, что удалённые способности модели действительно удалены.
Статья призывает к введению строгой терминологии, привязанной к явным гарантиям и эталонным моделям, а также к оценкам, которые соответствуют заявленным целям исследования.
Ключевые факты
- Авторы требуют зарезервировать «machine unlearning» только для dataset-defined deletion (удаление влияния конкретного набора данных на равенство с переобучением).
- Задачи отказа от вредоносных действий, удаления фактов и подавления поведения требуют разных названий (alignment, refusal, suppression, editing, obfuscation) и разных метрик оценки.
- Текущая путаница приводит к переиспользованию метрик (ROUGE, forget accuracy) за пределами их предназначения и награждению поверхностных решений, которые не достигают истинной эквивалентности переобучению.
- Многие исследования не проверяют, действительно ли удалённые способности модели исчезли, полагаясь только на метрики низкого уровня.
- Авторы предлагают привязать терминологию к явным гарантиям, эталонным моделям и оценкам, соответствующим заявленным целям.
Почему это важно
По мере того как регуляция (GDPR, авторское право), соображения безопасности и требования продукта заставляют LLM-разработчиков «забывать» части данных или поведение, в сообществе появилась путаница в терминологии. Одно название используется для принципиально разных задач, что приводит к неправильной оценке исследований. Статья высвечивает проблему, которая затушевывается в публикациях: низкие метрики могут быть результатом косметических изменений, а не истинного удаления способностей модели.
Кому это важно
Исследователям, работающим с LLM-моделями и занимающимся удалением данных, защитой от вредоносных запросов, редактированием знаний или приватностью. Разработчикам ИИ-систем, которым нужно гарантировать, что модели забывают чувствительные данные. Рецензентам и авторам публикаций, которые должны понимать разницу между типами задач и правильно применять метрики.
Как это применить
При разработке механизмов удаления данных из LLM необходимо чётко определить цель: удаление влияния конкретного датасета (true unlearning), отказ от вредоносных действий (alignment), удаление отдельных фактов (knowledge editing), скрытие информации (obfuscation) или подавление поведения (suppression). Каждой цели соответствуют свои метрики и эталоны. При публикации исследования следует явно указать гарантии и использовать метрики, разработанные для данной задачи, а не переносить метрики из других контекстов.
Можно ли доверять
Позиционная статья, написанная экспертами, аргументирует проблему на примерах текущих исследований. Авторы демонстрируют конкретные случаи переиспользования метрик и показывают, как это искажает оценку исследований. Однако это критика существующей практики, а не решение; собственной методологии альтернативные метрики в статье не предложены.
Риски и подводные камни
Строгое разделение терминологии может затруднить сравнение исследований и замедлить публикацию, если авторы будут тратить больше времени на корректную классификацию. Рецензенты и редакторы могут не согласиться с новой терминологией. Кроме того, в некоторых случаях задачи пересекаются (например, удаление данных может служить и целям приватности, и целям безопасности), что усложняет однозначную классификацию. Проблема требует скоординированного принятия стандартов в сообществе.
«Путаница не только косметическая: поскольку статьи дают разные неявные гарантии под одним названием, метрики и бенчмарки часто переиспользуются за пределами их предназначения, награждая поверхностное скрытие (например, низкие ROUGE/forget accuracy) даже когда эквивалентность переобучению не проверена и полученные способности сохраняются.»
— arXiv:2606.27379, позиционная статья на английском