Термин «машинное разучивание» переиспользуют в исследованиях больших языковых моделей

Термин «машинное разучивание» переиспользуют в исследованиях больших языковых моделей

Статья утверждает, что в научном сообществе LLM-исследователей произошла терминологическая путаница вокруг понятия «machine unlearning» (машинное разучивание). Авторы предлагают зарезервировать этот термин исключительно для dataset-defined deletion, удаления влияния конкретного набора данных на модель так, чтобы результат был неотличим от переобучения без этих данных.

Однако многие исследования называют «разучиванием» совершенно разные задачи: отказ выполнять вредоносные запросы (alignment/refusal), удаление отдельных фактов или сущностей из базы знаний (knowledge removal), целевое подавление поведения (suppression) и скрытие информации (obfuscation). Каждая из этих задач имеет собственные политические и технические требования, которые несовместимы между собой.

Проблема не только в названиях. Авторы показывают, что путаница приводит к практическим ошибкам в оценке исследований: одни и те же метрики (например, ROUGE, forget accuracy) используются для целей, для которых они не разработаны, что приводит к награждению поверхностных решений. Алгоритм может показать низкие значения метрики, но это не значит, что он достигает эквивалентности переобучению, то есть не гарантирует, что удалённые способности модели действительно удалены.

Статья призывает к введению строгой терминологии, привязанной к явным гарантиям и эталонным моделям, а также к оценкам, которые соответствуют заявленным целям исследования.

Ключевые факты

  • Авторы требуют зарезервировать «machine unlearning» только для dataset-defined deletion (удаление влияния конкретного набора данных на равенство с переобучением).
  • Задачи отказа от вредоносных действий, удаления фактов и подавления поведения требуют разных названий (alignment, refusal, suppression, editing, obfuscation) и разных метрик оценки.
  • Текущая путаница приводит к переиспользованию метрик (ROUGE, forget accuracy) за пределами их предназначения и награждению поверхностных решений, которые не достигают истинной эквивалентности переобучению.
  • Многие исследования не проверяют, действительно ли удалённые способности модели исчезли, полагаясь только на метрики низкого уровня.
  • Авторы предлагают привязать терминологию к явным гарантиям, эталонным моделям и оценкам, соответствующим заявленным целям.

Почему это важно

По мере того как регуляция (GDPR, авторское право), соображения безопасности и требования продукта заставляют LLM-разработчиков «забывать» части данных или поведение, в сообществе появилась путаница в терминологии. Одно название используется для принципиально разных задач, что приводит к неправильной оценке исследований. Статья высвечивает проблему, которая затушевывается в публикациях: низкие метрики могут быть результатом косметических изменений, а не истинного удаления способностей модели.

Кому это важно

Исследователям, работающим с LLM-моделями и занимающимся удалением данных, защитой от вредоносных запросов, редактированием знаний или приватностью. Разработчикам ИИ-систем, которым нужно гарантировать, что модели забывают чувствительные данные. Рецензентам и авторам публикаций, которые должны понимать разницу между типами задач и правильно применять метрики.

Как это применить

При разработке механизмов удаления данных из LLM необходимо чётко определить цель: удаление влияния конкретного датасета (true unlearning), отказ от вредоносных действий (alignment), удаление отдельных фактов (knowledge editing), скрытие информации (obfuscation) или подавление поведения (suppression). Каждой цели соответствуют свои метрики и эталоны. При публикации исследования следует явно указать гарантии и использовать метрики, разработанные для данной задачи, а не переносить метрики из других контекстов.

Можно ли доверять

Позиционная статья, написанная экспертами, аргументирует проблему на примерах текущих исследований. Авторы демонстрируют конкретные случаи переиспользования метрик и показывают, как это искажает оценку исследований. Однако это критика существующей практики, а не решение; собственной методологии альтернативные метрики в статье не предложены.

Риски и подводные камни

Строгое разделение терминологии может затруднить сравнение исследований и замедлить публикацию, если авторы будут тратить больше времени на корректную классификацию. Рецензенты и редакторы могут не согласиться с новой терминологией. Кроме того, в некоторых случаях задачи пересекаются (например, удаление данных может служить и целям приватности, и целям безопасности), что усложняет однозначную классификацию. Проблема требует скоординированного принятия стандартов в сообществе.

«Путаница не только косметическая: поскольку статьи дают разные неявные гарантии под одним названием, метрики и бенчмарки часто переиспользуются за пределами их предназначения, награждая поверхностное скрытие (например, низкие ROUGE/forget accuracy) даже когда эквивалентность переобучению не проверена и полученные способности сохраняются.»

— arXiv:2606.27379, позиционная статья на английском