Малые правки, большие модели: как редактирование Википедии формирует ценности языковых моделей

Исследование продемонстрировало способность малой организованной группы редакторов Википедии (Pro-Animal Wikipedians, PAW) влиять на поведение больших языковых моделей. Группа произвела 125 редакций на 115 страницах, добавив обоснованный контент по защите животных. Используя градиентные методы атрибуции (Bergson, MAGIC) и инструмент TrackStar, авторы проанализировали влияние этих правок. На модели Llama 3.1 8B отредактированные PAW разделы составили 68% самых влиятельных документов для запросов о защите животных (p < 0.0001), но лишь 52% для несвязанных запросов о тех же компаниях (p = 0.53). MAGIC анализ на Llama-3.2-1B, проведенный на пяти случайных порядках обучения, показал ещё более резкий результат: во всех 5 случаях 10 наиболее влиятельных документов для запросов о животных были исключительно PAW редакциями. Эффект был в 6-30 раз больше на специализированных запросах, чем на общих. Fine-tuning отдельных моделей на PAW контенте снизил perplexity на текстах о животных с 12.4 до 8.4, в то время как контрольная модель улучшила результаты с 16.1 до 11.4 на контрольном контенте. Исследование подтверждает, что скоординированная кампания редактирования может значимо формировать, как языковые модели обрабатывают целевые темы.

Ключевые факты

Малая группа (125 редакций на 115 страницах) заметно влияет на поведение LLM относительно своей целевой темы
Влияние PAW контента специфично к животноводству: 68% для релевантных запросов, но только 52% для общих компаний
Все методы (TrackStar, MAGIC, fine-tuning) показали конгруэнтные результаты с p-value < 0.0001
Эффект масштабен: на животноводских запросах влияние PAW в 6-30 раз превышает фоновое на общих темах
Доказана возможность предсказуемого управления ценностями LLM через целенаправленное редактирование источников обучения

Почему это важно

Источники обучения языковых моделей напрямую влияют на их значения и позиции. Понимание того, как малые группы могут формировать эти позиции через Википедию, критично для оценки подлинности и предвзятости современных AI систем.

Кому это важно

Политикам, регуляторам и разработчикам LLM, занимающимся этикой AI. Активистам, осознающим возможность влияния. Исследователям, изучающим интерпретируемость и происхождение модельных убеждений.

Как это применить

Организации могут стратегически редактировать Википедию для влияния на позиции LLM по важным для них темам. Разработчики моделей должны учитывать вес Википедии в наборах данных и рассмотреть диверсификацию источников обучения, чтобы снизить уязвимость к целенаправленному редактированию.

Можно ли доверять

Методология строга: использованы несколько независимых техник атрибуции (TrackStar, MAGIC, leave-subset-out валидация) на разных моделях. Все показали согласованные результаты. Статистическая значимость высока (p < 0.0001). Однако исследование ограничено двумя моделями Llama и одной тематической областью.

Риски и подводные камни

Переносимость результатов на закрытые модели (GPT, Claude) неясна. Исследование изучало только английскую Википедию и одну причинную область. Очень небольшой объём редакций (125) может быть нетипичен для более масштабных кампаний. Скоординированное редактирование рассматривается как легитимное в Википедии, но этот результат может подтолкнуть на более систематизированные скрытые кампании.