Малые правки, большие модели: как редактирование Википедии формирует ценности языковых моделей

Исследование продемонстрировало способность малой организованной группы редакторов Википедии (Pro-Animal Wikipedians, PAW) влиять на поведение больших языковых моделей. Группа произвела 125 редакций на 115 страницах, добавив обоснованный контент по защите животных. Используя градиентные методы атрибуции (Bergson, MAGIC) и инструмент TrackStar, авторы проанализировали влияние этих правок. На модели Llama 3.1 8B отредактированные PAW разделы составили 68% самых влиятельных документов для запросов о защите животных (p < 0.0001), но лишь 52% для несвязанных запросов о тех же компаниях (p = 0.53). MAGIC анализ на Llama-3.2-1B, проведенный на пяти случайных порядках обучения, показал ещё более резкий результат: во всех 5 случаях 10 наиболее влиятельных документов для запросов о животных были исключительно PAW редакциями. Эффект был в 6-30 раз больше на специализированных запросах, чем на общих. Fine-tuning отдельных моделей на PAW контенте снизил perplexity на текстах о животных с 12.4 до 8.4, в то время как контрольная модель улучшила результаты с 16.1 до 11.4 на контрольном контенте. Исследование подтверждает, что скоординированная кампания редактирования может значимо формировать, как языковые модели обрабатывают целевые темы.
Ключевые факты
- Малая группа (125 редакций на 115 страницах) заметно влияет на поведение LLM относительно своей целевой темы
- Влияние PAW контента специфично к животноводству: 68% для релевантных запросов, но только 52% для общих компаний
- Все методы (TrackStar, MAGIC, fine-tuning) показали конгруэнтные результаты с p-value < 0.0001
- Эффект масштабен: на животноводских запросах влияние PAW в 6-30 раз превышает фоновое на общих темах
- Доказана возможность предсказуемого управления ценностями LLM через целенаправленное редактирование источников обучения
Почему это важно
Источники обучения языковых моделей напрямую влияют на их значения и позиции. Понимание того, как малые группы могут формировать эти позиции через Википедию, критично для оценки подлинности и предвзятости современных AI систем.
Кому это важно
Политикам, регуляторам и разработчикам LLM, занимающимся этикой AI. Активистам, осознающим возможность влияния. Исследователям, изучающим интерпретируемость и происхождение модельных убеждений.
Как это применить
Организации могут стратегически редактировать Википедию для влияния на позиции LLM по важным для них темам. Разработчики моделей должны учитывать вес Википедии в наборах данных и рассмотреть диверсификацию источников обучения, чтобы снизить уязвимость к целенаправленному редактированию.
Можно ли доверять
Методология строга: использованы несколько независимых техник атрибуции (TrackStar, MAGIC, leave-subset-out валидация) на разных моделях. Все показали согласованные результаты. Статистическая значимость высока (p < 0.0001). Однако исследование ограничено двумя моделями Llama и одной тематической областью.
Риски и подводные камни
Переносимость результатов на закрытые модели (GPT, Claude) неясна. Исследование изучало только английскую Википедию и одну причинную область. Очень небольшой объём редакций (125) может быть нетипичен для более масштабных кампаний. Скоординированное редактирование рассматривается как легитимное в Википедии, но этот результат может подтолкнуть на более систематизированные скрытые кампании.