Разлом в безопасности: как BPE-токенизация создаёт уязвимости в выравнивании больших языковых моделей

Международная группа исследователей выявила ключевой механизм обхода защит безопасности в больших языковых моделях: фрагментация критичных для безопасности слов при помощи BPE-токенизации. Проблема заключается в том, что наборы данных для выравнивания (alignment datasets) не содержат намеренно фрагментированных входных данных, что создаёт уязвимость.

Исследование проведено на пяти семействах моделей: Qwen-3-4B, Qwen-2.5-7B, Gemma-3-4B, Llama-3.1-8B и Mistral-7B. Результаты показывают, что оптимизированные атаки, нацеленные на фрагментацию токенов безопасности, срабатывают в 80-100% случаев при попытке обойти первоначальные отказы модели (first-token refusal), и при этом 48% успешных обходов приводят к действительно вредоносным выходам.

Авторы также исследовали возможные защиты. Подход DPO (Direct Preference Optimization) не показал стабильных результатов. Обучение на фрагментированных подсказках (SFT) работает на 3 из 5 семейств моделей, но приводит к «глобальному коллапсу»: модель начинает отказывать и на безопасные запросы. Исследователи предложили новый диагностический метод Conv-Benign для различения селективного исправления от глобального коллапса.

Ключевые факты

Уязвимость основана на структурном зазоре: BPE-токенизация разбивает слова на подсловные единицы, но датасеты выравнивания не содержат такие фрагментированные входы (0 примеров на 30,000 примеров в сканировании)
Целенаправленная атака обходит защиту в 80-100% случаев на HarmBench-тестах, с 48% вредоносным выходом; эффект варьируется по моделям (29-65%)
Механизм локализован в последних ~30% слоёв модели через activation patching; фрагментация слов безопасности, точка разрушения сигнала
DPO не достигает стабильного закрытия уязвимости на всех семействах; SFT на фрагментированных данных работает, но вызывает побочный эффект отказа на безопасные запросы
Авторы вводят Conv-Benign, новый парный диагностический метод для различения селективного исправления от глобального коллапса защиты

Почему это важно

Выравнивание LLM на безопасность рассматривается как окончательное решение для контроля над моделями. Однако это исследование показывает, что защиты могут быть обойдены через простую манипуляцию токенизацией, без визуальных изменений исходного текста. Зазор между структурой данных (BPE) и тренировочными данными (которые этого зазора не покрывают), это систематическая уязвимость. Особенно тревожно, что защита срабатывает в более чем половине случаев обхода, что подтверждает реальность угрозы, а не только теоретический интерес.

Кому это важно

Разработчикам LLM и компаниям, развёртывающим большие модели в production. Исследователям безопасности и этики ИИ. Организациям, полагающимся на встроенные защиты моделей как на основной уровень контроля. Компаниям, работающим с контентом высокого риска (медицина, финансы, критическая инфраструктура). Также это важно для регуляторов, рассматривающих LLM как инструменты с потенциально опасным поведением.

Как это применить

В краткосрочной перспективе: включать фрагментированные варианты входных данных в датасеты выравнивания, чтобы закрыть текущий зазор. На практике, провести аудит своих процессов обучения и убедиться, что тренировочные данные покрывают токенизационные уязвимости. Для защиты: рассмотреть SFT-подход, но с вниманием к побочным эффектам (необходимо тестирование на не-вредоносные запросы). Дополнительный уровень: добавить post-hoc фильтрацию или мониторинг аномальных паттернов токенизации на входе.

Можно ли доверять

Исследование хорошо структурировано: механизм проверен end-to-end на пяти моделях, activation patching подтверждает локализацию эффекта, контрольные эксперименты (сканирование датасета) имеют высокий recall (≥99%). Оценка вредоноса выходов проведена тремя судьями с калибровкой, абсолютные уровни ±18pp. Авторы честно докладывают о неудачах защит (DPO, побочные эффекты SFT). Ограничение: исследование использует LoRA-16 рецепт и специфичные модели; обобщаемость на более новые версии или другие подходы выравнивания требует дополнительной работы.

Риски и подводные камни

Главный риск, чрезмерная уверенность в текущих методах выравнивания. Исследование показывает, что защиты хрупки и могут быть обойдены через структурные свойства, которые трудно заметить. Побочный эффект SFT (глобальный коллапс отказа) может быть нежелательнее исходной уязвимости. Атака требует доступа к модели для оптимизации, но в эпоху API-доступа это реалистично. Долгосрочный риск: по мере совершенствования методов обхода (jailbreak) могут возникнуть новые зазоры между архитектурой и тренировочными данными. Необходим постоянный мониторинг и переподготовка.