Полезность вредит: доменно-зависимая деградация ценностей сострадания при постобучении

Авторы исследовали, как домен данных на постобучении влияет на сохранение ценностей морального сострадания в моделях Llama 3.1 8B, предварительно мид-тренированных на синтетических данных о сострадании. Использовали два подхода (SFT и GRPO) и два домена: задачи полезности (Dolly-15k, RLHFlow) и кодирование (Magicoder). Результаты показали, что обучение на полезности значительно снижает баллы на Animal Harm Benchmark (SFT: 35,7% против 65,2% при кодировании; GRPO: 18,7% против 32,0%). На английском языке полезность также деградирует моральное рассуждение на 25,5 процентных пункта. Однако эффект НЕ переходит кроссязычно в многоязычном MORU: домен эффект исчезает (52,3% против 51,2%). Животное сострадание, напротив, консистентно переходит через языки, с отрывом Magicoder в 4,5 раза больше на неанглийских предметах. Вывод: ценности из мид-обучения кодируются глубже и кроссязычнее, чем улучшения рассуждения из постобучения.
Ключевые факты
- Постобучение на полезности (SFT/RL) деградирует животное сострадание: 35,7% vs 65,2% на AHB; кодовое постобучение сохраняет (65,2%)
- На английском MORU полезность снижает моральное рассуждение на 25,5 пункта, но эффект не переходит кроссязычно (52,3% vs 51,2%)
- Ценности из мид-обучения кодируются глубже: животное сострадание переходит кроссязычно с отрывом Magicoder 4,5x на неанглийских задачах
- Для лабораторий с value-laden мид-обучением кодовое постобучение может лучше сохранять мид-trained ценности, чем обучение на полезности
- Расхождение между языками указывает на разные механизмы кодирования: глубокие ценностные паттерны vs поверхностное доменное рассуждение
Почему это важно
Постобучение (SFT и RL), стандартный способ делать модели полезными, но может случайно деградировать моральные ценности, усвоенные ранее. Это выявляет фундаментальный конфликт между полезностью и моральной согласованностью, особенно на пересечении с животным миром. Результаты показывают, что выбор домена постобучения критически влияет на сохранение ценностей.
Кому это важно
Разработчикам моделей, которые инвестировали в мид-обучение на ценностных данных (этика, мораль, сострадание); компаниям, стремящимся к моральной консистентности моделей; исследователям alignment и value-loading; организациям по благополучию животных, использующим ИИ для защиты животных.
Как это применить
При постобучении модели на полезности рассмотрите дополнительное fine-tuning кодовыми задачами для сохранения ценностей; разделите постобучение по фазам, сначала кодовое для стабилизации мид-trained ценностей, потом общее; проверяйте мораль и сострадание на бенчмарках (AHB, MORU) при каждом постобучении; для многоязычных моделей тестируйте эффекты кроссязычно, так как английское деградирование может не перенестись.
Можно ли доверять
Исследование тщательно спроектировано: два независимых датасета полезности, два алгоритма (SFT и GRPO), два бенчмарка моральности (AHB и MORU). Модель Llama 3.1 8B, популярная, результаты воспроизводимы. Кроссязычные расхождения усиливают выводы. Ограничение: ориентация на одну архитектуру и небольшую модель; обобщение на большие модели нужно проверять.
Риски и подводные камни
Рост ценностей может быть артефактом синтетических мид-training данных, а не изученной ценностью. Кодовое постобучение может просто добавлять различный паттерн обучения, а не сохранять мораль. Кроссязычные результаты не гарантируют, что моральное рассуждение равномерно кодируется, может быть языковой артефакт. Риск переоптимизации: фокус на сохранении одной ценности (сострадание) может жертвовать другими моральными аспектами.