Управление языком в LLM: почему прилагательные работают по-разному на разных моделях

Как управлять LLM через язык (prompt engineering) остаётся черным ящиком. Авторы предложили строгий фреймворк через Shapley-значения для количественного измерения влияния отдельных прилагательных на производительность модели. Тестировали 100 прилагательных на 5 архитектурах (o3, gpt-4o-mini, phi-3, llama-3-70b, deepseek-r1) на MMLU-бенчмарке. Ключевые находки: (1) малое подмножество прилагательных работает как мощные "рычаги" управления; (2) эффект не универсален, модели одной линии (e.g., семейство GPT) реагируют коррелированно, архитектурно разные модели независимо; (3) направление эффекта зависит от синтаксического места в промпте; (4) в больших моделях (o3, gpt-4o) появляются неаддитивные взаимодействия, где одно прилагательное может усилить, ослабить или обратить эффект другого.
Ключевые факты
- Тестировали 100 прилагательных через Shapley-значения на 5 моделях разных архитектур
- Найдены мощные "управляющие" прилагательные, эффект которых не универсален
- Модели одного семейства (например, GPT) показывают коррелированную чувствительность к одним словам
- Разные архитектуры реагируют независимо, опровергая идею one-size-fits-all prompting
- В больших моделях типичны нелинейные взаимодействия: комбинация прилагательных может менять эффект друг друга
Ред. Сто прилагательных через Shapley-значения, и главный вывод почти философский: одно и то же слово в разных моделях значит разное.
Почему это важно
Prompt engineering часто полагается на анекдотичные хвосты ("be precise", "think step-by-step"). Эта работа впервые количественно измеряет эффект и обнаруживает, что управление языком сложнее, чем считалось. Одно слово в GPT-4 может иметь совсем другой эффект в Claude. Это объясняет, почему один промпт работает в одной модели, но не в другой.
Ред. Наконец-то под народную примету «be precise помогает» подвели измерения и выяснили, что примета работает выборочно и не везде.
Кому это важно
Авторам prompt-инженеров (System 1 или приватные системы); исследователям AI alignment (попытки контролировать поведение); авторам LLM-фреймворков (LangChain, LlamaIndex); компаниям, деплоящим несколько моделей одновременно.
Ред. Всем, кто держит в проде сразу несколько моделей и до сих пор верил, что один удачный промпт переедет из GPT в Claude без потерь.
Как это применить
Если вы используете несколько моделей (Claude, GPT, Llama), проверяйте промпты на каждой, один не подойдёт для всех. Для сложных задач избегайте ставить в один промпт конфликтующие прилагательные ("be precise" + "be creative"). Для каждой модели подготавливайте переменные версии промпта, особенно если результаты критичны. Если вы обучаете RLHF, помните, что Language steering compositional только для больших моделей, маленькие модели интерпретируют слова более буквально.
Ред. Главное прикладное следствие невесёлое: универсального промпта нет, так что готовьте отдельную версию под каждую модель и тестируйте всё заново после каждого апдейта.
Можно ли доверять
arXiv-статья с rigorous фреймворком (Shapley-значения) и множественными бенчмарками. Результаты тестированы на популярных моделях (o3, GPT-4o, Llama-70b, DeepSeek). Метод хорошо объясняется. Однако эта работа ещё не в конференции, и масштаб тестов (100 прилагательных на одном бенчмарке MMLU) может не полностью отражать поведение на других задачах.
Ред. Фреймворк строгий, модели взяты популярные, но это препринт, а сто прилагательных на одном MMLU это всё-таки не вся вселенная задач.
Риски и подводные камни
Shapley-значения вычислительно дорогие, могут быть шумные на малых выборках. Эффекты, найденные на MMLU (тесты на знания), могут не переноситься на генерацию текста или code. Формулировка прилагательного ("be precise" vs "precisely") может сильно менять эффект. Большие модели быстро обновляются, и промпты, спроектированные сегодня, могут не работать на следующей версии.
Ред. Shapley-значения дороги и шумны, эффекты с теста на знания не обязаны переноситься на генерацию, а сама формулировка («be precise» против «precisely») способна перевернуть результат.
«As models scale, their interpretation of prompts becomes more sophisticated but also less predictable, posing a significant challenge for robustly steering model behavior.»
— Авторы статьи