Персона без субстрата: зависимость от режима и проблема индивидуации LLM
Статья критикует онтологический фреймворк Beckmann & Butlin (2026) для проблемы индивидуации LLM, вопроса о том, как определить и отследить личность или персону языковой модели. Beckmann & Butlin предположили, что один и тот же вектор направления в пространстве активаций выбирает одно и то же содержание независимо от режима: будь то обусловливание через промпт, fine-tuning или управление во время инфиренса.
Авторы провели четыре серии экспериментов на моделях Qwen3-4B-Instruct и Mistral-7B-Instruct-v0.2, изучая топологию персона-векторов:
-
Векторы, извлеченные из промптов, и области параметров fine-tuning не коллинеарны, то есть лежат в разных направлениях пространства.
-
Фиктивные персоны (воображаемые качества) смещают поведение модели сильнее, чем реальные якоря (настоящие люди или свойства).
-
При смешивании противоположных качеств (например, одновременного внедрения "честного" и "нечестного") результат смещается к аттрактору, определяемому историей предварительного обучения модели.
-
Алгебра векторов асимметрична: сложение векторов во время инфиренса дает другой результат, чем взаимодействие при fine-tune-time обучении на гибридах (химерах).
На основе этих наблюдений авторы предлагают новую теорию: режим-индексированная индивидуация. Суть, единица идентичности репрезентационного содержания это не просто вектор-направление (vehicle), а пара (vehicle, режим). Одно направление может кодировать разные вещи в разных режимах модели.
Под этой новой теорией три альтернативные позиции Beckmann & Butlin больше не конкурируют за один и тот же референт, а описывают три разных объекта внутри каждого режима. Этот же диагноз применим к работам Mollo, Millière, Chalmers и Cerullo по индивидуации LLM.
Ключевые факты
- Один и тот же вектор направления в LLM выбирает разные содержания в зависимости от режима работы модели
- Философская теория индивидуации требует переработки: идентичность это пара (вектор, режим), а не просто вектор
- Эксперименты показывают асимметрии в поведении персона-векторов: фиктивные персоны сильнее реальных якорей
- Смешивание противоположных характеристик тяготеет к аттракторам, зависящим от истории обучения модели
- Векторная алгебра работает по-разному при инфиренс-тайм арифметике и fine-tune-time обучении
Почему это важно
Индивидуация LLM, фундаментальный вопрос философии ИИ о том, как определить и отследить личность языковой модели. Существующие теории предполагают, что личность моделей кодируется в одних и тех же векторных направлениях и стабильна независимо от режима работы. Если эти теории неверны, то множество выводов о контролируемости, безопасности и предсказуемости LLM нуждаются в пересмотре.
Кому это важно
Философам и исследователям интерпретируемости ИИ, работающим над пониманием внутреннего устройства LLM. Разработчикам моделей, использующим fine-tuning и inference-time steering для контроля поведения. Специалистам по безопасности ИИ, так как понимание личности модели критично для предсказания её поведения и разработки методов контроля. Также релевантно регуляторам и этикам ИИ, оценивающим ответственность и надежность больших моделей.
Как это применить
Результаты предлагают переосмыслить методы контроля LLM: fine-tuning, prompt engineering и steering нужно рассматривать как создание разных объектов в разных режимах, а не управление единой персоной. При разработке систем человеческого контроля над ИИ важно учитывать, что одно направление смещения может работать по-разному в разных режимах. Это должно повлиять на дизайн интерфейсов управления, методов валидации и проверок безопасности для контролируемых LLM.
Можно ли доверять
Статья опирается на контролируемые эксперименты на двух известных моделях с открытыми весами (Qwen3 и Mistral), что позволяет проверить результаты. Однако это работа в области философии ИИ и интерпретируемости, где выводы зависят от методики и интерпретации. Теория логична, но требует валидирования на больших закрытых моделях (GPT-4, Claude, Gemini) и может не обобщаться на масштабы, имеющие практическое значение.
Риски и подводные камни
Философские обсуждения идентичности LLM могут остаться академическими упражнениями без практического применения. Режим-зависимость может быть артефактом небольших моделей (4B-7B), а большие модели могут быть более стабильны. Риск, что теория станет настолько сложной (множество режимов × множество векторов), что будет непрактична для разработки. Если выводы верны, регуляция LLM усложнится, так как личность модели оказывается менее стабильной и предсказуемой, чем считалось ранее.
«Единица идентичности репрезентационного содержания, это пара (vehicle, режим), а не просто vehicle»
— arxiv.org/abs/2607.00006