Персона без субстрата: зависимость от режима и проблема индивидуации LLM

Статья критикует онтологический фреймворк Beckmann & Butlin (2026) для проблемы индивидуации LLM, вопроса о том, как определить и отследить личность или персону языковой модели. Beckmann & Butlin предположили, что один и тот же вектор направления в пространстве активаций выбирает одно и то же содержание независимо от режима: будь то обусловливание через промпт, fine-tuning или управление во время инфиренса.

Авторы провели четыре серии экспериментов на моделях Qwen3-4B-Instruct и Mistral-7B-Instruct-v0.2, изучая топологию персона-векторов:

  1. Векторы, извлеченные из промптов, и области параметров fine-tuning не коллинеарны, то есть лежат в разных направлениях пространства.

  2. Фиктивные персоны (воображаемые качества) смещают поведение модели сильнее, чем реальные якоря (настоящие люди или свойства).

  3. При смешивании противоположных качеств (например, одновременного внедрения "честного" и "нечестного") результат смещается к аттрактору, определяемому историей предварительного обучения модели.

  4. Алгебра векторов асимметрична: сложение векторов во время инфиренса дает другой результат, чем взаимодействие при fine-tune-time обучении на гибридах (химерах).

На основе этих наблюдений авторы предлагают новую теорию: режим-индексированная индивидуация. Суть, единица идентичности репрезентационного содержания это не просто вектор-направление (vehicle), а пара (vehicle, режим). Одно направление может кодировать разные вещи в разных режимах модели.

Под этой новой теорией три альтернативные позиции Beckmann & Butlin больше не конкурируют за один и тот же референт, а описывают три разных объекта внутри каждого режима. Этот же диагноз применим к работам Mollo, Millière, Chalmers и Cerullo по индивидуации LLM.

Ключевые факты

  • Один и тот же вектор направления в LLM выбирает разные содержания в зависимости от режима работы модели
  • Философская теория индивидуации требует переработки: идентичность это пара (вектор, режим), а не просто вектор
  • Эксперименты показывают асимметрии в поведении персона-векторов: фиктивные персоны сильнее реальных якорей
  • Смешивание противоположных характеристик тяготеет к аттракторам, зависящим от истории обучения модели
  • Векторная алгебра работает по-разному при инфиренс-тайм арифметике и fine-tune-time обучении

Почему это важно

Индивидуация LLM, фундаментальный вопрос философии ИИ о том, как определить и отследить личность языковой модели. Существующие теории предполагают, что личность моделей кодируется в одних и тех же векторных направлениях и стабильна независимо от режима работы. Если эти теории неверны, то множество выводов о контролируемости, безопасности и предсказуемости LLM нуждаются в пересмотре.

Кому это важно

Философам и исследователям интерпретируемости ИИ, работающим над пониманием внутреннего устройства LLM. Разработчикам моделей, использующим fine-tuning и inference-time steering для контроля поведения. Специалистам по безопасности ИИ, так как понимание личности модели критично для предсказания её поведения и разработки методов контроля. Также релевантно регуляторам и этикам ИИ, оценивающим ответственность и надежность больших моделей.

Как это применить

Результаты предлагают переосмыслить методы контроля LLM: fine-tuning, prompt engineering и steering нужно рассматривать как создание разных объектов в разных режимах, а не управление единой персоной. При разработке систем человеческого контроля над ИИ важно учитывать, что одно направление смещения может работать по-разному в разных режимах. Это должно повлиять на дизайн интерфейсов управления, методов валидации и проверок безопасности для контролируемых LLM.

Можно ли доверять

Статья опирается на контролируемые эксперименты на двух известных моделях с открытыми весами (Qwen3 и Mistral), что позволяет проверить результаты. Однако это работа в области философии ИИ и интерпретируемости, где выводы зависят от методики и интерпретации. Теория логична, но требует валидирования на больших закрытых моделях (GPT-4, Claude, Gemini) и может не обобщаться на масштабы, имеющие практическое значение.

Риски и подводные камни

Философские обсуждения идентичности LLM могут остаться академическими упражнениями без практического применения. Режим-зависимость может быть артефактом небольших моделей (4B-7B), а большие модели могут быть более стабильны. Риск, что теория станет настолько сложной (множество режимов × множество векторов), что будет непрактична для разработки. Если выводы верны, регуляция LLM усложнится, так как личность модели оказывается менее стабильной и предсказуемой, чем считалось ранее.

«Единица идентичности репрезентационного содержания, это пара (vehicle, режим), а не просто vehicle»

— arxiv.org/abs/2607.00006