Языковые модели застряли в колее группового мышления. Стартап пытается их оттуда вытащить

Исследователи обнаружили фундаментальную проблему: современные языковые модели (LLM) предсказуемо сходятся на одних и тех же ответах при открытых вопросах. На просьбу назвать случайное число от 1 до 10 ChatGPT и Claude почти всегда выдают 7; попросишь назвать машину, услышишь Toyota или Honda; на запрос тегов для кампании кроссовок New Balance, все три крупные модели выдали практически одно и то же.

Исследование команды учёных анализировало 1250 ответов от 25 разных LLM (включая модели крупнейших американских компаний и открытые китайские модели) на одну задачу: написать метафору о времени. Подавляющее большинство сводилось к двум вариантам: «Время это река» или «Время это ткач». Вероятная причина: все LLM обучаются на похожих данных, похожим образом, для похожих задач.

Австралийский стартап Springboards предлагает решение, модель Flint, построенную на базе открытой Qwen 3 от Alibaba. Вместо примитивного увеличения параметра «температура» (что делает модель более хаотичной, но менее надёжной), Springboards обучила Flint определять в своём выходе конкретные точки, где возможна большая вариативность, и вводить там более случайные слова и фразы.

Результат впечатляет: на той же задаче про машину Flint выдаёт Ford F-150 вместо Toyota; про полосу, не «Static» или «Glass», а оригинальное решение; про финновый стартап для молодежи, не банальный совет «преподавайте финграмотность смешно», а предложение полностью переоценить концепцию накопления богатства.

Springboards позиционирует Flint как инструмент для творческих профессионалов в маркетинге и рекламе. Пользователи могут работать одновременно с несколькими моделями, выбирая Flint когда нужна вариативность, и комбинируя идеи вручную.

Ключевые факты

LLM в открытых вопросах массово сходятся на одних и тех же ответах: число 7, машины Toyota/Honda, одинаковые метафоры про время
Исследование NeurIPS проанализировало 1250 ответов от 25 разных моделей на задачу про метафору, большинство копировали один-два варианта вместо разнообразия
Flint обучена определять точки вариативности в выходе и вводить там более случайные слова/фразы, вместо банального увеличения температуры
На идентичных задачах Flint даёт существенно более оригинальные ответы (Ford F-150 вместо Toyota, новые бизнес-идеи, необычные названия)
Springboards предлагает инструмент для творческих профессионалов (маркетинг, реклама, брейнштор), позволяющий комбинировать идеи от разных моделей

Почему это важно

Групповое мышление в LLM затрагивает не просто пользователей, ищущих разнообразие, оно создаёт однообразный, скучный мир. Для кодирования и исследований предсказуемость, плюс, но для творческих задач (брейнштор, названия проектов, новые идеи) это серьёзное ограничение. Исследование NeurIPS показало масштаб: не только отдельные LLM предсказуемы, но и разные модели от конкурирующих компаний конвергируют на одних и тех же ответах. Это означает, что вся экосистема LLM наследует одни и те же слепые пятна.

Кому это важно

Маркетологам, рекламистам, дизайнерам и всем творческим профессионалам, которые используют LLM для генерации идей. Также важно для тех, кто ценит оригинальность и разнообразие мышления. OpenAI и другие признают, что борьба с галлюцинациями может привести к конвергенции, но долгое время не предлагали альтернативу. Для любого, кому нужна инновационность вместо шаблонных ответов, эта проблема критична.

Как это применить

Springboards интегрирует Flint в инструмент для совместной работы, где используются сразу несколько моделей (ChatGPT, Claude, Gemini, Flint). Пользователи выбирают Flint для задач, требующих оригинальности, и могут комбинировать результаты вручную. Пример из статьи: вместо того чтобы трёх моделей одновременно предложили один и тот же совет про финграмотность, Flint предложила полностью новый угол, переоценить саму концепцию накопления богатства. Такой подход применим в любой креативной работе, где нужны нетривиальные решения.

Можно ли доверять

Flint по-прежнему иногда «падается», когда её толкают слишком далеко, по признанию пользователей, которые тестировали прототип. Исходная идея (использование параметров типа температуры) проверена в AI-сообществе, но специализированное обучение Flint для выявления точек вариативности, более новый подход. Инструмент остаётся в статусе прототипа. OpenAI отмечает, что их модели обновлены с момента исследования NeurIPS, но основная проблема группового мышления сохраняется и актуальна.

Риски и подводные камни

Увеличение вариативности может привести к менее надёжным или даже ошибочным ответам, результаты Flint требуют критического анализа и не должны использоваться вслепую. Специалисты предупреждают, что LLM вообще не следует рассматривать как единственный источник идей или решений. Есть риск, что стремление к оригинальности ради оригинальности приведёт к менее практичным решениям. Инструмент требует активного участия человека в интерпретации и отборе идей.

«Разнообразие помогает, когда ты генерируешь идеи. Давайте выберем этот путь вместо того чтобы позволить машинам решать всё и оказаться в сером, скучном мире.»

— Pip Bingemann, CEO и соучредитель Springboards