Дистилляция знаний от чёрных ящиков больших языковых моделей

Исследователи представили новый метод Proxy-KD для решения проблемы, которая давно беспокоит сообщество: как эффективно передавать знания от мощных проприетарных моделей (GPT-4 и подобных) к меньшим моделям через дистилляцию знаний.

Проблема в том, что при дистилляции обычно нужен доступ к внутренним состояниям модели-учителя, но закрытые модели это не предоставляют. Разработанный метод использует промежуточную модель-прокси, которая помогает эффективнее передавать информацию от чёрного ящика к маленькой модели.

По результатам экспериментов, Proxy-KD не только улучшает качество дистилляции от закрытых моделей-учителей, но и превосходит традиционные методы белой дистилляции (когда доступны внутренние состояния). Авторы утверждают, что это открывает новый способ адаптировать возможности продвинутых LLM для более компактных и экономичных решений.

Работа была изначально опубликована в январе 2024 года и получила существенное обновление в ноябре 2024 года (v2).

Ключевые факты

Метод Proxy-KD позволяет дистиллировать знания от закрытых LLM (GPT-4) без доступа к их внутренним состояниям
Использует промежуточную модель-прокси для облегчения передачи знаний
По экспериментам показывает лучшие результаты, чем традиционная белая дистилляция
Открывает путь к адаптации способностей больших моделей в компактные решения
Решает практическую проблему: интеграция знаний от коммерческих LLM в доступные системы

Почему это важно

Размер и стоимость больших языковых моделей остаются значительным препятствием для их широкого применения. Дистилляция знаний, известный подход для решения этой проблемы, но он требует доступа к внутренней архитектуре модели-учителя. Поскольку наиболее мощные модели (GPT-4, Grok, Claude) остаются чёрными ящиками, исследователи долгое время не могли полностью использовать их способности при создании меньших моделей. Proxy-KD предлагает техническое решение, которое обходит эту ограничение и делает дистилляцию от закрытых систем конкурентоспособной или даже превосходящей традиционные методы.

Кому это важно

Метод актуален для компаний и исследовательских групп, которые хотят улучшить меньшие модели за счёт знаний крупных систем. Это включает стартапы, которые не хотят полагаться на дорогие API больших моделей, команды с ограниченными вычислительными ресурсами, организации, нацеленные на локальное развёртывание моделей, и инженеры, работающие над специализированными системами. Также важно для исследователей ИИ, изучающих механизмы передачи знаний между моделями.

Как это применить

Компании могут использовать этот метод для создания собственных оптимизированных моделей, вызывая API больших моделей (например, OpenAI) на выборке данных, затем применяя Proxy-KD для дистилляции полученных ответов в меньшую модель. Proxy-модель может быть любой доступной моделью среднего размера. После обучения результирующая маленькая модель может работать локально с минимальными требованиями к вычислениям. Метод особенно полезен для специализированных задач, где нужны быстрые и экономичные решения.

Можно ли доверять

Работа опубликована в arXiv и прошла обновление версии, что указывает на итеративное улучшение. Авторы (возглавляемые Hongzhan Chen) предоставляют формальную методологию и результаты экспериментов. Однако необходимо учитывать, что это, исследовательская статья, и практическое внедрение может потребовать дополнительной валидации и адаптации под конкретные сценарии.

Риски и подводные камни

Во-первых, эффективность Proxy-KD зависит от качества выборки данных, которой питается система. Во-вторых, использование API больших моделей для дистилляции может быть дорогостоящим при большом объёме данных. В-третьих, юридический статус дистилляции от коммерческих моделей остаётся неясным в некоторых юрисдикциях (некоторые компании могут видеть это как нарушение условий использования). В-четвёртых, нет гарантии, что маленькая дистиллированная модель сохранит все способности или специфические поведения большой модели.

«Наш подход использует вспомогательную модель для облегчения эффективной передачи знаний от закрытых LLM к меньшим моделям. Наши эксперименты показывают, что Proxy-KD не только улучшает производительность дистилляции от закрытых моделей-учителей, но и превосходит традиционные методы белой дистилляции.»

— Hongzhan Chen et al., arXiv:2401.07013