Beyond LoRA: есть ли жизнь после самой популярной техники файн-тюнинга

LoRA доминирует на Hugging Face Hub: 98.4% из 20k+ моделей с упоминанием PEFT используют именно LoRA, это же справедливо для image generation (95% всех PEFT чекпоинтов) и GitHub-кода. Но популярность не означает оптимальность: Hugging Face запустила объективные бенчмарки, сравнив LoRA с 40+ другими техниками PEFT в одинаковых условиях (одна модель, один датасет, одна инфра). На бенчмарке математического рассуждения (chain-of-thought) LoRA достигает 53.2% accuracy при 22.6 GB памяти, но попадает на Pareto frontier вместе с другими методами: BEFT экономит память (20.2 GB, хоть accuracy падает до 32.9%), Lily достигает лучшей точности (54.9%) ценой дополнительной памяти (25.6 GB). На бенчмарке генерации образов LoRA полностью доминирован методом OFT (0.697 vs 0.708 similarity, но OFT экономит 1 GB памяти). Автор исследования указывает на смещение в литературе: авторы бумаг мотивированы показать, что их метод лучше LoRA, и часто тратят меньше времени на tuning альтернатив.

Ключевые факты

LoRA доминирует рынок (98% на Hub), но это следствие first-mover advantage и взаимоусиления, а не объективной оптимальности
BEFT, OFT и другие методы могут побить LoRA по памяти или точности на одних датасетах, а LoRA лучше на других
Выбор техники PEFT должен быть на основе Pareto frontier вашей задачи, а не умолчания
Научные статьи о PEFT часто смещены: авторы мотивированы показать, что их техника лучше
Hugging Face PEFT library предоставляет unified API и новые бенчмарки для informed decision-making

Ред. 98% рынка выбрали LoRA, и выяснилось, что половина из них выбрала её просто потому, что все так делают. Узнаваемо.

Почему это важно

Разработчики и исследователи автоматически выбирают LoRA, потому что это известно, задокументировано и поддерживается везде. Но на конкретной задаче другая техника может дать 5% точнее или сэкономить 3 GB памяти. Объективное сравнение показало, что популярность LoRA во многом самоподдерживающаяся (лучше задокументирована, больше примеров, лучше поддерживается в экосистеме), а не потому что она лучше всегда.

Ред. Редкий случай, когда вендор инструмента честно говорит: ваш дефолтный выбор это во многом эффект толпы, а не расчёт. За это спасибо.

Кому это важно

Разработчикам, файн-тюнящим open-source модели на собственных данных; ML-инженерам, constrained по памяти или compute; исследователям в PEFT; Teams, ищущим каждый процент точности и каждый GB памяти в production.

Ред. Тем, кто реально считает каждый гигабайт и процент в продакшене. Остальным 98% LoRA так и останется удобным умолчанием, и это, честно говоря, нормально.

Как это применить

Перед выбором PEFT-метода используйте Hugging Face PEFT library и запустите quick benchmark на вашем датасете с несколькими методами (LoRA, OFT, DoRA, BEFT). Постройте Pareto frontier для вашего случая (accuracy vs memory vs runtime) и выбирайте точку на фронтьере, а не LoRA по умолчанию. Туньте гиперпараметры LoRA (rank, learning rate), прежде чем отклонять его как худший.

Ред. Главный совет спрятан в конце: сначала потюньте LoRA по-человечески, а уже потом объявляйте её худшей. Большинство «побед над LoRA» рождаются именно из пропуска этого шага.

Можно ли доверять

Исследование от Hugging Face team, которые разрабатывают PEFT library. Они явно заинтересованы в том, чтобы инструмент был полезен, но у них нет коммерческой заинтересованности продвигать один метод над другим. Однако бенчмарк limited в scope (только 2 задачи, enterprise documents синтетические, web corpus fixed).

Ред. Авторы сами признают: две задачи, синтетические документы, гиперпараметры решают всё. Честное self-awareness, но Pareto frontier на двух бенчмарках это всё ещё две точки данных.

Риски и подводные камни

Гиперпараметры могут смещать результаты: автор исследования явно признаёт это и призывает контрибьютить собственные эксперименты. Не все PEFT-методы поддерживают квантизацию, не все позволяют merging адаптера, не все работают со всеми layer types. Вам может быть нужна техника, которая не на бенчмарке. Также LoRA-FA (оптимизированный вариант LoRA) 20.2 GB против базовой LoRA 22.5 GB показывает, что даже внутри семейства LoRA есть вариация.

Ред. Даже внутри семейства LoRA разброс в 2 гигабайта. Так что мораль не «бросьте LoRA», а «перестаньте выбирать что-либо вслепую».

«One study found, for instance, that LoRA can match supposedly better PEFT techniques by tuning the learning rate.»

— Hugging Face blog