Beyond LoRA: есть ли жизнь после самой популярной техники файн-тюнинга

LoRA доминирует на Hugging Face Hub: 98.4% из 20k+ моделей с упоминанием PEFT используют именно LoRA, это же справедливо для image generation (95% всех PEFT чекпоинтов) и GitHub-кода. Но популярность не означает оптимальность: Hugging Face запустила объективные бенчмарки, сравнив LoRA с 40+ другими техниками PEFT в одинаковых условиях (одна модель, один датасет, одна инфра). На бенчмарке математического рассуждения (chain-of-thought) LoRA достигает 53.2% accuracy при 22.6 GB памяти, но попадает на Pareto frontier вместе с другими методами: BEFT экономит память (20.2 GB, хоть accuracy падает до 32.9%), Lily достигает лучшей точности (54.9%) ценой дополнительной памяти (25.6 GB). На бенчмарке генерации образов LoRA полностью доминирован методом OFT (0.697 vs 0.708 similarity, но OFT экономит 1 GB памяти). Автор исследования указывает на смещение в литературе: авторы бумаг мотивированы показать, что их метод лучше LoRA, и часто тратят меньше времени на tuning альтернатив.
Ключевые факты
- LoRA доминирует рынок (98% на Hub), но это следствие first-mover advantage и взаимоусиления, а не объективной оптимальности
- BEFT, OFT и другие методы могут побить LoRA по памяти или точности на одних датасетах, а LoRA лучше на других
- Выбор техники PEFT должен быть на основе Pareto frontier вашей задачи, а не умолчания
- Научные статьи о PEFT часто смещены: авторы мотивированы показать, что их техника лучше
- Hugging Face PEFT library предоставляет unified API и новые бенчмарки для informed decision-making
Ред. 98% рынка выбрали LoRA, и выяснилось, что половина из них выбрала её просто потому, что все так делают. Узнаваемо.
Почему это важно
Разработчики и исследователи автоматически выбирают LoRA, потому что это известно, задокументировано и поддерживается везде. Но на конкретной задаче другая техника может дать 5% точнее или сэкономить 3 GB памяти. Объективное сравнение показало, что популярность LoRA во многом самоподдерживающаяся (лучше задокументирована, больше примеров, лучше поддерживается в экосистеме), а не потому что она лучше всегда.
Ред. Редкий случай, когда вендор инструмента честно говорит: ваш дефолтный выбор это во многом эффект толпы, а не расчёт. За это спасибо.
Кому это важно
Разработчикам, файн-тюнящим open-source модели на собственных данных; ML-инженерам, constrained по памяти или compute; исследователям в PEFT; Teams, ищущим каждый процент точности и каждый GB памяти в production.
Ред. Тем, кто реально считает каждый гигабайт и процент в продакшене. Остальным 98% LoRA так и останется удобным умолчанием, и это, честно говоря, нормально.
Как это применить
Перед выбором PEFT-метода используйте Hugging Face PEFT library и запустите quick benchmark на вашем датасете с несколькими методами (LoRA, OFT, DoRA, BEFT). Постройте Pareto frontier для вашего случая (accuracy vs memory vs runtime) и выбирайте точку на фронтьере, а не LoRA по умолчанию. Туньте гиперпараметры LoRA (rank, learning rate), прежде чем отклонять его как худший.
Ред. Главный совет спрятан в конце: сначала потюньте LoRA по-человечески, а уже потом объявляйте её худшей. Большинство «побед над LoRA» рождаются именно из пропуска этого шага.
Можно ли доверять
Исследование от Hugging Face team, которые разрабатывают PEFT library. Они явно заинтересованы в том, чтобы инструмент был полезен, но у них нет коммерческой заинтересованности продвигать один метод над другим. Однако бенчмарк limited в scope (только 2 задачи, enterprise documents синтетические, web corpus fixed).
Ред. Авторы сами признают: две задачи, синтетические документы, гиперпараметры решают всё. Честное self-awareness, но Pareto frontier на двух бенчмарках это всё ещё две точки данных.
Риски и подводные камни
Гиперпараметры могут смещать результаты: автор исследования явно признаёт это и призывает контрибьютить собственные эксперименты. Не все PEFT-методы поддерживают квантизацию, не все позволяют merging адаптера, не все работают со всеми layer types. Вам может быть нужна техника, которая не на бенчмарке. Также LoRA-FA (оптимизированный вариант LoRA) 20.2 GB против базовой LoRA 22.5 GB показывает, что даже внутри семейства LoRA есть вариация.
Ред. Даже внутри семейства LoRA разброс в 2 гигабайта. Так что мораль не «бросьте LoRA», а «перестаньте выбирать что-либо вслепую».
«One study found, for instance, that LoRA can match supposedly better PEFT techniques by tuning the learning rate.»
— Hugging Face blog