Законы масштабирования в глубоком обучении: осторожная переоценка

Статья Lilian Weng детально анализирует эмпирические законы масштабирования в глубоком обучении, один из самых важных результатов в современном машинном обучении. Основная идея: потеря при обучении (loss) предсказуемо снижается при увеличении размера модели N, объёма данных D и вычислительных ресурсов C по степенному закону, что видно как прямая линия на логарифмическом графике.

Исторически эта закономерность замечена ещё в 1992 году (Amari et al.), затем подтверждена эмпирически на разных задачах (NMT, классификация изображений, языковое моделирование). В 2020 году Kaplan et al. популяризировали концепцию, найдя, что при 10-кратном увеличении вычислений оптимально масштабировать размер модели на 5.5х, а объём данных только на 1.8х (вывод: растить модель быстрее, чем данные).

Но в 2022 году статья Chinchilla (Hoffmann et al.) дала иной ответ, проведя эксперименты на 400 моделях размером от 70M до 16B параметров. Chinchilla предложила масштабировать модель и данные поровну (при удвоении размера удваивать и токены), а не как советовала Kaplan. Доказательство: Chinchilla (70B параметров, 1.4T токенов) обыграла Gopher (280B параметров, 300B токенов) при одинаковом бюджете вычислений, значит, большинство моделей были недотренированы.

Почему такое расхождение? Kaplan работал с малыми моделями; на логарифмическом графике даже небольшая погрешность в фиттинге даёт огромные расхождения при экстраполяции. Кроме того, параметры embedding-слоёв в малых моделях, значительная доля, и учёт их по-разному меняет выводы. Позднейшие исследования (Pearce & Song, 2024) показали, как учёт этой доли объясняет обе позиции.

Кроме того, статья разбирает усложнения реальных сценариев: когда данные повторяются (информационная ценность повторённых токенов падает экспоненциально), когда модель переучивается на малом объёме, и как практические детали (способ подсчёта параметров, точность чисел, критерии остановки оптимизации) странно сильно влияют на прогнозы. Исследование Besiroglu et al. (2024) выявило, что методология Chinchilla недооценила оптимальные потери из-за преждевременной остановки оптимизации.

Ключевые факты

Потеря в нейросетях снижается по степенному закону при масштабировании размера модели, объёма данных и вычислений, это эмпирический факт, известный с 1992 года
Kaplan et al. (2020) рекомендовали масштабировать модель быстрее данных; Chinchilla (2022) доказала обратное, масштабировать поровну; разница проистекает из различий в экспериментальной шкале и учёте параметров embedding
Chinchilla (70B, 1.4T токенов) обыграла Gopher (280B, 300B токенов), предполагая, что современные большие модели часто недотренированы
В реальных сценариях с повторением данных оптимальная стратегия, увеличивать эпохи обучения, а не размер модели
Практические детали (способ подсчёта параметров, точность чисел, критерии остановки) критически влияют на точность предсказаний масштабирования

Почему это важно

Законы масштабирования, это один из самых практичных результатов современного ML. Вместо слепого экспериментирования разработчики могут фиттировать закон на малых моделях и прогнозировать требования вычислений для масштабных систем. Знание правильного соотношения между размером и данными напрямую влияет на эффективность: недотренированная модель, потрачены деньги на вычисления впустую, а переучивание, тоже неоптимально. Статья показывает, что небрежность в методологии приводит к огромным расхождениям в прогнозах при экстраполяции на порядки величины.

Кому это важно

Это важно для исследователей, оптимизирующих большие модели, и для инженеров, планирующих инфраструктуру обучения. Продакт-лиды ИИ-компаний используют эти законы для сметривания затрат и выбора архитектуры. Startups и крупные лаборатории, которые тренируют свои модели, напрямую выигрывают от точных прогнозов: правильное распределение компьютера между параметрами и данными может означать месяцы выигрыша или проигрыша.

Как это применить

При планировании обучения новой модели соберите несколько пробных прогонов на меньших сетках (например, модель от 100M до 1B параметров, 1B до 100B токенов). Отложите значения loss в логарифмических осях и фиттируйте степенную функцию вида L ≈ A/N^α + B/D^β + E. Затем экстраполируйте на целевой размер, учитывая бюджет FLOPs. Следуя Chinchilla, для заданного вычислительного бюджета масштабируйте модель и объём данных примерно поровну, а не модель быстрее. Если данные редки и будут повторяться, добавляйте больше эпох, чем параметров.

Можно ли доверять

Основные законы масштабирования эмпирически подтверждены и удержались. Однако степень расхождения между Kaplan и Chinchilla показывает, что детали фиттинга имеют огромное значение. Статья сама осторожна и демонстрирует случаи, когда якобы установленные законы ломались (например, когда параметры embedding не считали аккуратно или когда оптимизация остановилась рано). Полагаться на скоропалительный фиттинг опасно: нужна либо тщательная воспроизводимость, либо буфер в планировании.

Риски и подводные камни

При экстраполяции небольшое смещение в параметрах фиттинга может дать разницу в 10 раз в предсказаниях. Учет параметров (включать ли embedding, как считать ≈6ND FLOPs) изменяет выводы. Данные в реальных задачах редко уникальны и часто повторяются, что нарушает базовое предположение infinite-data regime. Численная точность и критерии остановки оптимизации странно сильно влияют на результаты. Рекомендация: при планировании запас минимум 20% в бюджете, если экстраполяция пересекает более чем 10-кратное изменение параметров.

«Модель в 4 раза меньше по параметрам, но обученная на 4 раза больше токенов, обыграла исходную модель во всех тестах.»

— Результат Chinchilla: сравнение с Gopher (переработка из английского оригинала)