Автоматизированный поиск архитектур Mixture-of-Experts: 4463 кандидата за 28 дней

Авторы создали конвейер для систематического поиска гетерогенных 4-Expert MoE архитектур в экосистеме LEMUR. На основе ручного-crafted MoE-модели заменили ручное проектирование детерминированным генератором кода, комбинирующим семейства архитектур из LEMUR в MoE4 ансамбли с convolutional gating network, temperature scaling, mixup augmentation и cosine-annealed learning rate scheduling. За 28 дней на NVIDIA RTX 4090 конвейер сгенерировал 4463 кандидата поперёк 197 батчей, из которых успешно оценены 1021. Ключевое открытие: из-за алфавитного перечисления через itertools.combinations, весь исследованный поиск-спейс (4.8% из теоретических 23751 возможных 4-семейства комбинаций) был привязан к одной архитектуре, AirNet. Авторы точно охарактеризовали эту систематическую ошибку, определили корень в генераторе и предложили fix через stratified random sampling. В AirNet-anchored scope ShuffleNet и MobileNetV3 последовательно производили самые высокие-точность ансамбли (mean accuracy до 0.632), в то время как FractalNet и MNASNet определены как low-yield и рекомендованы к исключению.

Ключевые факты

Автоматизированный конвейер оценил 1021 из 4463 сгенерированных MoE4 архитектур за 28 дней на одном GPU
Обнаружено систематическое смещение в поиск-пространстве: весь исследованный спейс непреднамеренно привязан к одной семье архитектур (AirNet)
ShuffleNet и MobileNetV3 показали высочайшую точность в ансамблях (mean accuracy 0.632) при комбинировании с AirNet
FractalNet и MNASNet идентифицированы как низко-продуктивные семейства и рекомендованы к исключению в будущих поисках
Предложен и выпущен fix через stratified random sampling, инструменты и артефакты выпущены open-source в проекте nn-gpt

Почему это важно

Поиск оптимальной архитектуры нейросети вручную крайне времеёмкий и часто пропускает хорошие комбинации. Автоматизированный конвейер позволяет исследовать огромное пространство потенциальных архитектур систематически. Однако исследование выявило критическую проблему: даже автоматизированные системы могут скрывать смещение в сэмплировании.

Кому это важно

Исследователи в области архитектурного поиска (NAS). Инженеры, заинтересованные в оптимизации ансамблей нейросетей. Люди, разрабатывающие open-source инструменты для машинного обучения.

Как это применить

Использовать выпущенный конвейер nn-gpt для систематического поиска оптимальных комбинаций архитектур для своей задачи. Применять stratified random sampling вместо алфавитного перечисления, чтобы избежать смещений. Сосредоточиться на ShuffleNet и MobileNetV3 как на перспективных компонентах MoE ансамблей.

Можно ли доверять

Исследование честно выявило собственную ошибку в методологии и детально описало её корень. Авторы предложили исправление и выпустили код. Масштаб работы (4463 кандидата) свидетельствует о тщательности. Выпуск инструментов и артефактов open-source позволяет сообществу проверить и воспроизвести результаты.

Риски и подводные камни

Даже систематизированный поиск может содержать скрытые смещения, которые трудно заметить без анализа. Исследование охватило только 4.8% теоретического пространства, остальное остаётся неизвестным. Результаты специфичны для LEMUR экосистемы и могут не переноситься на другие семейства архитектур. Стоимость GPU (28 дней RTX 4090) ограничивает воспроизведение.