Un-0: генерирование изображений с помощью связанных осцилляторов

Un-0, это генератор изображений, который переосмысляет архитектуру AI путём использования симуляции системы связанных осцилляторов (модели Курамото) вместо стеков свёрток и трансформеров. Основная идея: как два метронома на одном столе синхронизируются через вибрации, тысячи искусственных осцилляторов, каждый с собственной частотой и связью с другими, самоорганизуются в паттерны, кодирующие образы. Система обучается настройкой матрицы связи K и естественных частот ω; после инициализации случайными фазами система эволюционирует под собственными физическими законами, затем снимается снимок фаз осцилляторов (закодированное представление) и традиционный декодер преобразует его в пиксели. На CIFAR-10 и ImageNet 64×64 модель показывает качество, сопоставимое с ранними стандартными генераторами (DCGAN, NCSN, BigGAN), но фундаментально отличается архитектурно: вместо обучения многослойных преобразований, обучается динамика физической системы. Авторы видят это как первый шаг на пути к реализации AI на физических субстратах (кремний CMOS, аналоговые схемы), где физика сама выполняет вычисления, снижая энергопотребление на порядки (целевая цель, 1000-кратное снижение).
Ключевые факты
- Курамото-осцилляторы вместо свёрток: каждый осциллятор имеет фазу θ и естественную частоту ω, эволюционирует под влиянием связей K_ij с другими осцилляторами по одному дифференциальному уравнению
- Выход FID 6.74 на ImageNet 64×64 совпадает с ранними диффузионными моделями (2019, 2021), но модель применима к физическим чипам благодаря простоте, один ODE вместо слоёв
- Веса, код обучения и абляции выпущены открыто, обучение работает с drifting loss и DINOv2-экстрактором на B200 GPUs, но целевой субстрат, физические системы, а не GPU
- Архитектура: случайная инициализация фаз → управление классом через вспомогательных осцилляторов → эволюция под собственной динамикой → снимок фаз → декодер → изображение
- Долгая история альтернативных парадигм (нейроморфные сети, 1990; жидкие сети, 2021; Курамото-осцилляторы, 2025) получают практическую валидацию: Un-0, самый способный генератор изображений на основе физической динамики на дату релиза
Почему это важно
Конвенциональные глубокие нейросети на GPU доминируют в ИИ десятилетие, но энергопотребление растёт непропорционально результатам. Unconventional AI переформулирует задачу: если система физических законов (связанные осцилляторы) может кодировать и генерировать сложные данные, её можно реализовать в физическом кремнии (CMOS) без виртуального численного кодирования, физика будет считать напрямую. Это потенциально означает 1000-кратное снижение энергии, что критично для развёртывания ИИ на периферии.
Кому это важно
Исследователи физических вычислений и нейроморфной инженерии; инженеры, проектирующие низкопотребляющие AI-системы (периферийные устройства, датчики, встроенные системы); компании, оптимизирующие операционные затраты облачных ИИ-центров; разработчики, экспериментирующие с альтернативными парадигмами генерирования (диффузия и flow-matching требуют явной направляющей во время обучения, Un-0 даёт системе больше свободы).
Как это применить
Сейчас это исследовательский артефакт: качество Un-0 ещё позади SOTA-моделей (EDM, GDD), хотя и соответствует ранним дифф-моделям. Практическое применение: (1) экспериментаторам, запустить код, менять гиперпараметры осцилляторов, наблюдать, как динамика кодирует классы; (2) физикам и инженерам VLSI, прототипировать реализацию этой системы в специализированном чипе (аналоговые схемы вместо цифровых GPU); (3) оптимизаторам архитектур, использовать как базовую линию для гибридных подходов (физическая часть + цифровой декодер) на других задачах.
Можно ли доверять
Авторы Unconventional AI, специалисты по физическим вычислениям. Результаты воспроизведены на стандартных бенчмарках (CIFAR-10, ImageNet 64×64 с FID-50k метрикой). Код и веса выпущены открыто. Однако есть оговорки: (1) качество FID 6.74 соответствует ранним моделям (2019, 2021), сегодняшние диффузионные модели намного лучше; (2) оценка выполнена на небольших разрешениях (64×64), масштабируемость неизвестна; (3) физическая реализация не продемонстрирована, всё обучено на обычных GPU с симуляцией осцилляторов, истинный выигрыш в энергии зависит от будущего оборудования. Это обещание, а не готовое решение.
Риски и подводные камни
Технические: (1) масштабируемость, 3000, 10000 осцилляторов работают в симуляции, но аналоговый чип может быть нестабилен (шум, нелинейность, температурный дрейф); (2) потери обучения сложные (drifting loss), требуют множественных обзоров признаков, это стало бутылочным горлышком; (3) декодер составляет 13% параметров, но это 13% условного цифрового чипа, не учитывает область аналоговой части. Научные: (1) ещё не доказано, что аналоговая реализация достигнет заявленного 1000x выигрыша (может быть 10, 100x); (2) осцилляторные модели могут оказаться узко применимы к генерированию, на других задачах (классификация, NLP) эффективность неясна. Практические: (1) путь от прототипа к массовому производству специализированного железа 5, 10 лет; (2) экосистема GPU зрелая и дешёвая, конкуренция жёсткая.