GRASP: планирование на длинных горизонтах в обученных динамических моделях

Исследователи Berkeley предлагают GRASP (Gradient-based planning with Stochasticity and collocation), новый метод планирования для обученных моделей мира, решающий фундаментальные проблемы долгосрочного управления. Обученные модели мира способны предсказывать длинные последовательности будущих наблюдений в высокоразмерных визуальных пространствах, но использовать их для эффективного управления и планирования остаётся хрупким процессом.

Проблема состоит из трёх частей. Первая: при долгосрочном развёртывании модели через backpropagation through time (BPTT) градиенты экспоненциально растут или исчезают, так как нужно дифференцировать модель, применённую к себе многократно. Условие матрицы Якобиана растёт как σ_max/min^(T-1), где T, горизонт планирования. Вторая проблема: оптимизационный ландшафт содержит множество локальных минимумов, так как на длинных горизонтах требуется неграмотное поведение (обход препятствий, переполнение перед толканием), а пространство решений растёт как T·dim(A). Третья и самая критичная для глубоких нейросетевых моделей: если напрямую оптимизировать скрытые состояния через обученную F_θ, можно попасть в состояния вне обучающего набора, где модель ведёт себя как враждебные примеры (adversarial robustness), очень острые ландшафты, позволяющие легко «обмануть» модель.

Решение GRASP состоит из трёх элементов. Первый: вместо оптимизации через последовательный rollout (минимизация ‖s_T(a) - g‖²) авторы переформулируют как «мягкое ограничение», оптимизируют как действия, так и состояния одновременно, минимизируя сумму ошибок динамики: Σ ‖F_θ(s_t, a_t) - s_{t+1}‖² (техника коллокации из робототехники). Это даёт два преимущества: каждая оценка модели зависит только от локальных переменных, поэтому T членов можно вычислять параллельно; градиенты больше не проходят через одну глубокую T-шаговую композицию, а разбиваются на сумму, D_a0 L = 2(F_θ(s_0, a_0) - s_1). Это убивает проблему исчезающих/взрывающих градиентов и позволяет исследовать нефизические промежуточные состояния. Второй элемент: авторы добавляют стохастичность напрямую к итеративным обновлениям состояния для исследования, улучшая поиск. Третий: они переформируют градиенты через динамику, чтобы действия получали чистые сигналы, избегая этого хрупкого оптимизирования состояний-входов через высокоразмерные видеомодели (через более устойчивые параметризации).

В работе показано, что GRASP существенно повышает робустность долгосрочного планирования с обученными моделями мира, преодолевая основные источники неудач при масштабировании горизонта планирования.

Ключевые факты

GRASP использует технику коллокации для параллелизации вычисления моделей и избегает проблемы исчезающих/взрывающих градиентов при долгосрочном планировании
Ключная проблема глубоких нейросетевых моделей мира: состояния вне обучающего набора легко взламываются как враждебные примеры, делая оптимизацию состояний нестабильной
Добавление стохастичности и переформулировка градиентов позволяют модели искать неграмотные решения и получать чистые сигналы для действий
Коллокационный подход сохраняет те же глобальные минимизаторы, что и исходная rollout-задача, но с качественно другим оптимизационным ландшафтом
Метод приносит практическую пользу для робототехники и управления, где требуется планирование на десятки и сотни шагов вперёд

Почему это важно

Проблема долгосрочного планирования в обученных моделях мира, одна из центральных в управлении и робототехнике. По мере масштабирования моделей мира (как внимание увеличивается, так и их предсказательная способность) они становятся похожи на универсальные симуляторы. Однако иметь мощную предиктивную модель, не то же, что уметь ею пользоваться для управления. На практике долгосрочное планирование остаётся хрупким: оптимизация плохо обусловлена (vanishing/exploding gradients), ландшафт полон локальных минимумов, и работа в высокоразмерных скрытых пространствах вводит тонкие режимы отказа. GRASP решает эти проблемы, делая долгосрочное планирование практически применимым.

Кому это важно

Исследователи в области управления и робототехники, разработчики агентов, работающие с моделями мира (world models) для навигации и манипуляции, специалисты по дифференцируемому программированию и оптимизации, команды, внедряющие learning-based control на роботов. Также востребовано в компаниях, развивающих автономные системы (автомобили, беспилотники, манипуляторы).

Как это применить

Метод можно внедрить в существующие пайплайны обучения моделей мира, заменив стандартную rollout-оптимизацию (s_T(a) → цель) на коллокационную формулировку со стохастичностью. Авторы предлагают три модификации: (1) переформулировка как оптимизация по состояниям и действиям с динамикой как мягкое ограничение; (2) добавление стохастичности в итерации состояний; (3) переформирование градиентов для избегания нестабильного оптимизирования состояний-входов. Практически можно начать с коллокации как первого шага, затем добавлять элементы стохастичности при необходимости. Применимо к задачам манипуляции, навигации и любому управлению с изученными моделями.

Можно ли доверять

Статья из Berkeley AI Research, лаборатории, известной фундаментальными работами в deep learning и робототехнике. Авторы (Mike Rabbat, Aditi Krishnapriyan, Yann LeCun, Amir Bar), признанные эксперты в оптимизации и моделях мира. Проблемы, которые они решают (gradients, local minima, adversarial robustness), реальные и хорошо известны в сообществе. Анализ взят из теории оптимизации и adversarial robustness (ссылки на Szegedy et al. 2014, Goodfellow et al. 2015, Stutz et al. 2019 и др.). Коллокационные методы в планировании и робототехнике, уже установленная практика. Логика работы прозрачна: теория + переформулировка + экспериментальные результаты. Работа не переоценивает и честна в ограничениях.

Риски и подводные камни

Увеличенная вычислительная стоимость за счёт параллельной оптимизации всех T состояний одновременно (требует больше памяти). Метод требует, чтобы модель мира была дифференцируема и достаточно хорошо обучена; с плохой моделью колебания состояний могут быть бесполезны. Переформулировка через коллокацию может сходиться к другим решениям, чем rollout, хотя глобальные оптимумы совпадают (локально может быть хуже). Добавление стохастичности требует тщательной настройки гиперпараметров. На практике может потребоваться экспериментирование с величиной шума и расписанием обновлений. Не гарантирует успех на очень длинных горизонтах (сотни шагов) без дополнительной структуризации задачи.

«Иметь мощную предиктивную модель, не то же самое, что уметь ей эффективно пользоваться для управления и обучения. На практике долгосрочное планирование с современными моделями мира остаётся хрупким: оптимизация становится плохо обусловленной, нелокальная структура создаёт плохие локальные минимумы, а высокоразмерные скрытые пространства вводят тонкие режимы отказа.»

— Berkeley AI Research Blog, статья о GRASP