Робот учится через игру и применяет навыки к реальным задачам

Команда исследователей обучила физического робота исследовать окружающее пространство и играть с предметами, не давая специфических команд. Робот сам придумывал, что делать. После этого периода свободной игры робот научился общим навыкам манипуляции и понимания физики. Затем авторы давали роботу новые задачи, и он использовал накопленные навыки для их решения без нужды в переобучении.

Это указывает на мощную идею: лучший способ обучить робота может быть дать ему свободу исследовать, а не записывать сотни целевых решений. Реусаемые навыки, которые робот учит через игру, переносятся на разные задачи, даже если они сильно отличаются от того, что робот видел во время обучения.

Ключевые факты

Робот обучается через самостоятельную игру и исследование без целевых команд
Накопленные навыки легко переносятся на новые задачи манипуляции
Не требует переобучения системы для каждой новой задачи
Подход работает с реальными физическими роботами, не только в симуляции

Ред. «Робот сам придумывал, что делать» это вдохновляюще ровно до строчки, где придумывает не робот, а Gemini 3.1 Pro за 30 миллионов токенов. Свободная игра оказалась довольно дорогой подпиской на чужую модель.

Почему это важно

Обучение роботов code-as-policy обычно требует много целевых примеров для каждой задачи. RATs вводит self-directed play как continual skill-learning stage перед поступлением задач. Робот-агент предлагает себе задачи по Goldilock принципу (novelty + learnability), пишет Python код, верифицирует результат, диагностирует фейлы и добавляет skills в persistent library. На LIBERO-PRO успех вырос с 23,2% (CaP-Agent baseline) до 43,8%, плюс 20,6 пункта. На MolmoSpaces плюс 17 пункта до 38%. Curiosity-driven play beat random play при том же вычислительном бюджете. На 50 iterations play с Gemini 3.1 Pro система потребила 30 миллионов tokens и научилась 27 skills, из которых 14 был invoked на eval (5,169 runtime calls).

Ред. Из 27 выученных навыков на eval пригодились 14, то есть половину «детство» робота потратило впустую. С 23,2% до 43,8% это заметный скачок, но 43,8% успеха означает, что больше половины попыток всё ещё проваливаются.

Кому это важно

Производителям промышленных манипуляторов, которые хотят быстрее адаптировать роботов к новым складам и производствам. Компаниям, разрабатывающим домашних роботов, которым нужна гибкость научиться новым задачам в environment deployment. Исследователям в embodied AI, изучающим как LLM-agents могут learn embodied skills через code generation и self-play. Разработчикам систем, где робот должен набирать навыки из взаимодействия, а не из готовых примеров.

Ред. Домашним и складским роботам сулят гибкость «научиться на месте», умалчивая, что на месте им понадобится фронтирная LLM в цикле write-execute-verify-diagnose. Гибкость есть, автономности от облака нет.

Как это применить

RATs использует three-stage pipeline: задача-proposer (novelty score через object-skill rarity + competence frontier на 50% success rate), code execution с write-execute-verify-diagnose loop, memory management (experimental/verified/deprecated skill tiers). На практике развёртывание требует LLM backend (авторы использовали Gemini 3.1 Pro) для генерации кода и diagnosis. Play budget в 50 iterations это empirical параметр, можно масштабировать в зависимости от complexity домена. Distilled skills хранятся как self-contained Python функции и reusable другими agents через context retrieval.

Ред. «Play budget в 50 итераций это empirical параметр» переводится как «мы подобрали число, которое сработало у нас». Goldilock-принцип и competence frontier на 50% звучат строго, но это эвристики, настроенные под три бенчмарка.

Можно ли доверять

Исследование протестировано на трёх бенчмарках: LIBERO-PRO (60 tasks, 10 inits = 600 trials), MolmoSpaces (40 tasks, 10 trials = 400), RoboSuite (7 tasks, 50 trials = 350) плюс real-world манипуляция (80 trials). Ablation показал, что curiosity-driven play значимо beat random play. Авторы показали cross-environment transfer: +8,9pp на RoboSuite, +8,8pp на реальных задачах, когда skills обучались в другом домене.

Ред. 1350 симулированных trials плюс 80 реальных и честный ablation про curiosity против random выглядят добротно. Смущает асимметрия: в симуляции тысячи прогонов, на живом роботе восемь десятков, а именно реальный мир должен был стать главным доказательством.

Риски и подводные камни

Требует LLM с достаточной способностью писать correct robotic code. Если LLM генерирует ошибочный код, робот потратит time на бесполезные attempts. На практике quality learned skills зависит от quality diagnosis: если робот неправильно разберётся в причине фейла, он добавит неполезный skill. Cross-environment transfer может быть limited если домены сильно отличаются (симуляция vs real, разные морфологии). Требует reliable reward signal для верификации выполнения задачи, что может быть сложно получить в реальных условиях.

Ред. Раздел сам вскрывает рекурсию: качество навыков зависит от качества диагностики, а диагностику пишет та же LLM, что и ошибочный код. Робот, неверно понявший причину провала, добавляет в библиотеку бесполезный навык и носит его с собой как опыт.