Робот учится через игру и применяет навыки к реальным задачам

Робот учится через игру и применяет навыки к реальным задачам

Команда исследователей обучила физического робота исследовать окружающее пространство и играть с предметами, не давая специфических команд. Робот сам придумывал, что делать. После этого периода свободной игры робот научился общим навыкам манипуляции и понимания физики. Затем авторы давали роботу новые задачи, и он использовал накопленные навыки для их решения без нужды в переобучении.

Это указывает на мощную идею: лучший способ обучить робота может быть дать ему свободу исследовать, а не записывать сотни целевых решений. Реусаемые навыки, которые робот учит через игру, переносятся на разные задачи, даже если они сильно отличаются от того, что робот видел во время обучения.

Ключевые факты

  • Робот обучается через самостоятельную игру и исследование без целевых команд
  • Накопленные навыки легко переносятся на новые задачи манипуляции
  • Не требует переобучения системы для каждой новой задачи
  • Подход работает с реальными физическими роботами, не только в симуляции

Ред. «Робот сам придумывал, что делать» это вдохновляюще ровно до строчки, где придумывает не робот, а Gemini 3.1 Pro за 30 миллионов токенов. Свободная игра оказалась довольно дорогой подпиской на чужую модель.

Почему это важно

Обучение роботов code-as-policy обычно требует много целевых примеров для каждой задачи. RATs вводит self-directed play как continual skill-learning stage перед поступлением задач. Робот-агент предлагает себе задачи по Goldilock принципу (novelty + learnability), пишет Python код, верифицирует результат, диагностирует фейлы и добавляет skills в persistent library. На LIBERO-PRO успех вырос с 23,2% (CaP-Agent baseline) до 43,8%, плюс 20,6 пункта. На MolmoSpaces плюс 17 пункта до 38%. Curiosity-driven play beat random play при том же вычислительном бюджете. На 50 iterations play с Gemini 3.1 Pro система потребила 30 миллионов tokens и научилась 27 skills, из которых 14 был invoked на eval (5,169 runtime calls).

Ред. Из 27 выученных навыков на eval пригодились 14, то есть половину «детство» робота потратило впустую. С 23,2% до 43,8% это заметный скачок, но 43,8% успеха означает, что больше половины попыток всё ещё проваливаются.

Кому это важно

Производителям промышленных манипуляторов, которые хотят быстрее адаптировать роботов к новым складам и производствам. Компаниям, разрабатывающим домашних роботов, которым нужна гибкость научиться новым задачам в environment deployment. Исследователям в embodied AI, изучающим как LLM-agents могут learn embodied skills через code generation и self-play. Разработчикам систем, где робот должен набирать навыки из взаимодействия, а не из готовых примеров.

Ред. Домашним и складским роботам сулят гибкость «научиться на месте», умалчивая, что на месте им понадобится фронтирная LLM в цикле write-execute-verify-diagnose. Гибкость есть, автономности от облака нет.

Как это применить

RATs использует three-stage pipeline: задача-proposer (novelty score через object-skill rarity + competence frontier на 50% success rate), code execution с write-execute-verify-diagnose loop, memory management (experimental/verified/deprecated skill tiers). На практике развёртывание требует LLM backend (авторы использовали Gemini 3.1 Pro) для генерации кода и diagnosis. Play budget в 50 iterations это empirical параметр, можно масштабировать в зависимости от complexity домена. Distilled skills хранятся как self-contained Python функции и reusable другими agents через context retrieval.

Ред. «Play budget в 50 итераций это empirical параметр» переводится как «мы подобрали число, которое сработало у нас». Goldilock-принцип и competence frontier на 50% звучат строго, но это эвристики, настроенные под три бенчмарка.

Можно ли доверять

Исследование протестировано на трёх бенчмарках: LIBERO-PRO (60 tasks, 10 inits = 600 trials), MolmoSpaces (40 tasks, 10 trials = 400), RoboSuite (7 tasks, 50 trials = 350) плюс real-world манипуляция (80 trials). Ablation показал, что curiosity-driven play значимо beat random play. Авторы показали cross-environment transfer: +8,9pp на RoboSuite, +8,8pp на реальных задачах, когда skills обучались в другом домене.

Ред. 1350 симулированных trials плюс 80 реальных и честный ablation про curiosity против random выглядят добротно. Смущает асимметрия: в симуляции тысячи прогонов, на живом роботе восемь десятков, а именно реальный мир должен был стать главным доказательством.

Риски и подводные камни

Требует LLM с достаточной способностью писать correct robotic code. Если LLM генерирует ошибочный код, робот потратит time на бесполезные attempts. На практике quality learned skills зависит от quality diagnosis: если робот неправильно разберётся в причине фейла, он добавит неполезный skill. Cross-environment transfer может быть limited если домены сильно отличаются (симуляция vs real, разные морфологии). Требует reliable reward signal для верификации выполнения задачи, что может быть сложно получить в реальных условиях.

Ред. Раздел сам вскрывает рекурсию: качество навыков зависит от качества диагностики, а диагностику пишет та же LLM, что и ошибочный код. Робот, неверно понявший причину провала, добавляет в библиотеку бесполезный навык и носит его с собой как опыт.