Deep Reinforcement Learning and Learning from Demonstrations for Robot Manipulators
Apprentissage profond par Renforcement et Démonstrations, pour le comportement de robots manipulateurs
Résumé
Despite having known great success, reinforcement-learning algorithms still need to become more sample-efficient, particularly for robotics where it is much harder to train an agent outside of simulation. As the community leans towards data-driven approaches (offline reinforcement learning, decision transformers, etc.), in this thesis we focus on off-policy reinforcement learning, and explore different ways of incorporating additional data into the algorithms. In particular, we rely on expert demonstrations, which can help with efficiency as well as overall performance. The goal is to design efficient algorithms to solve a range of robotic-manipulation tasks, such as flipping a switch or sliding a cube on a table.After a thorough review of the reinforcement-learning and imitation-learning frameworks, we first introduce our reward-relabeling method, which can be seen as a form of reward shaping that happens in hindsight, once the entire episode is collected. This approach can easily extend any off-policy algorithm to benefit from both reinforcement and imitation signals. Building on this method, we then introduce a more efficient algorithm that aggregates previous and concurrent works that also address similar concerns.Finally, we move onto the more realistic setting of vision-based reinforcement learning. To tackle this problem, we design a two-stage training pipeline: first learn a visual representation of the scene by pre-training an encoder from multiple supervised computer-vision objectives, then train a reinforcement-learning agent which can focus solely on solving the task. Despite all the data being collected in simulation, the experiments include one sim-to-real example to show that these techniques can translate to real-world controlled environments.
Malgré leur grand succès, les algorithmes d'apprentissage par renforcement doivent encore devenir plus efficaces en termes d'échantillons, en particulier pour la robotique où il est beaucoup plus difficile d'entraîner un agent en dehors d'un environnement de simulation. Alors que la communauté se tourne vers des approches orientées données (apprentissage par renforcement “offline”, “decision transformers”, etc.), nous nous concentrons dans cette thèse sur l'apprentissage par renforcement “off-policy” et explorons différentes manières d'incorporer des données supplémentaires dans les algorithmes. En particulier, nous nous appuyons sur des démonstrations d'experts, qui peuvent contribuer à l'efficacité ainsi qu'à la performance globale. L'objectif est de concevoir des algorithmes efficaces pour résoudre des tâches de manipulation robotique, comme actionner un interrupteur ou faire glisser un cube sur une table.Après une étude approfondie de l'apprentissage par renforcement et par imitation, nous présentons tout d'abord notre méthode de ré-étiquetage des récompenses, qui peut être considérée comme une forme de “reward shaping” qui se produit a posteriori, une fois que l'ensemble de l'épisode a été collecté. Cette approche peut s'appliquer à tout algorithme “off-policy” pour bénéficier à la fois des signaux de renforcement et d'imitation. En nous appuyant sur cette méthode, nous présentons ensuite un algorithme plus efficace qui regroupe des travaux antérieurs et concomitants qui traitent également de questions similaires.Enfin, nous passons au cadre plus réaliste de l'apprentissage par renforcement basé sur la vision. Pour résoudre ce problème, nous concevons un pipeline d'entraînement en deux étapes : d'abord, apprendre une représentation visuelle de la scène en pré-entraînant un encodeur à partir de plusieurs objectifs supervisés de vision, puis entraîner un agent d'apprentissage par renforcement qui peut se concentrer uniquement sur la résolution de la tâche. Bien que toutes les données soient collectées en simulation, les expériences comprennent un exemple de transfert simulation-réalité pour montrer que ces techniques peuvent s'appliquer à des environnements contrôlés du monde réel.
Origine | Version validée par le jury (STAR) |
---|