Integrating Expert Knowledge with Deep Reinforcement Learning Methods for Autonomous Driving

Raphaël Chekroun

Résumé

Two decades after the first autonomous driving challenge, which had no winners successfully navigating a 240 kilometers desert road in Mojave, the advancement of machine learning has brought remarkable progress to this field. Notably, the creation of open-source simulators made research for autonomous driving easier by sidestepping regulatory constraints and providing an affordable way to collect data. This, combined with the rise of neural networks, has expedited development of increasingly efficient methods. Recent research for motion planning mostly focuses on imitation learning (IL) and, to a lesser extent, on reinforcement learning (RL). By learning from data, machine-learning based methods are more adaptable than rule-based ones as they rely less on perfect and consistent representation of the environment. Nevertheless, IL approaches remain limited in grasping the long term consequences of their actions and suffer robustness issues stemming from distribution mismatch. Conversely, RL incorporates long-term return information and successfully overcomes distribution mismatch by learning through trial-and-error. However, it suffers from sample inefficiency, instability during training, and lacks of convergence guarantees. This thesis aims to synergize the strengths of both approaches while mitigating their weaknesses by integrating expert knowledge with deep reinforcement learning methods for different autonomous driving applications.After recapitulating existing methods for autonomous driving, this thesis investigates how to introduce expert knowledge in reinforcement learning algorithms for several autonomous driving tasks. Firstly, we introduced a novel method for distilling expertise in model-free RL and applied it to end-to-end autonomous driving on the CARLA simulator. Secondly, we developed an approach leveraging an IL-based prior to guide a model-based RL algorithm in a partially learned model of the environment for mid-to-end autonomous driving on the nuPlan simulator. Finally, we designed a real-time mesoscale traffic forecasting module to be leveraged by a model-free RL centralized speed planner within a hierarchical control framework for real world traffic dissipation on highways leveraging a fleet of 100 Connected and Autonomous Vehicles (CAVs).

Deux décennies après le premier défi de conduite autonome, qui n'a vu aucun gagnant réussir à naviguer 240 kilomètres de route désertique dans le désert de Mojave, les évolutions en apprentissage automatique ont permis d'importants progrès dans ce domaine. En particulier, la création de simulateurs open-source a facilité la recherche en matière de conduite autonome en permettant d'outrepasser les contraintes réglementaires et en offrant un moyen abordable de collecter des données. Cela, combiné à la montée des réseaux de neurones, a accéléré le développement de méthodes de plus en plus efficaces. Les recherches récentes en matière de planification de mouvement se concentrent principalement sur l'apprentissage par imitation et, dans une moindre mesure, sur l'apprentissage par renforcement. En apprenant à partir de données, les méthodes d'apprentissage automatique sont plus adaptables que celles basées sur des systèmes de règles, car elles dépendent moins d'une représentation parfaite et cohérente de l'environnement. Néanmoins, les approches par imitation restent limitées dans la compréhension des conséquences à long terme de leurs actions et rencontrent des problèmes de robustesse résultant d'une inadéquation de distribution. En revanche, l'approche par renforcement intègre des informations de retour à long terme et surmonte avec succès les problèmes de distribution en apprenant par essais et erreurs. Cependant, cette approche souffre d'inefficacité d'échantillonnage, d'instabilité pendant l'entraînement et d'un manque de garanties de convergence. Cette thèse vise à synergiser les points forts des deux approches tout en atténuant leurs faiblesses en intégrant des connaissances expertes avec des méthodes d'apprentissage par renforcement profond pour différentes applications liées à la conduite autonome.Après avoir récapitulé les méthodes existantes en matière de conduite autonome, cette thèse examine différentes facons d'introduire des connaissances expertes dans des algorithmes d'apprentissage par renforcement pour plusieurs tâches de conduite autonome. Tout d'abord, nous avons introduis une nouvelle méthode pour distiller de l'expertise dans un apprentissage par renforcement sans modèle et l'avons appliquée à la conduite autonome de bout en bout sur le simulateur CARLA. Ensuite, nous avons développé une approche tirant parti d'une base d'apprentissage par imitation pour guider un algorithme d'apprentissage par renforcement basé sur modèle dans un modèle partiellement appris de l'environnement pour la conduite autonome de milieu-à-fin sur le simulateur nuPlan. Enfin, nous avons conçu un module de prévision du trafic à l'échelle mésoscopique en temps réel, fait pour être utilisé avec un planificateur de vitesse centralisé basé sur l'apprentissage par renforcement sans modèle dans le cadre d'un controleur hiérarchique pour la dissipation du trafic en temps réel sur les autoroutes en utilisant une flotte de 100 véhicules connectés et autonomes.

Integrating Expert Knowledge with Deep Reinforcement Learning Methods for Autonomous Driving

Intégrer des Connaissances Expertes dans des méthodes d'apprentissage par renforcement profond pour la conduite autonome

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager