Les exposés des conférences invités auront lieu dans la salle virtuelle "A" aux horaires indiqués sur le programme général :
Mardi 29 juin à 14h
Erwan Lecarpentier
Titre : Apprentissage par renforcement en environnement non stationnaire
Résumé : Comment un agent doit-il agir étant donné que son environnement évolue de manière incertaine ? Dans cette thèse, nous adoptons la perspective de l'apprentissage par renforcement pour proposer une réponse à cette question. Dans cette présentation, nous fournissons une réponse à cette question du point de vue de l'apprentissage par renforcement. Le problème est vu sous trois aspects différents.
Premièrement, nous étudions le compromis planification vs. re-planification des algorithmes de recherche arborescente dans les Processus Décisionnels Markoviens. Nous proposons une méthode pour réduire la complexité de calcul d'un tel algorithme, tout en conservant des guaranties théoriques sur la performance.
Deuxièmement, nous étudions le cas des environnements évoluant graduellement au cours du temps. Cette hypothèse est formulée dans un cadre mathématique appelé Processus de Décision Markoviens Non-Stationnaires Lipschitziens. Dans ce cadre, nous proposons un algorithme de planification robuste aux évolutions possibles, dont nous montrons qu’il converge vers la politique minmax.
Troisièmement, nous considérons le cas de l'évolution temporelle abrupte dans le cadre du "Lifelong learning" (apprentissage tout au long de la vie). Nous proposons une méthode de transfert non-négatif basée sur l'étude théorique de la continuité de Lipschitz de la Q-fonction optimale par rapport à l'espace des tâches. L'approche permet d'accélérer l'apprentissage dans de nouvelles tâches.
Dans l’ensemble, cette présentation propose des réponses à la question de la résolution des Processus de Décision Markoviens Non-Stationnaires dans trois cadres d'hypothèses.
Biographie : Diplômé de l’ISAE-SUPAERO, formation ingénieur ENSICA, en 2016, Erwan a préparé sa thèse de doctorat à l’ISAE-SUPAERO et à l’ONERA de Toulouse, sous la direction d’Emmanuel Rachelson, professeur d’apprentissage automatique et d’optimisation à l’ISAE-SUPAERO, et de Guillaume Infantes, chercheur en intelligence artificielle à JoliBrain. Ses travaux portent sur l’apprentissage par renforcement en environnement non stationnaire. Après sa thèse, Erwan poursuit ses travaux dans la recherche en intelligence artificielle réalisant un post-doctorat à l'Institut de Recherche en Informatique de Toulouse sur l'interprétabilité des algorithmes.