Comment participer aux exposés invités ?

Les exposés des conférences invités auront lieu dans la salle virtuelle "A" aux horaires indiqués sur le programme général :

Vous avez dû recevoir un email lors de votre inscription qui contient le lien zoom de la conférence. Si ce n'est pas le cas, contactez-nous pour que l'e-mail soit renvoyé.
Les pauses cafés et les évènements sociaux se font via ce lien sur wonder.me (le mot de passe a été envoyé par email également)
Vous pouvez également retrouver ces informations (et bien d'autres) dans le livret du participant.

Conférencier invité

Mardi 29 juin à 14h

Erwan Lecarpentier

Titre : Apprentissage par renforcement en environnement non stationnaire

Résumé : Comment un agent doit-il agir étant donné que son environnement évolue de manière incertaine ? Dans cette thèse, nous adoptons la perspective de l'apprentissage par renforcement pour proposer une réponse à cette question. Dans cette présentation, nous fournissons une réponse à cette question du point de vue de l'apprentissage par renforcement. Le problème est vu sous trois aspects différents.

Premièrement, nous étudions le compromis planification vs. re-planification des algorithmes de recherche arborescente dans les Processus Décisionnels Markoviens. Nous proposons une méthode pour réduire la complexité de calcul d'un tel algorithme, tout en conservant des guaranties théoriques sur la performance.

Deuxièmement, nous étudions le cas des environnements évoluant graduellement au cours du temps. Cette hypothèse est formulée dans un cadre mathématique appelé Processus de Décision Markoviens Non-Stationnaires Lipschitziens. Dans ce cadre, nous proposons un algorithme de planification robuste aux évolutions possibles, dont nous montrons qu’il converge vers la politique minmax.

Troisièmement, nous considérons le cas de l'évolution temporelle abrupte dans le cadre du "Lifelong learning" (apprentissage tout au long de la vie). Nous proposons une méthode de transfert non-négatif basée sur l'étude théorique de la continuité de Lipschitz de la Q-fonction optimale par rapport à l'espace des tâches. L'approche permet d'accélérer l'apprentissage dans de nouvelles tâches.

Dans l’ensemble, cette présentation propose des réponses à la question de la résolution des Processus de Décision Markoviens Non-Stationnaires dans trois cadres d'hypothèses.

Biographie : Diplômé de l’ISAE-SUPAERO, formation ingénieur ENSICA, en 2016, Erwan a préparé sa thèse de doctorat à l’ISAE-SUPAERO et à l’ONERA de Toulouse, sous la direction d’Emmanuel Rachelson, professeur d’apprentissage automatique et d’optimisation à l’ISAE-SUPAERO, et de Guillaume Infantes, chercheur en intelligence artificielle à JoliBrain. Ses travaux portent sur l’apprentissage par renforcement en environnement non stationnaire. Après sa thèse, Erwan poursuit ses travaux dans la recherche en intelligence artificielle réalisant un post-doctorat à l'Institut de Recherche en Informatique de Toulouse sur l'interprétabilité des algorithmes.

Invités PFIA

Plate Forme Intelligence Artificielle

(Evènement affilié à PFIA 2021)
28 Juin - 2 Juillet 2021, Bordeaux

Comment participer aux exposés invités ?

Conférencier invité

Invités PFIA

Plate Forme Intelligence Artificielle

(Evènement affilié à PFIA 2021) 28 Juin - 2 Juillet 2021, Bordeaux

Comment participer aux exposés invités ?

Conférencier invité

(Evènement affilié à PFIA 2021)
28 Juin - 2 Juillet 2021, Bordeaux