Session:
Apprentissage par renforcement pour l’industrie
Le cours portera sur des aspects théoriques de l'apprentissage par renforcement (A/R), les algorithmes de bandit pour le compromis exploration-exploitation, et la programmation dynamique avec approximation (PDA), dans le cadre des processus de décision markoviens (PDM). @Coll.privée
Aucune session disponible actuellement.
Objectifs
- Explorer les algorithmes de bandits linéaires et à noyaux, en mettant l’accent sur leurs applications potentielles dans le domaine de l’imagerie microscopique.
- Apprendre à estimer des paramètres et la construction de régions de confiance en utilisant la régression, en s’appuyant sur les informations des sources fournies.
- Acquérir des notions de base de contrôle linéaire robuste.
- Maitriser les concepts clés et les algorithmes importants pour l’optimisation de fonctions à l’aide de méthodes de bandits.
- Couvrir l’algorithme MCTS en profondeur, en commençant par les bases et en progressant vers des concepts plus avancés.
Ce que vous allez acquérir comme compétences
- Apprentissage séquential et bandits manchots pour l’optimisation
- Algorithms UCB, TS
- Systèmes linéaires, estimation et incertitudes
- Markov Decision Processes, Dynamic Programming,
- Planifications, MCTS et ses variantes.
Pré-requis
- Espérance
- Variance
- Variable aléatoire
- Régression linéaire
Programme
Introduction
- Bandits stochastiques, bandits linéaires.
- Markov Decision Processes, Dynamic programmning
- Systèmes linéaires
- Planification dans l’incertain
Bandit pour optimisation
- Regression linéaire
- Estimation des paramètres
- Kernel bandit
- Application à l’imagerie microscopique
Planification
- Monte Carlo Tree Search, Optimistic Deterministic Planning
- Application au contrôle robuste à la navigation de guide-fil dans les artères coronaires.
Planification robuste
- Contrôle linéaire
- Propagation d’incertitude, envelopes de confiance
- Application à l’évitement des collisions
Intervenant(s)
-
Odalric-Ambrym Maillard
Chargé de recherche Inria
Odalric-Ambrym Maillard est chercheur d’Inria spécialisé edans le domaine de l’apprentissage par renforcement (Reinforcement Learning) et séquentiel (Sequential Learning).
Il fait partie des rares personnes qui construisent des algorithmes d’intelligence artificielle (Machine Learning), à grand renfort de statistique mathématique et théorie des systèmes dynamiques (Bandits, MDPs, Concentration si ça vous parle).
Côté applicatif, Odalric initie et coordonne plusieurs projets en Agroécologie dans le but d’identifier et de promouvoir le partage de bonnes pratiques, en construisant des compagnons d’expérimentations numériques pour assister le besoin de massification des expérimentations. Les compagnons numériques permettent de s’assurer d’avoir des résultats fiables, reproductibles, personnalisés et tout ça avec le minimum d’essais possibles.
Ses devises
- As academic researchers, it is our duty to open novel application paths, choose which future we want to create, and picture the world we dream of beyond the existing applications of current research.
- The more applied you go, the stronger theory you need.
@coll.privée