Prochaine session deeptech SOFA, le moteur de simulation multiphysique débutant le 22 mai (course in English!)

Prochaine session deeptech SOFA, le moteur de simulation multiphysique avancé le 27 mai (course in English!)

Prochaine session deeptech Analyse des données de santé sensibles par l’apprentissage fédéré le 4 juin (NOUVEAU !)

Prochaine session executive education Apprentissage automatique, les briques technologiques pour les PME le 5 juin

Prochaine session état de l’art La cybersécurité des systèmes de contrôle industriel le 12 juin

Toutes nos formations
apprentissage automatique Intelligence artificielle

Apprentissage par renforcement pour l’industrie

Le cours portera sur des aspects théoriques de l'apprentissage par renforcement (A/R), les algorithmes de bandit pour le compromis exploration-exploitation, et la programmation dynamique avec approximation (PDA), dans le cadre des processus de décision markoviens (PDM). @Coll.privée

Session:

Aucune session disponible actuellement.

Contactez-nous !

Objectifs

  • Explorer les algorithmes de bandits linéaires et à noyaux, en mettant l’accent sur leurs applications potentielles dans le domaine de l’imagerie microscopique.
  • Apprendre à estimer des paramètres et la construction de régions de confiance en utilisant la régression, en s’appuyant sur les informations des sources fournies.
  • Acquérir des notions de base de contrôle linéaire robuste.
  • Maitriser les concepts clés et les algorithmes importants pour l’optimisation de fonctions à l’aide de méthodes de bandits.
  • Couvrir l’algorithme MCTS en profondeur, en commençant par les bases et en progressant vers des concepts plus avancés.

Ce que vous allez acquérir comme compétences

  • Apprentissage séquential et bandits manchots pour l’optimisation
  • Algorithms UCB, TS
  • Systèmes linéaires, estimation et incertitudes
  • Markov Decision Processes, Dynamic Programming,
  • Planifications, MCTS et ses variantes.

Pré-requis

  • Espérance
  • Variance
  • Variable aléatoire
  • Régression linéaire

Programme

Introduction

  • Bandits stochastiques, bandits linéaires.
  • Markov Decision Processes, Dynamic programmning
  • Systèmes linéaires
  • Planification dans l’incertain

Bandit pour optimisation

  • Regression linéaire
  • Estimation des paramètres
  • Kernel bandit
  • Application à l’imagerie microscopique

Planification

  • Monte Carlo Tree Search, Optimistic Deterministic Planning
  • Application au contrôle robuste à la navigation de guide-fil dans les artères coronaires.

Planification robuste

  • Contrôle linéaire
  • Propagation d’incertitude, envelopes de confiance
  • Application à l’évitement des collisions

Intervenant(s)

  • Odalric-Ambrym Maillard

    Chargé de recherche Inria

    Odalric-Ambrym Maillard est chercheur d’Inria spécialisé edans le domaine de l’apprentissage par renforcement (Reinforcement Learning) et séquentiel (Sequential Learning).

    Il fait partie des rares personnes qui construisent des algorithmes d’intelligence artificielle (Machine Learning), à grand renfort de statistique mathématique et théorie des systèmes dynamiques (Bandits, MDPs, Concentration si ça vous parle).

    Côté applicatif, Odalric initie et coordonne plusieurs projets en Agroécologie dans le but d’identifier et de promouvoir le partage de bonnes pratiques, en construisant des compagnons d’expérimentations numériques pour assister le besoin de massification des expérimentations. Les compagnons numériques permettent de s’assurer d’avoir des résultats fiables, reproductibles, personnalisés et tout ça avec le minimum d’essais possibles.

    Ses devises

    • As academic researchers, it is our duty to open novel application paths, choose which future we want to create, and picture the world we dream of beyond the existing applications of current research.
    • The more applied you go, the stronger theory you need.

    @coll.privée

3
1300 / pers.

Aucune session disponible actuellement.

Contactez-nous