A venir : Nouvelle session de formation au scikit-learn AVANCE, la boite de l’apprentissage automatique : démarrage le 24 janvier 2022

Toutes nos formations
apprentissage automatique Intelligence artificielle

Scikit-learn, la boîte à outils de l’apprentissage automatique

Le but de la formation est d’apprendre à bien utiliser la bibliothèque scikit-learn tout en donnant une compréhension intuitive de l’apprentissage automatique (machine learning) afin d’éviter les écueils méthodologiques. © Inria / Photo É. Garault

Session:

Aucune session disponible actuellement.

Contactez-nous !

Objectifs

Cette formation couvrira les notions de base de l’apprentissage statistique (machine learning) et leur réalisation avec scikit-learn. Nous étudierons comment charger un jeu de données pour l’exposer à scikit-learn, quels sont les types de questions auxquelles l’apprentissage statistique peut répondre, et comment utiliser scikit-learn pour y répondre. Spécifiquement, nous couvrirons l’apprentissage supervisé, avec la sélection et la validation des modèles. Nous étudierons aussi de façon plus détaillée l’assemblage de pipelines de mise en forme de données, et quelques modèles en particulier, tels que les modèles linéaires et les ensembles d’arbres de décision. La formation sera avant tout pratique, axée sur des exemples d’applications avec du code exécuté par les participants.

Pré-requis

  • programmation de base en Python ;
  • familiarité souhaitable avec l’utilisation de notebooks Jupyter ;
  • connaissances de bases en Numpy et Pandas utiles.

Programme

  • notions de base de l’apprentissage statistique (machine learning) supervisé,
  • chargement d’un jeu de données pour l’exposer à scikit-learn et analyse exploratoire de données,
  • entrainement d’un modèle à partir de données purement numériques,
  • traitement des données catégorielles,
  • assemblage d’une pipeline scikit-learn pour chaîner mise en forme des données et apprentissage,
  • évaluation de modèles, notamment par validation croisée,
  • sélection de modèles avec réglage des hyper-paramètres.

Intervenant(s)

  • Loïc Estève

    Ingénieur de recherche Inria

    Loïc Estève est core developer sur le logiciel Scikit-learn chez Inria depuis 2016. Il a étudié la physique à l’École normale supérieure et a obtenu une thèse en physique des particules à l’université Paris 6. Après quelques années en tant que développeur dans le fonds d’investissement Winton Capital, il fait le choix en 2014 de revenir dans un milieu académique chez Inria. Depuis il s’est impliqué dans des projets au cœur de l’écosystème Python scientifique, tels que Scikit-learn, Dask et joblib.

    © Inria / Photo G. Scagnelli

  • Gaël Varoquaux

    Directeur de recherche Inria

    Titulaire d’un master en physique quantique de l’École normale supérieure et d’un doctorat en physique quantique de l’université d’Orsay, Gaël Varoquaux se passionne pendant ses études pour l’informatique et le traitement des données. En 2008, il décide de changer d’orientation et rejoint l’équipe-projet Parietal d’Inria à Saclay, spécialisée dans la modélisation du cerveau pour les neurosciences. Il utilise Scikit-learn pour ses travaux et s’implique dans l’animation de la communauté de développeurs. En 2018, il devient chef de projet pour le consortium Scikit-learn.

    © Inria / Photo G. Scagnelli

1 jour
930 / pers.

Aucune session disponible actuellement.

Contactez-nous

Session:

Aucune session disponible actuellement.

Contactez-nous !

Objectifs

  • Maîtriser le fonctionnement intuitif des modèles suivants et leur mise en oeuvre avec scikit-learn: modèles linéaires, modèles d’arbre, modèles d’ensemble, notamment les forêts aléatoires et les modèles à base de boosting ;
  • Comprendre en détail les différents aspects de l’évaluation de modèle, notamment les choix de stratégies de validation croisée et de métrique d’évaluation.

Pré-requis

  • connaissances équivalentes au contenu du cours de base, en particulier connaitre les concepts suivants : distinction entre regression et classification, savoir faire une validation croisée d’une pipeline de classification avec preprocessing, savoir utiliser les outils de selection d’hyper-paramètres.

Programme

Premier jour :

  • modèles linéaires pour la régression et la classification
  • régularisation de modèles linéaires
  • modèles d’arbres de décision pour la régression et la classification

Deuxième jour :

  • ensemble de modèles à base d’arbre : forêt aléatoires et modèles à base de boosting
  • évaluation de modèles : stratégies de validation croisée et métriques d’évaluation

Intervenant(s)

  • Loïc Estève

    Ingénieur de recherche Inria

    Loïc Estève est core developer sur le logiciel Scikit-learn chez Inria depuis 2016. Il a étudié la physique à l’École normale supérieure et a obtenu une thèse en physique des particules à l’université Paris 6. Après quelques années en tant que développeur dans le fonds d’investissement Winton Capital, il fait le choix en 2014 de revenir dans un milieu académique chez Inria. Depuis il s’est impliqué dans des projets au cœur de l’écosystème Python scientifique, tels que Scikit-learn, Dask et joblib.

    © Inria / Photo G. Scagnelli

  • Gaël Varoquaux

    Directeur de recherche Inria

    Titulaire d’un master en physique quantique de l’École normale supérieure et d’un doctorat en physique quantique de l’université d’Orsay, Gaël Varoquaux se passionne pendant ses études pour l’informatique et le traitement des données. En 2008, il décide de changer d’orientation et rejoint l’équipe-projet Parietal d’Inria à Saclay, spécialisée dans la modélisation du cerveau pour les neurosciences. Il utilise Scikit-learn pour ses travaux et s’implique dans l’animation de la communauté de développeurs. En 2018, il devient chef de projet pour le consortium Scikit-learn.

    © Inria / Photo G. Scagnelli

Les prochaines sessions

2 jours

Témoignages

Scikit-learn est LA référence en Machine Learning que de nombreuses entreprises utilisent. Chez OVHcloud, il est notamment utilisé pour le monitoring des 21 000 et quelques équipements réseaux présents dans nos data centers.

Olivier Nicol

Lead Data Scientist, OVHcloud, France

© OVHcloud

À propos des tarifs

  • Partenariat avec le pôle Systematic : les entreprises membres du pôle bénéficient d’un tarif privilégié,
  • Module débutant (1 jour) : 930 € (740 € pour les entreprises membres du pôle Systematic),
  • Module avancé (2 jours) : offre de lancement 910 € par personne jusqu’en mars 2022 (728 € pour les entreprises membres du pôle Systematic), puis 1300 € (1040 € pour les entreprises membres du pôle Systematic),
  • Tarifs dégressifs à partir de 5 personnes (-10% de 5 à 9 inscrits, -20% plus de 10 inscrits),
  • En raison de la crise sanitaire, toutes les sessions sont en distanciel.