apprentissage automatique Intelligence artificielle

Scikit-learn, la boîte à outils de l’apprentissage automatique

Module deeptech
Le but de la formation est d’apprendre à bien utiliser la bibliothèque scikit-learn tout en donnant une compréhension intuitive de l’apprentissage automatique (machine learning) afin d’éviter les écueils méthodologiques. © Inria / Photo É. Garault

Session:

Aucune session disponible actuellement.

Contactez-nous !

Objectifs

Cette formation couvrira les notions de base de l’apprentissage statistique (machine learning) et leur réalisation avec scikit-learn. Nous étudierons comment charger un jeu de données pour l’exposer à scikit-learn, quels sont les types de questions auxquelles l’apprentissage statistique peut répondre, et comment utiliser scikit-learn pour y répondre. Spécifiquement, nous couvrirons l’apprentissage supervisé, avec la sélection et la validation des modèles. Nous étudierons aussi de façon plus détaillée l’assemblage de pipelines de mise en forme de données, et quelques modèles en particulier, tels que les modèles linéaires et les ensembles d’arbres de décision. La formation sera avant tout pratique, axée sur des exemples d’applications avec du code exécuté par les participants.

À l’issu de cette formation, les apprenants seront en mesure de maîtriser les fondamentaux de l’apprentissage supervisé avec scikit-learn, en chargeant et préparant des données, en construisant des pipelines de traitement, en évaluant les performances des modèles et en optimisant leurs hyperparamètres.

Toute personne suivant une formation Inria Academy sur scikit-learn bénéficie d’une réduction de 20% sur la certification Probabl.

Public cible : ingénieurs développeurs informatique et ingénieurs R&D.

Pré-requis

programmation de base en Python ;
familiarité souhaitable avec l’utilisation de notebooks Jupyter ;
connaissances de bases en Numpy et Pandas utiles.

Programme

notions de base de l’apprentissage statistique (machine learning) supervisé,
chargement d’un jeu de données pour l’exposer à scikit-learn et analyse exploratoire de données,
entrainement d’un modèle à partir de données purement numériques,
traitement des données catégorielles,
assemblage d’une pipeline scikit-learn pour chaîner mise en forme des données et apprentissage,
évaluation de modèles, notamment par validation croisée,
sélection de modèles avec réglage des hyper-paramètres.

Intervenant(s)

Laure Bourgois

Ingénieure-formatrice spécialisée en intelligence artificielle

Docteure en Intelligence Artificielle, experte en IA symbolique et simulations numériques, Laure Bourgois est ingénieure-formatrice spécialisée en intelligence artificielle. Avec plus de 20 ans d’expérience en R&D (Orange Labs, IFSTTAR …) et un ensemble de missions pour des organismes de formations/universités, son expertise couvre un large éventail. Laure est le deuxième expert au niveau international parmi les spécialistes en apprentissage automatique, à recevoir en 2024 Scikit-learn Professional Practitioner Certification délivrée par :probabl.

Les prochaines sessions

1 jour

Session:

Aucune session disponible actuellement.

Contactez-nous !

Objectifs

Maîtriser le fonctionnement intuitif des modèles suivants et leur mise en oeuvre avec scikit-learn: modèles linéaires, modèles d’arbre, modèles d’ensemble, notamment les forêts aléatoires et les modèles à base de boosting ;
Comprendre en détail les différents aspects de l’évaluation de modèle, notamment les choix de stratégies de validation croisée et de métrique d’évaluation.

À l’issu de cette formation, les apprenants seront en mesure de maîtriser la mise en œuvre des modèles linéaires, d’arbres de décision et d’ensemble (forêts aléatoires, boosting) avec scikit-learn, et d’évaluer leurs performances en choisissant les stratégies de validation croisée et les métriques adaptées à chaque contexte.

Toute personne suivant une formation Inria Academy sur scikit-learn bénéficie d’une réduction de 20% sur la certification Probabl.

Public cible : ingénieurs développeurs informatique et ingénieurs R&D.

Pré-requis

Connaissances équivalentes au contenu du module niveau débutant, en particulier connaître les concepts suivants : distinction entre régression et classification, savoir faire une validation croisée d’une pipeline de classification avec preprocessing, savoir utiliser les outils de sélection d’hyper-paramètres.

Programme

Premier jour :

modèles linéaires pour la régression et la classification ;
régularisation de modèles linéaires ;
modèles d’arbres de décision pour la régression et la classification.

Deuxième jour :

ensemble de modèles à base d’arbre : forêt aléatoires et modèles à base de boosting ;
évaluation de modèles : stratégies de validation croisée et métriques d’évaluation.

Intervenant(s)

Laure Bourgois

Ingénieure-formatrice spécialisée en intelligence artificielle

Docteure en Intelligence Artificielle, experte en IA symbolique et simulations numériques, Laure Bourgois est ingénieure-formatrice spécialisée en intelligence artificielle. Avec plus de 20 ans d’expérience en R&D (Orange Labs, IFSTTAR …) et un ensemble de missions pour des organismes de formations/universités, son expertise couvre un large éventail. Laure est le deuxième expert au niveau international parmi les spécialistes en apprentissage automatique, à recevoir en 2024 Scikit-learn Professional Practitioner Certification délivrée par :probabl.

Les prochaines sessions

2 jours

Session:

Aucune session disponible actuellement.

Contactez-nous !

Objectifs

Cette formation experte sur Scikit-learn permet une compréhension approfondie et pratique des techniques avancées de modélisation, de diagnostic et de déploiement de modèles.

Nous aborderons les machines à support de vecteur et comparerons avec d’autres méthodes en fonction de différents jeux de données.

La formation présente les algorithmes les plus courants de l’apprentissage non supervisé (réduction de dimension, clustering) ainsi que les méthodes pour analyser les séries temporelles.

Nous aborderons les méthodes de sélection des caractéristiques, les fonctions de perte et quelques « surrogate loss », ainsi que la calibration de modèle. Un focus sera mis sur le traitement et la combinaison de données complexes, notamment à partir de formats parquet mais aussi avec la librairie Polars.. Les participants apprendront à concevoir leurs propres estimateurs, à régler les hyperparamètres et à évaluer les modèles à l’aide d’indicateurs avancés et de visualisations. Des outils comme joblib, pickle ou skops seront utilisés pour le déploiement des modèles en production. La formation intégrera également les bonnes pratiques, la gestion des métadonnées et l’interprétabilité des résultats (partial dependence plots, permutation importance …).

Ce cours est un cours appliqué et non théorique, les concepts des principaux algorithmes seront expliqués mais pas de démonstration mathématique même si la complexité sera abordée. Ce cours n’aborde pas non plus le MLOps qui est un métier à part entière ni l’optimisation des CPU ou GPU (ce dernier n’est pas nativement supporté par Scikit-learn mais par les briques tech implémentant des réseaux de neurones comme Tensorflow ou Pytorch).

Apprentissage automatique de niveau expert : Connaissance approfondie des algorithmes d’apprentissage automatique, y compris des tendances émergentes et des meilleures pratiques.
Développement d’algorithmes : Capacité à développer et à mettre en œuvre des algorithmes d’apprentissage automatique personnalisés, adaptés à des problèmes spécifiques.
Diagnostic des modèles : Identifier, dépanner et résoudre les problèmes potentiels dans le pipeline d’apprentissage automatique des autres membres de l’équipe.

À l’issu de cette formation, les apprenants seront en mesure de maîtriser les techniques avancées de Scikit-learn pour concevoir, évaluer, diagnostiquer et déployer des modèles d’apprentissage automatique, d’interpréter leurs résultats à l’aide d’outils de visualisation et de métriques adaptées, et d’appliquer les bonnes pratiques pour le traitement de données complexes et la gestion des hyperparamètres.

Toute personne suivant une formation Inria Academy sur scikit-learn bénéficie d’une réduction de 20% sur la certification Probabl.

Public cible : ingénieurs développeurs informatique et ingénieurs R&D.

Pré-requis

Maîtriser le contenu de la formation Scikit-learn niveau avancé

Programme

Rappel sur les métriques en classification et en régression (Optionnel)
Apprentissage supervisé avec SVM
- Classification avec SVC/Régression avec SVR
Apprentissage non supervisé (réduction de dimensions, clustering)
- Réduction de dimension avec ACP (Analyse en composantes principales)
- Clustering avec Kmeans, CAH (Classification Ascendante Hiérarchique), DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
Critères de division dans les arbres de décision
Fonction de perte et surrogate loss
Méthodes « filter, wrapper, embedded » pour la sélection de feature
- Méthodes wrapper (RFE et RFECV)
- Méthodes embedded (Lasso/Decision Tree)
Data
- Chargement de données parquet
- Combinaison de données provenant de sources multiples
- Librairie Polars
Séries temporelles : Ajout d’attributs dérivés
Construction et évaluation de modèle
- Création de son propre « estimator »
- Transformers
- NearestCentroid
Systèmes de recommandation
Metadata routing
Calibration
- Calibration plots et post-calibration avec CalibratedClassifierCV
- Erreur de calibration attendue (ECE) par rapport au pouvoir de classement : ROC AUC et GINI
- Réglage des hyperparamètres grâce à des règles de scoring personnalisée pour la calibration
Interprétation des résultats et communication
- Avec entre autres partial dependance plots et permutation importance
Déploiement de modèles
- Sauvegarder et charger les modèles avec joblib, pickle ou skops
Bonnes pratiques et debugg

Intervenant(s)

Laure Bourgois

Ingénieure-formatrice spécialisée en intelligence artificielle

Docteure en Intelligence Artificielle, experte en IA symbolique et simulations numériques, Laure Bourgois est ingénieure-formatrice spécialisée en intelligence artificielle. Avec plus de 20 ans d’expérience en R&D (Orange Labs, IFSTTAR …) et un ensemble de missions pour des organismes de formations/universités, son expertise couvre un large éventail. Laure est le deuxième expert au niveau international parmi les spécialistes en apprentissage automatique, à recevoir en 2024 Scikit-learn Professional Practitioner Certification délivrée par :probabl.

Les prochaines sessions

3 jours

Témoignages

La formation a été très intéressante et m’a permis de comprendre plus en détail la mise en pratique de l’outillage scikit-Learn proposé par Inria. Elle présente les différentes phases du fonctionnement d’un moteur d’IA et met en évidence l’importance de la mise en forme des données avant le début de l’apprentissage et de la prédiction. Cette formation va nous permettre de mettre en pratique toutes les explications de Laure Bourgois pour adapter notre prototype en cours de développement. »

Franck Ardisson

Architecte systèmes, Armona Systems, France

Creative Commons

Scikit-learn est LA référence en Machine Learning que de nombreuses entreprises utilisent. Chez OVHcloud, il est notamment utilisé pour le monitoring des 21 000 et quelques équipements réseaux présents dans nos data centers. »

Olivier Nicol

Lead Data Scientist, OVHcloud, France

Pour aller plus loin

Informations pratiques

Durée module niveau 1 : 1 journée (6h).
Durée module niveau 2 : 2 jours (12h).
Durée module niveau 3 : 3 jours (18h).
Horaires : 9h-12h / 14h-17h
Délais d’accès : les inscriptions s’arrêtent 15 jours avant la date affichée.
Informations sur l’admission : l’admission au cours fait l’objet d’une sélection préalable. Le candidat doit répondre aux critères des pré-requis indiqués ci-dessus.
Format : toutes les sessions en dehors de l’intra-entreprise se déroulent en distanciel.
Modalités pédagogiques : la formation est délivrée en distanciel, en langue française avec les supports en français. La taille du groupe : 12 personnes maximum.
Privatisation du module (session intra-entreprise) : à partir de 5 personnes. Nous contacter via le formulaire de contact.
Moyens pédagogiques : le support du cours sera fourni aux participants.
Modalités d’évaluation et de suivi : l’évaluation est assurée par les quizz. Une attestation de formation est délivrée à la fin du parcours.
Accessibilité – handicap : Inria s’engage à garantir l’accessibilité de ses formations à distance et en présentiel aux personnes en situation de handicap. Plus de détails

À propos des tarifs

Module niveau 1 (1 jour) : 800 € par personne.
Module niveau 2 (2 jours) : 1700 € par personne.
Module niveau 3 (3 jours) : 2700 € par personne.
Tarifs dégressifs à partir de 5 personnes (-10% de 5 à 9 inscrits, -20% plus de 10 inscrits).
Tarif dégressif pour les entreprises membres du pôle Aktantis (-20%);
Modalités de financement : fonds propres;

Découvrir

Demander plus d'informations

Scikit-learn, la boîte à outils de l’apprentissage automatique

Objectifs

Pré-requis

Programme

Intervenant(s)

Laure Bourgois

Les prochaines sessions

Objectifs

Pré-requis

Programme

Intervenant(s)

Laure Bourgois

Les prochaines sessions

Objectifs

Pré-requis

Programme

Intervenant(s)

Laure Bourgois

Les prochaines sessions

Témoignages

Pour aller plus loin

Informations pratiques

À propos des tarifs

Découvrir

Session deeptech « Skrub like a pro: clean, prepare, and transform your data faster » le 28 mai – NOUVEAU !

Session deeptech « CGAL, la bibliothèque d’algorithmes géométriques » niveau 1 le 29 avril

Session deeptech « CORESE, la boîte à outils des graphes de connaissance » le 2 juin

Session deeptech « Analyse des données de santé sensibles par l’apprentissage fédéré » le 2 avril

Mapping de données existantes vers des graphes de connaissances RDF le 9 juillet

Replay du webinaire AI&Health TeckTalks : l’apprentissage automatique appliqué aux données médicales