Prochaine session deeptech Analyse des données de santé sensibles par l’apprentissage fédéré le 4 juin (NOUVEAU !)

Prochaine session executive education Apprentissage automatique, les briques technologiques pour les PME le 5 juin

Prochaine session état de l’art La cybersécurité des systèmes de contrôle industriel le 12 juin

Prochaine session deeptech Coq, la preuve par le logiciel débutant le 19 juin

Prochaine session deeptech Scikit-learn, la boîte à outils de l’apprentissage automatique débutant le 20 juin

Toutes nos formations
apprentissage automatique Intelligence artificielle

Scikit-learn, la boîte à outils de l’apprentissage automatique

 Module deeptech 
Le but de la formation est d’apprendre à bien utiliser la bibliothèque scikit-learn tout en donnant une compréhension intuitive de l’apprentissage automatique (machine learning) afin d’éviter les écueils méthodologiques. © Inria / Photo É. Garault

Session:

Aucune session disponible actuellement.

Contactez-nous !

Objectifs

Cette formation couvrira les notions de base de l’apprentissage statistique (machine learning) et leur réalisation avec scikit-learn. Nous étudierons comment charger un jeu de données pour l’exposer à scikit-learn, quels sont les types de questions auxquelles l’apprentissage statistique peut répondre, et comment utiliser scikit-learn pour y répondre. Spécifiquement, nous couvrirons l’apprentissage supervisé, avec la sélection et la validation des modèles. Nous étudierons aussi de façon plus détaillée l’assemblage de pipelines de mise en forme de données, et quelques modèles en particulier, tels que les modèles linéaires et les ensembles d’arbres de décision. La formation sera avant tout pratique, axée sur des exemples d’applications avec du code exécuté par les participants.

Public cible : ingénieurs développeurs informatique et ingénieurs R&D.

Pré-requis

  • programmation de base en Python ;
  • familiarité souhaitable avec l’utilisation de notebooks Jupyter ;
  • connaissances de bases en Numpy et Pandas utiles.

Programme

  • notions de base de l’apprentissage statistique (machine learning) supervisé,
  • chargement d’un jeu de données pour l’exposer à scikit-learn et analyse exploratoire de données,
  • entrainement d’un modèle à partir de données purement numériques,
  • traitement des données catégorielles,
  • assemblage d’une pipeline scikit-learn pour chaîner mise en forme des données et apprentissage,
  • évaluation de modèles, notamment par validation croisée,
  • sélection de modèles avec réglage des hyper-paramètres.

Intervenant(s)

  • Laure Bourgois

    Ingénieure-formatrice spécialisée en intelligence artificielle

    Docteure en Intelligence Artificielle, experte en IA symbolique et simulations numériques, Laure Bourgois est ingénieure-formatrice spécialisée en intelligence artificielle. Avec plus de 20 ans d’expérience en R&D (Orange Labs, IFSTTAR …) et un ensemble de missions pour des organismes de formations/universités, son expertise couvre un large éventail. Laure est le deuxième expert au niveau international parmi les spécialistes en apprentissage automatique, à recevoir en 2024 Scikit-learn Professional Practitioner Certification délivrée par :probabl.

Les prochaines sessions

1 jour

Session:

Aucune session disponible actuellement.

Contactez-nous !

Objectifs

  • Maîtriser le fonctionnement intuitif des modèles suivants et leur mise en oeuvre avec scikit-learn: modèles linéaires, modèles d’arbre, modèles d’ensemble, notamment les forêts aléatoires et les modèles à base de boosting ;
  • Comprendre en détail les différents aspects de l’évaluation de modèle, notamment les choix de stratégies de validation croisée et de métrique d’évaluation.

Public cible : ingénieurs développeurs informatique et ingénieurs R&D.

Pré-requis

  • Connaissances équivalentes au contenu du module niveau débutant, en particulier connaître les concepts suivants : distinction entre régression et classification, savoir faire une validation croisée d’une pipeline de classification avec preprocessing, savoir utiliser les outils de sélection d’hyper-paramètres.

Programme

Premier jour :

  • modèles linéaires pour la régression et la classification ;
  • régularisation de modèles linéaires ;
  • modèles d’arbres de décision pour la régression et la classification.

Deuxième jour :

  • ensemble de modèles à base d’arbre : forêt aléatoires et modèles à base de boosting ;
  • évaluation de modèles : stratégies de validation croisée et métriques d’évaluation.

Intervenant(s)

  • Laure Bourgois

    Ingénieure-formatrice spécialisée en intelligence artificielle

    Docteure en Intelligence Artificielle, experte en IA symbolique et simulations numériques, Laure Bourgois est ingénieure-formatrice spécialisée en intelligence artificielle. Avec plus de 20 ans d’expérience en R&D (Orange Labs, IFSTTAR …) et un ensemble de missions pour des organismes de formations/universités, son expertise couvre un large éventail. Laure est le deuxième expert au niveau international parmi les spécialistes en apprentissage automatique, à recevoir en 2024 Scikit-learn Professional Practitioner Certification délivrée par :probabl.

Les prochaines sessions

2 jours

Session:

Aucune session disponible actuellement.

Contactez-nous !

Objectifs

Cette formation experte sur scikit-learn permet une compréhension approfondie et pratique des techniques avancées de modélisation, de diagnostic et de déploiement de modèles.
Elle aborde les algorithmes les plus courants de l’apprentissage non supervisé (clustering, réduction de dimension, séries temporelles ..), avant d’explorer les critères de performance.
Nous aborderons les méthodes de sélection des caractéristiques, les fonctions de perte, ainsi que les notions de calibration et de post-calibration. Un focus sera mis sur le traitement et la combinaison de données complexes, notamment à partir de formats parquet. Les participants apprendront à concevoir leurs propres estimateurs, à ajuster les hyperparamètres et à évaluer les modèles à l’aide d’indicateurs avancés et de visualisations telles que CalibrationDisplay. Des outils comme joblib, pickle ou skops seront utilisés pour le déploiement des modèles en production. La formation intégrera également les bonnes pratiques MLOps, la gestion des métadonnées et l’explicabilité des résultats (partial dependence plots, permutation importance …).

  • Apprentissage automatique de niveau expert : Connaissance approfondie des algorithmes d’apprentissage automatique, y compris des tendances émergentes et des meilleures pratiques.
  • Développement d’algorithmes : Capacité à développer et à mettre en œuvre des algorithmes d’apprentissage automatique personnalisés, adaptés à des problèmes spécifiques.
  • Déploiement de modèles : Expertise dans le déploiement de modèles d’apprentissage automatique dans des environnements de production, y compris la connaissance des MLOps.
  • Recherche et innovation : Capacité à mener des recherches indépendantes et à contribuer au développement de nouvelles méthodes ou de nouveaux outils.
  • Planification stratégique : Participation à la planification à long terme et à l’élaboration de stratégies pour les initiatives de science des données au sein de l’organisation.
  • Vision stratégique : Forte compréhension des tendances générales de l’industrie et du marché afin de définir l’orientation stratégique des efforts d’apprentissage automatique.
  • Diagnostic des modèles : Identifier, dépanner et résoudre les problèmes potentiels dans le pipeline d’apprentissage automatique des autres membres de l’équipe.

Pré-requis

  • connaissances correspondant au niveau avancé.

Programme

  • Concepts d’apprentissage machine
    • Apprentissage supervisé et non supervisé (régression, classification, clustering, réduction de dimension)
    • Types de familles de modèles (rappels)
    • Fonctions de perte et perte de substitution
    • Critères de division dans les arbres de décision
    • Méthodes de filtrage, d’enveloppement et d’intégration pour la sélection des caractéristiques
    • Calibrage (erreur de calibrage attendue) par rapport au pouvoir de classement (ROC AUC / GINI)
  • Prétraitement des données
    • Chargement des ensembles de données parquet
    • Extraire des informations des graphiques (sélectionner la famille de modèle adaptée)
    • Traitement des données
    • Combinaison de données provenant de sources multiples
    • Ajout de nouvelles caractéristiques ou d’attributs dérivés (séries temporelles)
  • Construction et évaluation de modèles
    • Créer son propre estimateur (Nearestcentroid, Systèmes de recommandation, Transformer)
    • Routing des métadonnées
    • Affichage des calibration avec CalibrationDisplay et post-calibration avec CalibratedClassifierCV
  • Sélection et validation de modèles
    • Réglage des hyperparamètres avec ses propres règles de scoring (calibration)
  • Déploiement de modèles
    • Comprendre comment sauvegarder et charger les modèles avec joblib, pickle ou skops
  • Interprétation des résultats et communication
    • Explicabilité et interprétabilité (partial dependence plots: impact non-linear sur la target, « permutation importance »
    • Méthodologie en debbug : (à partir d’un graphique, établir un diagnostic pour le modèle/identifier les pièges dans le processus de modélisation/compréhension du code et bonnes pratiques)

Les prochaines sessions

3 jours

Témoignages

Cette formation m’a permis de conformer les bases que j’avais en IA et m’a permis de découvrir un écosystème français et open-source que je ne connaissais pas.  L’IA n’est pas que l’apanage des grandes boîtes tech US et nos solutions française méritent d’être plus connues. Merci pour cette formation. »

Olivier Journeault

Technical Manager, Komodal

© komodal

La formation a été très intéressante et m’a permis de comprendre plus en détail la mise en pratique de l’outillage scikit-Learn proposé par Inria. Elle présente les différentes phases du fonctionnement d’un moteur d’IA et met en évidence l’importance de la mise en forme des données avant le début de l’apprentissage et de la prédiction. Cette formation va nous permettre de mettre en pratique toutes les explications de Laure Bourgois pour adapter notre prototype en cours de développement. »

Franck Ardisson

Architecte systèmes, Armona Systems

Creative Commons

Scikit-learn est LA référence en Machine Learning que de nombreuses entreprises utilisent. Chez OVHcloud, il est notamment utilisé pour le monitoring des 21 000 et quelques équipements réseaux présents dans nos data centers. »

Olivier Nicol

Lead Data Scientist, OVHcloud, France

© OVHcloud

À propos des tarifs

  • Tarif PME : dans le cadre du projet SME4DD, les PME européennes bénéficient d’un tarif privilégié de 500 € pour le module débutant spécial PME ;
  • Partenariat avec le pôle Systematic et le pôle Aktantis : les entreprises membres du pôle bénéficient d’un tarif privilégié (non cumulable avec le tarif PME) ;
  • Module débutant (1 jour) : 930 € par personne (740 € pour les entreprises membres du pôle Systematic et du pôle SCS) ;
  • Module avancé (2 jours) : 1300 € par personne (1040 € pour les entreprises membres du pôle Systematic et du pôle SCS) ;
  • Module expert (3 jours) : 1700 € par personne (1360 € pour les entreprises membres du pôle Systematic et du pôle SCS) ;
  • Tarifs dégressifs à partir de 5 personnes (-10% de 5 à 9 inscrits, -20% plus de 10 inscrits) et en cas d’achat groupé des modules débutant et avancé (-20%) ;
  • Sauf précision, toutes les sessions en dehors de l’intra-entreprise se déroulent en distanciel.
Plus d'informations sur le projet SME4DD