Prochaine session état de l’art La sécurité informatique face aux menaces quantiques le 8 janvier

Prochaine session état de l’art Les dispositifs médicaux intégrant de l’IA : challenges méthodologiques et règlementaires le 3 février – NOUVEAU

Prochaine session executive education Apprentissage automatique, les briques technologiques pour les PME le 6 février – GRATUIT

Prochaine session deeptech CORESE, la boîte à outils des graphes de connaissance le 6 février

Apprentissage automatique, les briques technologiques pour les PMEspécial IA générative et IA agentique le 6 février – GRATUIT

Toutes nos formations
Intelligence artificielle

Convergence HPC et IA

 Module état de l’art 
Ce cours explore les activités situées à la convergence entre le calcul haute performance (HPC) et l’intelligence artificielle.

Session:

Aucune session disponible actuellement.

Contactez-nous !

Objectifs

Le cours s’ouvre sur l’étude des besoins massifs en calcul induits par l’apprentissage et l’inférence des grands modèles d’IA, qui mobilisent aujourd’hui des infrastructures HPC à très grande échelle. La deuxième partie aborde l’usage de l’IA pour traiter en temps réel les volumes colossaux de données produits par les simulations numériques, afin de les analyser, compresser et rendre exploitables. Le troisième chapitre présente les approches émergentes où des modèles d’IA remplacent ou accélèrent certaines composantes des simulations classiques. Enfin, la dernière partie examine l’apport de l’IA au service du HPC lui-même, notamment pour le débogage, l’optimisation de code et l’ordonnancement. L’ensemble propose une vision complète des synergies entre HPC et IA.

  • Public visé
    – Ingénieurs et chercheurs en simulation numérique,
    – data scientists travaillant sur des données massives,
    – architectes et responsables de plateformes HPC/Edge/Cloud,
    – développeurs impliqués dans l’entraînement ou l’inférence de grands modèles d’IA nécessitant des infrastructures HPC.
  • Résumé :

Partie 1 (Olivier Beaumont) HPC pour l’IA : L’objectif principal est de comprendre les différentes stratégies parallèles qui peuvent être mises en œuvre pour accélérer l’apprentissage (training) et l’inférence des très gros modèles (typiquement des LLM) sur de grosses plateformes parallèles (typiquement de quelques milliers de GPU pour l’apprentissage).

Partie 2 (Gabriel Antoniu): Analyse de données In Situ : Les simulations HPC modernes produisent des volumes de données tels qu’il n’est plus réaliste de tout stocker et analyser a posteriori. Cette séquence présente les approches d’analyse in situ et in transit, qui permettent de traiter, filtrer et réduire les données au plus près de leur production, puis d’alimenter des workflows d’analyse ou d’IA en continu. Des systèmes de référence (ADIOS2, Damaris, outils de visualisation) et des cas d’usage concrets serviront de fil conducteur.

– Comprendre les limites des approches d’analyse post hoc dans un contexte pré-exascale / exascale.
– Distinguer clairement les approches in situ, in-line et in transit et leurs scénarios d’usage.
– Identifier les principales briques logicielles et schémas d’architecture pour intégrer l’in situ dans un workflow HPC–IA.

 Partie 3 (Bruno Raffin) Utilisation de l’apprentissage dans la simulation numérique

L’objectif est de parcourir les méthodes à base de réseaux de neurones profonds pour la simulation numérique, allant des métamodèles (surrogates) à l’augmentation des solveurs classiques et la résolution de problèmes inverses. Seront aussi discutés les problématiques de mise en oeuvre et couplage sur les supercalculateurs.

Partie 4 (Emmanuelle Saillard) Utilisation de l’IA pour l’allocation de ressources, l’ordonnancement et la programmation

Représentation d’un programme sous forme d’embedding, méthodes d’optimisation, concevoir des modèles pour la détection d’erreurs

  • Objectifs pédagogiques:
    – Comprendre les problématiques liées à l’utilisation du HPC pour l’apprentissage (training et inférence)
    – Expliquer les principes de l’analyse in situ et in transit.
    – Lire et interpréter un schéma simple de workflow in situ (simulation, transport, analyse/visualisation, stockage).
    – Positionner des outils comme ADIOS2 ou Damaris dans une architecture HPC existante.
    – Évaluer qualitativement l’intérêt de l’in situ pour un cas d’usage donné (réduction de données, coût en temps de calcul, impact sur l’application).
    – Comprendre comment les réseaux de neurones viennent prendre place dans le paysage de la simulation numérique.
    – Principes d’utilisation de l’IA pour l’optimisation des systèmes HPC

 

Programme

Partie 1 HPC pour l’IA 

  • Introduction générale
  • Apprentissage (training)
    – training vs simulation
    – Pipeline Parallelism, Data Parallelism, Tensor Parallelism et Sequence Parallelism
    – Analyse en terme de coût de communication et de cout mémoire
    – Combinaison des parallélismes
  • Inférence
    – problématiques liées à l’efficacité: prefill et decode
    – batching

Partie 2 : Analyse de données In Situ

  • Contexte : pourquoi l’analyse in situ ?
    – Explosion des volumes de données produits par les simulations.
    – Limites du stockage et de l’analyse post hoc.
    – Lien avec la convergence HPC–IA : besoin de flux de données pour l’apprentissage et l’inférence.
  • Concepts clés : post hoc, in situ, in-line, in transit
    –  Définitions et différences entre les approches.
    – Placement de l’analyse : mêmes ressources que la simulation, cœurs/nœuds dédiés, ressources distantes.
    – Principaux compromis : surcharge de calcul, mémoire, réseau, simplicité de mise en œuvre.
  • Panorama de solutions logicielles
    – ADIOS2 : moteur d’E/S et de streaming pour coupler simulation et analyse.
    – Damaris : offload des E/S et de l’analyse sur cœurs dédiés, couplage avec la visualisation.
    – Connexions possibles vers des outils de visualisation ou d’IA.
  • Cas d’usage et discussion
    – Illustration sur une ou deux applications de simulation (type CFD / physique numérique).
    – Gains observés et limites rencontrées.
    – Échanges avec les participants sur leurs propres cas d’usage.

 Partie 3 : Utilisation de l’apprentissage dans la simulation numérique

  • Introduction et motivation
  • Apprentissage de deep surrogate
    – Apprentissage sans ou avec données
    – Les architectures neuronales déterministes: PINNS, U-net, FNO, PDE-Transformers,…
    – Les architectures stochastiques: les réseaux de diffusions
    – Les modalités d’apprentissage, hors ligne ou en ligne
  • Les deep surrogate pour des usages plus avancés:
    – Analyse de sensibilité
    – Assimilation de données
    – Problèmes inverses (calibrage)
  • Le couplage de solveurs classiques et réseaux de neurones
    – Super-résolution
    – Réseaux hybrides intégrant un solveur différentiable

Partie 4 Utilisation de l’IA pour l’allocation de ressources, l’ordonnancement et la programmation

  • Définir les principes et notions de base en compilation: focus sur le compilateur LLVM, représentation intermédiaire d’un code
  • Découverte d’outils pour représenter un programme sous forme d’embedding (ex: IR2VEC)
  • Comprendre comment un modèle peut (1) guider les développeurs et développeuses à optimiser un code sur une architecture donnée et (2) déterminer si un code parallèle est correct ou s’il contient une erreur.

Intervenant(s)

  • Olivier Beaumont

    Olivier Beaumont est Directeur de Recherche à l’Inria depuis 2008. Son domaine de recherche, initialement centré sur l’optimisation combinatoire (ordonnancement, équilibrage de charge) et l’algèbre linéaire haute performance s’est fortement réorienté vers l’apprentissage haute performance depuis 2017. Il est actuellement responsable de l’équipe projet Topal (qui s’intéresse à la conception d’outils efficaces pour le HPC en Algèbre linéaire et en Apprentissage) et du défi Cupseli avec HiveNet (qui s’intéresse en particulier à l’apprentissage et l’inférence sur des ressources hétérogènes, volatiles et distribuées). Il a été entre 2010 et 2017 Délégué Scientifique du centre Inria Bordeaux Sud-Ouest. Il est Editeur Associé en Chef du Journal of Parallel and Distributed Algorithms (JPDC, Elsevier) depuis 2019 et a été Track Chair des principales conférences du domaine du HPC (SuperComputing, IPDPS, ICPP, EuroPar, HiPC, SBAC-PAD,…).

  • Gabriel Antoniu

    Gabriel Antoniu est directeur de recherche à Inria et responsable de l’équipe-projet KerData au centre Inria de l’Université de Rennes. Ses travaux portent sur la gestion de données et le calcul haute performance, en particulier sur les E/S à grande échelle, les workflows de données pour les simulations scientifiques et l’intégration de l’IA sur le continuum Edge–Cloud–HPC. Il coordonne le projet national Exa-DoST du PEPR NumPEx qui aborde des défis liés à l’analyse in situ et de la convergence HPC–IA.

  • Bruno Raffin

    Bruno Raffin est directeur de recherche à l’INRIA et responsable de l’équipe DataMove. Il a dirigé des recherches sur les applications parallèles à grande échelle orientées flux de données pour la visualisation scientifique, le pilotage computationnel, l’analyse de données in situ, l’analyse de sensibilité basée sur des ensembles, l’assimilation de données, avec aujourd’hui un accent particulier sur l’IA pour la science et l’apprentissage profond par substitution.

  • Emmanuelle Saillard

    Emmanuelle Saillard est chargée de recherche au centre Inria de l’Université de Bordeaux dans l’équipe-projet Storm. Ses travaux de recherche s’orientent autour du HPC (calcul haute performance), et plus particulièrement sur le développement d’outils permettant d’aider les personnes qui créent des applications à les écrire de manière correcte et efficace.

Les prochaines sessions

Informations pratiques

  • Tarif : 850 € par participant ; Tarif spécifique pour les membres de Teratec le 10 mars 2026
  • Tarifs dégressifs à partir de 5 personnes (-10% de 5 à 9 inscrits, -20% plus de 10 inscrits) ;
  • Durée : 1 journée (6 heures de 9h à 12h et de 14h à 17h) ;
  • Lieu : en distanciel ;
  • Nombre de participants : jusqu’à 20 personnes ;
  • Langue : français
  • Privatisation : La privatisation de cette formation est possible au sein d’une même entreprise à partir de dix participants.
  • Méthodes pédagogiques : La formation intègre une partie théorique avec des exercices pratiques.
    Le matériel et  les ressources nécessaires seront fournis afin de favoriser l’apprentissage autonome après le cours
  • Modalités d’évaluation des acquis de la formation : A l’issue de la formation, l’envoi des questionnaires permettent d’évaluer le niveau des compétences acquises
  • Délais d’accès : la programmation est soumise à la disponibilité des scientifiques d’Inria. Une inscription anticipée est recommandée. La confirmation de la session intervient au plus tard 2 semaines à l’avance

————————————————————

Cette formation a été développée avec le concours du pole TERATEC et des projets européens EUROCC2 et AI Factory