Le cours s’ouvre sur l’étude des besoins massifs en calcul induits par l’apprentissage et l’inférence des grands modèles d’IA, qui mobilisent aujourd’hui des infrastructures HPC à très grande échelle. La deuxième partie aborde l’usage de l’IA pour traiter en temps réel les volumes colossaux de données produits par les simulations numériques, afin de les analyser, compresser et rendre exploitables. Le troisième chapitre présente les approches émergentes où des modèles d’IA remplacent ou accélèrent certaines composantes des simulations classiques. Enfin, la dernière partie examine l’apport de l’IA au service du HPC lui-même, notamment pour le débogage, l’optimisation de code et l’ordonnancement. L’ensemble propose une vision complète des synergies entre HPC et IA.
- Public visé
– Ingénieurs et chercheurs en simulation numérique,
– data scientists travaillant sur des données massives,
– architectes et responsables de plateformes HPC/Edge/Cloud,
– développeurs impliqués dans l’entraînement ou l’inférence de grands modèles d’IA nécessitant des infrastructures HPC.
Partie 1 (Olivier Beaumont) HPC pour l’IA : L’objectif principal est de comprendre les différentes stratégies parallèles qui peuvent être mises en œuvre pour accélérer l’apprentissage (training) et l’inférence des très gros modèles (typiquement des LLM) sur de grosses plateformes parallèles (typiquement de quelques milliers de GPU pour l’apprentissage).
Partie 2 (Gabriel Antoniu): Analyse de données In Situ : Les simulations HPC modernes produisent des volumes de données tels qu’il n’est plus réaliste de tout stocker et analyser a posteriori. Cette séquence présente les approches d’analyse in situ et in transit, qui permettent de traiter, filtrer et réduire les données au plus près de leur production, puis d’alimenter des workflows d’analyse ou d’IA en continu. Des systèmes de référence (ADIOS2, Damaris, outils de visualisation) et des cas d’usage concrets serviront de fil conducteur.
– Comprendre les limites des approches d’analyse post hoc dans un contexte pré-exascale / exascale.
– Distinguer clairement les approches in situ, in-line et in transit et leurs scénarios d’usage.
– Identifier les principales briques logicielles et schémas d’architecture pour intégrer l’in situ dans un workflow HPC–IA.
Partie 3 (Bruno Raffin) Utilisation de l’apprentissage dans la simulation numérique
L’objectif est de parcourir les méthodes à base de réseaux de neurones profonds pour la simulation numérique, allant des métamodèles (surrogates) à l’augmentation des solveurs classiques et la résolution de problèmes inverses. Seront aussi discutés les problématiques de mise en oeuvre et couplage sur les supercalculateurs.
Partie 4 (Emmanuelle Saillard) Utilisation de l’IA pour l’allocation de ressources, l’ordonnancement et la programmation
Représentation d’un programme sous forme d’embedding, méthodes d’optimisation, concevoir des modèles pour la détection d’erreurs
- Objectifs pédagogiques:
– Comprendre les problématiques liées à l’utilisation du HPC pour l’apprentissage (training et inférence)
– Expliquer les principes de l’analyse in situ et in transit.
– Lire et interpréter un schéma simple de workflow in situ (simulation, transport, analyse/visualisation, stockage).
– Positionner des outils comme ADIOS2 ou Damaris dans une architecture HPC existante.
– Évaluer qualitativement l’intérêt de l’in situ pour un cas d’usage donné (réduction de données, coût en temps de calcul, impact sur l’application).
– Comprendre comment les réseaux de neurones viennent prendre place dans le paysage de la simulation numérique.
– Principes d’utilisation de l’IA pour l’optimisation des systèmes HPC