graphes de connaissance Intelligence artificielle

Mapping de données existantes vers des graphes de connaissances RDF

Module deeptech Nouveau
Plusieurs langages permettent aujourd’hui de décrire la transformation de données structurées (RDB, JSON, CSV) en graphes RDF. Ils automatisent cette conversion, facilitant l’interopérabilité avec le Web sémantique et l’intégration des données dans des graphes riches et interconnectés. © Inria / Photo S. Erôme - Signatures

Session:

Aucune session disponible actuellement.

Contactez-nous !

Objectifs

Ce cours s’adresse à des ingénieurs en informatique impliqués dans l’intégration de données hétérogènes au cœur des systèmes d’information. Son premier objectif est de vous fournir un panorama des langages existants pour décrire la transformation – le « mapping » – de données structurées (RDB, JSON, CSV…) vers des graphes de connaissances au format RDF. Ce que l’on appelle également le « lifting » de données. L’idée est de générer des graphes reposant sur des vocabulaires et ontologies de votre choix, soit génériques comme Schema.org, soit spécifiques à votre domaine ou votre entreprise. Nous insisterons plus particulièrement sur les langages de mapping R2RML, RML et xR2RML.

Dans un deuxième temps, une session pratique vous permettra d’expérimenter plusieurs outils implémentant ces langages, pour mapper vos données JSON et CSV vers RDF.

Dans une dernière partie, nous aborderons la production des métadonnées permettant de documenter et indexer les graphes de connaissances produits, puis nous évoquerons les évolutions en cours dans le domaine des langages de mapping avec le travail du groupe communautaire du W3C « Knowledge Graph Construction » et les extensions de RML.

Public cible : ingénieurs développeurs informatique et ingénieurs R&D.

À l’issue de la formation, les participants seront en mesure de

concevoir et implémenter des mappings permettant de transformer des données hétérogènes (bases relationnelles, JSON, CSV) en graphes RDF conformes à des vocabulaires ou ontologies cibles, en utilisant les langages R2RML, RML et xR2RML et leurs outils associés (RMLMapper, YARRRML).
appliquer les bonnes pratiques de modélisation, produire des métadonnées descriptives (DCAT, VoID, SPARQL-SD) pour documenter et indexer les graphes générés, et comprendre les évolutions des standards de mapping vers RDF.

Pré-requis

Maitrise des formats de données courants : CSV, JSON ;
Connaissances des standards du Web de données : modèle RDF et ses syntaxes Turtle/N-Triples, SPARQL ;
Habitude des environnements en ligne de commande (bash, command Windows) ;
Savoir utiliser l’environnement Docker.

Programme

Demie-journée 1 :

Panorama des langages et méthodes de transformation de données hétérogènes en graphes RDF
Rappels sur les syntaxes RDF N-Triples et Turtle
R2RML, le standard du W3C : principes, syntaxe
RML (1/2): comment RML étend R2RML
Session pratique (1/2) : mapper des fichiers JSON/CSV avec le langage RML et l’outil RMLMapper

Pendant cette session, chaque apprenant peut travailler sur des cas d’usage concrets en s’appuyant sur « ses » données.

Demie-journée 2 :

RML (2/2) : fonctionnalités avancées, limitations, bonnes pratiques
Session pratique (2/2) : suite de la session de pratique de la première demie-journée
Écrire un mapping RML plus facilement avec YARRRML
Documenter un graphe avec des métadonnées : DCAT, VoID, SPARQL-SD, et l’outil Metadatamatic
Vers RML 2.0 : perspectives et évolution

Intervenant(s)

Franck Michel

Ingénieur de recherche Inria

Franck Michel est ingénieur de recherche CNRS au laboratoire I3S, et membre de l’équipe-projet Wimmics du centre Inria d’Université Côte d’Azur. Après avoir travaillé pendant 14 ans dans le secteur privé, il a soutenu sa thèse de doctorat en 2017 sur la fédération de données hétérogènes et leur publication sur le web de données.

Ses travaux de recherche ont trait à l’ingénierie des connaissances et leur représentation sous forme de graphes, le web sémantique et le web de donnée liées (Linked Data). Il est ou a été impliqué dans plusieurs projts visant l’exploitation de ces technologies dans différents domaines comme la littérature scientifiqe (ISSA), la biodiversité (collaboration avec le Muséum National d’Histoire Naturelle de Paris, Bioschemas.org, GDR SemanDiv), l’agronomie et l’agriculture (ANR D2KAB). Il est membre du Knowledge Graph Construction Community Group du W3C qui vise à proposer un standard pour le langage d mapping RML. L’objectif commun à toutes ces initiatives est de permettre la réutilisation et la valorisation des données en les publiant sur le web dans le respect des principes FAIR.

@coll.privée

Les prochaines sessions

Informations pratiques

Durée : 1 journée (6h). La formation peut être proposée sur deux demi-jourées.
Horaires : 9h – 12h / 13h30 – 16h30 3h-17h.
Délais d’accès : les inscriptions s’arrêtent 15 jours avant la date affichée.
Informations sur l’admission : l’admission aux sessions fait l’objet d’une sélection préalable. Le candidat doit répondre aux critères des pré-requis indiqués ci-dessus.
Format : toutes les sessions en dehors de l’intra-entreprise se déroulent en distanciel.
Modalités pédagogiques : la formation est délivrée en distanciel, en langue anglaise avec les supports en anglais. Le cours peut se dérouler en français si tous les participants sont francophones. La taille du groupe : 12 personnes maximum.
Privatisation du module (session intra-entreprise) : à partir de 5 personnes. Nous contacter via le formulaire de contact.
Moyens pédagogiques : une récente version de SOFA sera requise pour ce cours niveau 1. Les participants vont utiliser Python et les binaires distribuées basées sur Python 3.12 (version 3.10 disponible sur Linux). Le support du cours sera fourni aux participants.
Modalités d’évaluation et de suivi : l’évaluation est assurée par les quizz. Une attestation de formation est délivrée à la fin du parcours.
Accessibilité – handicap : Inria s’engage à garantir l’accessibilité de ses formations à distance et en présentiel aux personnes en situation de handicap. Plus de détails

A propos de nos tarifs

Tarif : 800 € par participant
Tarifs dégressifs à partir de 5 personnes (-10% de 5 à 9 inscrits, -20% plus de 10 inscrits)
Tarif dégressif pour les entreprises membres du pôle Aktantis (-20%)
Modalités de financement : fonds propres

Découvrir

Demander plus d'informations

Mapping de données existantes vers des graphes de connaissances RDF

Objectifs

Pré-requis

Programme

Demie-journée 1 :

Demie-journée 2 :

Intervenant(s)

Franck Michel

Les prochaines sessions

Informations pratiques

A propos de nos tarifs

Découvrir

Session deeptech « Scikit-learn, la boîte à outils pour l’apprentissage automatique » niveau 2 les 21 et 22 avril

Session de formation deeptech « Analyse des données de santé sensibles par l’apprentissage automatique » le 2 avril

Session de formation deeptech « CORESE, la boîte à outils des graphes de connaissance »

Session de formation deeptech « CGAL, la bibliothèque d’algorithmes géométriques » le 29 avril

Session de formation deeptech « Rocq, la preuve par le logiciel » le 29 avril

Session de formation deeptech « Scikit-learn, la boîte à outils de l’apprentissage automatique » niveau 1 le 16 juin