Valoriser ses données grâce à leur publication sur le Web de données liées : les technologies du Web Sémantique au service de l’interopérabilité
18/11/2023 , A202

"Les applications passent, les données restent" [1]

Cette phrase d'accroche permet de se rendre compte de l'importance des données dans nos systèmes d'informations.
La gestion de données a pris son essor lors de l'avènement des systèmes de gestion de bases de données. Ces systèmes, assez contraints, mais efficaces, ont permis à l'informatique de prendre une place importante dans notre quotidien. L'augmentation des pratiques liées à l'informatique a mené à une augmentation de la volumétrie des données. Nous avons eu besoin de stocker de plus en plus de données pour pouvoir faire face à de nouveaux défis.
Sont apparues alors des systèmes de type NoSQL pour pouvoir absorber cette volumétrie et permettre de nouvelles façons d'interagir avec les données.

Ces systèmes ont néanmoins des limites et principalement la limite de pouvoir expliciter le sens des données. Il est compliqué d'appréhender une base de données NoSQL sans avoir un minimum de documentation ou d'explication. Même avec ces explications, rien n'interdit de pouvoir changer, d'une donnée à l'autre, la sémantique derrière une relation ou un attribut. Est donc apparu, depuis quelques années, ce besoin dans nos systèmes d'informations de donner du sens à nos données. Nous avons souhaité comprendre ce qui se cache derrière chaque donnée, mais que l'ordinateur puisse, lui aussi, essayer de comprendre les informations stockées dans ces données. Le but étant d'en arriver à manipuler une certaine forme de connaissance.

Tim Berners Lee a posé les premières briques du Web dès le début des années 90. L'objectif premier était de pouvoir manipuler des documents entre différents systèmes d'informations et surtout entre différents systèmes d'exploitation. Mais, rapidement, tous les concepts autour du Web, ont été étendus à la gestion de données. S'il est possible de faire référence de manière non ambigüe (URL) à un document, d'avoir un format de représentation et de sérialisations standardisées pour représenter ces documents et des outils permettant de manipuler ces documents, que se passe-t-il si nous appliquons ces concepts non plus aux documents, mais aux données elle mêmes ?
Cette question a amené Tim Berners Lee à standardiser, en plus de toutes les technologies autour du Web des documents, les technologies et les concepts du Web Sémantique. En créant le W3C, il a donc ouvert un groupe de travail autour des technologies du Web Sémantiques pour standardiser plusieurs concepts clefs :
* Définir un système d'identification des données pérenne et unique sur le Web ?
* Définir un format de modélisation et de sérialisation commun pour toutes les données du Web
* Permettre de définir et de réutiliser des modèles de données génériques
* Faciliter les liens et les interactions entre les données

Si nous faisons le parallèle avec les paragraphes précédents, ce besoin, relativement récent, de donner du sens à nos données et en faciliter l'interopérabilité trouve une grande partie des réponses dans les technologies du Web Sémantique. Ces technologies sont matures puisque existantes depuis plusieurs dizaines d'années, et standardisées par une institution de référence qu'est le W3C. Il ne reste alors que la question de l'adoption de ces technologies par les développeurs et les développeuses dans nos projets de valorisation de données.

Nous proposons ici une présentation autour de ces idées pour démontrer l'intérêt de l'utilisation des technologies du Web Sémantique et leur facilité d'adaptation. Pour cela, nous nous basons sur un certain nombre d'outils libres que nous, Logilab, avons développé ainsi que plusieurs exemples de réalisations à succès tels que https://data.bnf.fr ou encore https://francearchives.gouv.fr pour ne citer que ceux-là.

[1] Nicolas Chauvat 2014

Fabien est un docteur ingénieur en informatique, spécialiste des technologies du Web Sémantique. Travaillant à Logilab depuis maintenant 4 ans, il est particulièrement investi dans les sujets qui concernent la recherche, notamment en Web Sémantique.
Il a participé à différents projets impliquant ces technologies, que ce soit sur data.bnf, FranceArchives, etc.
Avec la collaboration avec Siemens, il contribue au standard W3C Thing Description.
Il participe régulièrement à des conférences, scientifiques ou techniques, pour échanger, discuter et faire évoluer les concepts autour du Web Sémantique.

Après ma thèse pour réconcilier des modèles de données, j'ai été embauchée par Logilab où j'aide les institutions publiques et entreprises à gérer et publier leurs données de la manière la plus "réutilisable" possible.