Vers un web de données antiques

Les technologies du Web sémantique font l’objet d’un regain d’intérêt dans le domaine des études anciennes outre-atlantique. Une des principales raisons à cela tient au besoin croissant d’interopérabilité entre des masses de données souvent produites dans des formats différents, pour des besoins et des projets différents. Plusieurs initiatives anglo-saxonnes se sont engagées dans cette voie et jettent les bases d’un un “web de données antiques” (Ancient World Linked Data), un espace global de données sur l’Antiquité interconnectées à l’échelle du Web selon les principes définis par le W3C.

Graphe de données antiques
Représentation du graphe de données antiques, état de juin 2012 (R. Robineau, CC BY-SA). Cliquer pour voir la version interactive.

Cet intérêt grandissant pour le web sémantique se traduit par des manifestations comme le Linked Ancient World Data Institute (LAWDI), un séminaire qui se veut un lieu d’échanges et de formation entre praticiens. Un des objectifs est d’étendre la communauté de personnes impliquées dans la création de ressources numériques sur l’Antiquité utilisant les principes et méthodes du Linked Data (ou « Web de données »). Il s’agit aussi d’engager le dialogue sur ces questions entre personnes issues d’horizons différents (chercheurs, experts techniques, développeurs, bibliothécaires, professionnels des musées et des archives). La première session du séminaire s’est tenue à l’université de New York du 31 mai au 2 juin. Les présentations des différentes interventions reflètent bien la diversité des projets dans lesquels plusieurs disciplines et types de données sont représentés (données bibliographiques, données géographiques, papyrologie, numismatique, archéologie, philologie).

Dans le domaine de l’archéologie, des publications ont vu le jour ces dernières années. On citera à titre indicatif : Semantic Interoperability in Archaeological Datasets: Data Mapping and Extraction Via the CIDOC CRM (2008)1 et la thèse Archaeology and the Semantic Web (2011)2. Côté français, on notera avec intérêt la communication sur « L’ontologie CIDOC CRM appliquée aux objets du patrimoine antique »3 aux Journées informatique et archéologie de Paris qui ont eu lieu les 1er et 2 juin 2012.

Focus sur le projet Pelagios

Pelagios (Enable Linked Ancient Geodata In Open Systems) est un projet porté par The Open University, l’université de Southampton et le Austrian Institute of Technology.

Son objectif est d’appliquer les bienfaits d’un web de données liées et ouvertes (Linked Open Data) aux ressources en ligne qui font référence à des lieux antiques. Pelagios, qui signifie “de la mer” en grec (πελάγιος), est une métaphore appropriée pour un projet qui a pour ambition d’interconnecter des données (en l’occurrence des références à des lieux antiques) dispersées dans une multitude d’îlots (gisements de données), eux-mêmes isolés tel un vaste archipel. Il le fait en privilégiant une approche pragmatique et ouverte qui favorise l’intégration de nouvelles ressources issues d’autres partenaires. Pelagios peut être perçu comme la première pierre d’un web de données liées sur l’Antiquité, au même titre que Claros. Il vise à constituer un « hub » de données reliées entre elles autour de la notion de lieu antique.

Le principe général de Pelagios consiste à :

  • annoter des références à des lieux avec les entrées correspondantes du référentiel géographique Pleiades.
  • publier sur le web ces annotations exprimées en RDF selon le vocabulaire Open Annotation.

La principale réalisation du projet est le Pelagios Graph Explorer, un outil de visualisation qui permet d’explorer les relations entre différents lieux à travers les ressources qui leur sont associées, et les relations entre ressources à travers les lieux auxquelles elles font référence. Il s’agit d’une version démo non finalisée.

Pelagios dispose aussi d’une API exposant les données au format JSON. L’ensemble de la documentation et des codes source de l’application est disponible sur GitHub (voir notamment le “cookbook” pour tous les aspects techniques).

Le principe de Pelagios reposant sur la notion de lieu, le référentiel géographique Pleiades est la pierre angulaire du dispositif. C’est aussi le cas de Google Ancient Places, un projet de cartographie des lieux antiques cités dans un corpus d’ouvrages numérisés dans le cadre du programme Google Books. Ce projet financé par la firme de Mountain View a débouché sur la réalisation d’une application prototype intitulée GapVis. Il s’agit d’une interface de recherche et de visualisation qui permet d’explorer un texte à travers les noms de lieux cités à différents endroits du récit.

Issu à l’origine du Barrington Atlas of the Greek and Roman World, Pleiades est un index géographique sur le monde ancien. C’est un projet communautaire, évolutif et entièrement ouvert, porté par le Institute for the Study of the Ancient World (ISAW, New York University). Il constitue à ce jour le plus vaste ensemble de données sur l’Antiquité publié selon les principes du Linked Data et occupe à ce titre une position centrale dans le graphe global de données antiques. Les données de Pleiades sont placées sous une licence libre : on peut donc les télécharger intégralement et les réexploiter dans un autre contexte. Pleiades est référencé dans the Data Hub, le répertoire global des jeux de données (datasets) librement accessibles sur le Web.

 Un mot sur les applications

Les outils tirant parti de l’ouverture des données et de leur structuration selon les principes du Linked Data sont encore à un stade embryonnaire dans les sciences de l’Antiquité.

Outre les prototypes mentionnées ci-dessus (GapVis, Pelagios Graph Explorer), seul le projet Claros a débouché à ce jour sur une réalisation d’envergure, à savoir un portail qui agrège et enrichit sémantiquement des données provenant pour une large part de collections numériques d’objets antiques (céramique, gemmes, monnaies, sculptures, inscriptions, etc.). Il propose une interface de recherche permettant une interrogation simultanée des données fournies par les différents partenaires de Claros (dont le LIMC4, la Beazley Archive, Arachne, etc.). Le système a été conçu autour du CIDOC CRM, un modèle sémantique de référence pour l’information relative au patrimoine culturel. Cette ontologie a fourni une sorte de langage commun pour pallier à l’hétérogénéité des données et permettre leur intégration dans le portail (et donc dans le même temps dans le Web de données). Les données brutes de Claros sont aussi accessibles directement dans des formats lisibles et exploitables par des outils informatiques, notamment à travers un Sparql endpoint.

Parmi les outils récents en développement, on trouve Awld.js, une librairie Javascript qui permet d’implémenter facilement dans une page web des widgets spécialisés sur l’Antiquité5. Concrètement, le but est d’afficher des informations contextuelles au survol de certains liens en se basant sur des URI stables de ressources web sur le monde ancien (ressources décrivant un objet, une personne, un lieu, un texte…). Pour des explications détaillées sur la librairie et une démonstration de son fonctionnement, voir la page de démo (version francisée).

Pour conclure

Grâce à des initiatives comme Pelagios et Claros, une communauté d’intérêts et de pratiques autour du Web sémantique pour les sciences de l’Antiquité commence à émerger (même si celle-ci reste très majoritairement anglo-saxonne). Du côté français, on peut espérer qu’à terme les efforts de sensibilisation entrepris autour de la plateforme Isidore porteront leurs fruits, auprès des antiquisants et de l’ensemble des communautés SHS.

Pour les défenseurs de ce nouveau paradigme de publication et d’accès qu’est le Web de données, l’enjeu est de convaincre les chercheurs des avantages qu’il peut y avoir à ouvrir leurs données (et non pas seulement les métadonnées), à les échanger, les structurer et les publier selon le principes du Linked Data. Les professionnels de la documentation et les ingénieurs en « digital humanities » ont bien sûr un rôle décisif à jouer dans cette entreprise.

Il ne s’agit plus simplement de diffuser ses documents ou sa base de données sur le Web, mais de placer les données elles-mêmes dans le Web en les reliant à d’autres données issues d’autres sources… C’est en cela qu’on parle de construire une « base de données globale » à l’échelle du Web tout entier. Les données sur l’Antiquité, qu’elles soient scientifiques ou patrimoniales, y ont toute leur place. Pour rejoindre le mouvement, il convient de les insérer dans ce « web de données antiques » encore embryonnaire (se reporter au graphe) et faire en sorte de les interconnecter à d’autres gisements d’informations et d’autres référentiels sur le Web.

Growing up is never easy
Growing up is never easy… (Source: Flickr, par frauboeb CC BY-NC-SA)

  1. Ceri Binding, Keith May and Douglas Tudhope, Semantic Interoperability in Archaeological Datasets: Data Mapping and Extraction Via the CIDOC CRM, In: Research and Advanced Technology for Digital Libraries. Lecture Notes in Computer Science, 2008, Volume 5173, p. 280-290, Url: http://dx.doi.org/10.1007/978-3-540-87599-4_30 []
  2. Leif Isaksen, Archaeology and the Semantic Web, University of Southampton, School of Electronics and Computer Science, Doctoral Thesis, 259p., Url: http://eprints.soton.ac.uk/206421/ []
  3. Présentation de l’intervention sur le site de la conférence : http://jiap2012.sciencesconf.org/browse/session?sessionid=717 []
  4. Pour en savoir plus sur le LIMC et son intégration dans Claros, lire l’article d’Anne-Violaine Szabados, Du système documentaire du LIMC au portail CLAROS, disponible sur Hal-SHS []
  5. Cette petite application rappelle un peu l’idée de la knowledge box developpée il y a quelques années par Gautier Poupeau sur son blog. []

Lire aussi sur Insula :

Citer ce billet

Régis Robineau, « Vers un web de données antiques », Insula [En ligne], ISSN 2427-8297, mis en ligne le 21 juin 2012. URL : <https://insula.univ-lille.fr/2012/06/21/vers-un-web-de-donnees-antiques/>. Consulté le 29 March 2024.