Groupe de travail (Ré)utilisabilité

Le groupe de travail (Ré)utilisabilité se réunira pour la première fois le 8 décembre de 14h à 17h.

Pour y participer, contacter :

Cette réunion permettra principalement de définir les principaux axes de travail du groupe et expériences sur lesquels se basera la réflexion.

Groupe « (Ré)utilisabilité » – Réflexions initiales

Pendant de nombreuses années, la communauté Corpus d’auteur, soutenue par la consortium CAHIER en particulier, a fait de nombreux pas en avant pour la numérisation et la constitution d’ensemble de données numériques.

Nous souhaitons proposer un groupe de travail pour mener une réflexion sur les actions et outils permettant que les données, au-delà de leur seule exposition, soient concrètement (ré)utilisables et (ré)utilisées.

Il s’agira de faire partager des retours d’expérience, des méthodologies, des « trucs et astuces » qui permettent réellement la ré-utilisation de données produites dans un autre contexte. Ce partage concernera aussi bien les codes, les encodages que les partis pris éditoriaux et scientifiques.

Au-delà des déclarations de principe, de nombreuses problématiques sont à surmonter pour arriver à la réutilisabilité réelle. Nous prévoyons des séances « retours d’expérience » et des ateliers pratiques autour de ces problématiques.

Ces séances seront en présentiel et en distanciel, elles aboutiront à un « livre blanc » sur la réutilisabilité (le « R » de FAIR). Elles sont ouvertes à tout participant du consortium Cahier ayant des données finalisées ou en voie de l’être et qui se pose la question de comment faire pour qu’elles soient en dialogue avec d’autres données ou réutilisées et exploitées par d’autres.

Nous avons dressé une première liste de réflexions qui ne demandent qu’à être amendées et complétées par le groupe de travail.

Signalement et interopérabilité effectives des publications et des corpus :

  • L’entrepôt de données OAI-PMH est de plus en plus cité comme moyen d’assurer l’interopérabilité et la réutilisabilité. Mais déclarer nos données sur un entrepôt est-il suffisant ? Quel entrepôt choisir et selon quels critères ? Quelle diffusion ?
  • La structuration des données est déterminée par des schémas éditoriaux et des systèmes de production spécialisés (des plates-formes dédiées à l’édition et à la diffusion). Comment celle-ci influence la constitution et la pertinence d’un entrepôt de données ?

Exploitation réelle des données :

  • Le web de données semble une piste fructueuse pour réutiliser et exploiter les corpus d’auteur mais pourquoi et comment bénéficier du web de données ? Quel retour sur investissement alors que ce web de données implique de lourds investissements en temps et compétences d’encodage ?
  • Pour insérer son corpus dans ce web de données, existe-t-il des méthodes transversales qui peuvent s’appliquer de façon génériques ou bien faut-il nécessairement faire du sur-mesure en fonction des principes éditoriaux et techniques de chaque de projet ?
  • Quels usages peut-on mettre en œuvre grâce à l’exposition des données ? Index, graphes, statistiques, extractions… : quelles applications sont réellement possibles ? avec quels outils et quelles méthodes ?

Portabilité effective des données et des plates-formes :

  • On rêve de pouvoir cumuler les données de deux projets pour produire un corpus et des interrogations inédites. Mais comment faire passer les données d’un outil à l’autre et ainsi bénéficier pleinement de l’interopérabilité des données ? Les plates-formes d’édition et de diffusion sont-elles alors des accélérateurs ou des freins à cette interopérabilité ?
  • Où situer la séparation entre les données et leur interface de consultation ? Cette limite est-elle la même sur des plates-formes « génériques », spécialisées ou encore sur des outils ad hoc ?
  • Quel type de référencement des plates-formes et des projets auprès d‘opérateurs tels que nakala, isidore, europeana… ?
  • La circulation des données entre des lieux différents avec des techniques et des principes éditoriaux différents demande une manipulation des données. On se rapproche ainsi du modèle désigné par la notion de « pipeline de données » : faire transiter les données de leur outil natif à d’autres outils ou bases de données, en transformant leur contenant pour pouvoir circuler dans le tuyau, tout en respectant leur intégrité. Cette transformation est souvent opérée par de la curation de données, qui les enrichit au passage. Mais comment créer une « pipeline de données » ? Par exemple, comment gérer des flux de données entre Transkribus/Omeka/TXM ou entre Métopes/référentiels métier.

Ces questions et d’autres qui auront semblé pertinentes aux participants pourront être débattues lors de nos séances et nous nous efforcerons de les faire déboucher sur des ateliers pratiques autour des entrepôts, des interfaces, des outils et des « pipelines ».