Chers membres de la liste,
Vous êtes cordialement invités à la nouvelle saison du séminaire NER for Historical Documents qui se tiendra en hybride sur Zoom et à la Maison de la recherche de Sorbonne Université, au 28 rue Serpente, 75006 Paris (salle S002 — couloir immédiatement à gauche dans la maison de la Recherche) de 13h à 15h. Les dates sont précisées dans le programme détaillé plus bas et vous pouvez charger dans votre calendrier les fichiers Iclandar (.ics) en pj de ce mail.
Le lien de visio sera confirmé quelques jours avant chaque séminaire.
Cette série de séminaires aborde les différentes facettes de l’extraction de données structurées dans des documents historiques, en proposant des retours d’expériences, des présentations techniques de méthodes et d’outils, en essayant de favoriser la mutualisation d’efforts autour de ces problématiques. Toutes les contributions sont les bienvenues n’hésitez pas à nous contacter (voir point 3 du programme de la session).
Programme (4 jeudis de 13h à 15h) :
- 19 octobre : “Analyser les entités dans les romans pour détecter des tendances historiques (grâce au projet BookNLP)”
Thierry Poibeau — https://www.lattice.cnrs.fr/membres/direction/thierry-poibeau/
– directeur de recherche au CNRS
– directeur adjoint du laboratoire LATTICE (Langues, Textes, Traitements informatiques et Cognition)
– titulaire d’une chaire PRAIRIE (Paris Artificial Intelligence Research Institute) en traitement des langues naturelles et humanités numériques
– affiliated lecturer au Département de linguistique théorique et appliquée (DTAL) de l’Université de CambridgeRésumé de la présentation :
Au cours de cet exposé, je présenterai le projet BookNLP, qui vise à produire des outils pour l’analyse de romans (c’est-à-dire de documents longs, où les mêmes personnages peuvent apparaître sur des centaines de pages). Je montrerai l’importance de l’analyse de la coréférence dans ce contexte. J’illustrerai ce travail par des exemples montrant en quoi ce type d’analyse est important pour une meilleure connaissance de la littérature, de son évolution, mais aussi du contexte culturel et social plus généralement (ce que les anglo-saxons appellent »cultural analytics »). - 26 octobre : Titre et résumé à confirmer
Marie Puren, Enseignante-Chercheuse à l’EPITA, coordinatrice scientifique du projet AGODA
- 16 novembre : “De la reconnaissance d’écriture au document understanding”
– Thierry PAQUET, LITIS (Professeur, Université de Rouen, Directeur du LITIS) — https://pagesperso.litislab.fr/tpaquet/
– Denis COQUENET, IRISA (MCF, Université de Rennes) — https://factodeeplearning.github.io/
– Thomas CONSTUM, LITIS (Doctorant, Université de Rouen)Résumé de la présentation :
Cette présentation est dédiée aux approches pour la reconnaissance d’écriture et la reconnaissance d’entités nommées. Nous suivrons l’évolution des techniques utilisées ces dernières années en la matière, et nous nous intéresserons plus particulièrement aux approches récentes basées sur de l’apprentissage profond permettant une reconnaissance de bout-en-bout de documents entiers. Nous verrons comment ces avancées permettent d’envisager le traitement des documents incluant une réelle compréhension de ceux-ci. Des cas d’usage concrets seront étudiés au travers des projets POPP et Exo-POPP portant respectivement sur des tableaux de recensements et des actes de mariages.
- 14 décembre : « NER4Archives : reconnaître, réconcilier et identifier les entités nommées dans les instruments de recherche archivistiques au format EAD » ( provisoire )
Florence Clavaud, Responsable du Lab aux Archives nationales de France, et membre de l’équipe de recherche EA 3624 (Centre Jean-Mabillon) de l’Ecole nationale des chartesRésumé de la présentation (provisoire ) :
Depuis fin 2020, les Archives nationales et l’équipe ALMAnaCH de l’Inria ont joint leurs forces, avec le soutien du ministère de la Culture, pour travailler à la reconnaissance des entités nommées dans les instruments de recherche au format XML/EAD. L’enjeu est important : les Archives nationales gèrent un corpus de plus de 31000 fichiers XML/EAD, qui constituent le coeur de leur système d’information en ligne et qui décrivent les millions de documents et groupes de documents conservés par l’institution ; mais pour diverses raisons ces fichiers sont très peu indexés, ce qui prive les usagers des Archives nationales de points d’entrée appropriés lorsqu’ils font des recherches dans les métadonnées afin d’identifier les documents et données qui les intéressent. II n’est pas possible de procéder à une indexation manuelle de ce corpus. Le problème est globalement le même dans les autres services d’archives français. Les Archives nationales disposent par ailleurs de référentiels servant à l’indexation de ces métadonnées, qu’elles ont sémantisés et souhaitent enrichir par tous les moyens utilisables.
Le projet NER4Archives (Named Entity Recognition For Archives), qui entrera dans sa deuxième phase à l’automne 2023, vise donc à doter les Archives nationales (et potentiellement tout autre service intéressé) de corpus d’apprentissage et de modèles d’IA efficaces pour parvenir à annoter les entités nommées mentionnées dans les fichiers EAD, à les classifier, à les réconcilier et à les lier à des référentiels existants (Wikidata) afin d’en extraire des données, pour produire en sortie des fichiers EAD indexés, les éléments d’indexation ainsi posés étant associés à des notices des référentiels des Archives nationales, qu’elles préexistent ou qu’elles aient été créées dans le cadre du projet.
La présentation, qui sera faite par plusieurs personnes représentant les deux entités qui portent le projet, évoquera dans un premier temps le contexte, les spécificités et les enjeux du projet, en fera l’historique et en présentera les résultats déjà obtenus, pour évoquer ensuite les scénarios et pistes d’intégration des outils développés dans les outils de travail des archivistes.
Références :
– https://github.com/NER4Archives-project
– https://huggingface.co/ner4archives
– Florence Clavaud, Laurent Romary, Pauline Charbonnier, Lucas Terriel, Gaetano Piraino, et al.. NER4Archives (named entity recognition for archives) : Conception et réalisation d’un outil de détection, de classification et de résolution des entités nommées dans les instruments de recherche archivistiques encodés en XML/EAD.. Atelier Culture-INRIA, Ministère de la Culture; Inria; Archives nationales, Mar 2022, Pierrefitte sur Seine, France. ⟨hal-03625734⟩
Format des sessions :
- Présentation invitée sans interruption pour faciliter le mode hybride pendant 40-50 minutes.
- Questions et réponses pendant 10-20 minutes.
- Présentations flash de résultats récents en forme d’incitations à collaborer. N’hésitez pas à préparer 1 slide pour servir de support visuel ! Toutes les contributions sont les bienvenues.
- Discussions libres jusqu’à la fin du créneau.
En espérant vous voir nombreux⋅ses !
À bientôt,
— L’équipe organisatrice
Pour gérer votre abonnement à la liste de diffusion :
https://groupes.renater.fr/sympa/info/ner-for-historical-docs
Page officielle :