Sondage : usages des outils OCR et NER – laboratoire STIH & équipe projet OBTIC

Chers collègues,

Le laboratoire STIH et l’équipe projet OBTIC, au sein desquels nous sommes doctorants contractuels, mènent un travail conjoint pour déterminer quels sont les usages des chercheurs et des institutions dans les domaines de l’extraction d’informations de documents patrimoniaux. Dans le cadre de nos projets de recherche respectifs, nous nous intéressons particulièrement aux outils de reconnaissance optique de caractères (OCR) et de reconnaissance d’entités nommées (NER). A travers le questionnaire auquel nous vous proposons de répondre, nous souhaitons identifier plus finement les usages de ces outils par la communauté.

Lien vers le questionnaire (3 à 5 minutes) : https://framaforms.org/usages-des-outils-docr-et-de-ner-1618995957.

Un système OCR permet la transformation d’images de textes (par exemple, des numérisations de lettres ou de journaux au format .jpg) en texte brut. Un outil de NER rend possible l’identification automatique des noms propres : personnes, toponymes, mais aussi les organisations, les institutions, les dates cités dans des textes.

Afin de cerner au mieux les attentes des usagers et de développer un outil cohérent avec les pratiques inhérentes au milieu qu’il tend à servir, nous effectuons une étude qualitative sur les usages de l’OCR et de la NER. Nous vous serions obligés de votre aimable participation en tant que professionnel ou amateur dans les domaines de la recherche à partir de corpus textuels, des humanités numériques et des questions relatives aux données patrimoniales et culturelles.

Nous vous remercions d’avance de l’intérêt que vous porterez à notre projet.

Cordialement,

Caroline Parfait, Jean-Baptiste Tanguy, Gaël Lejeune

Jean-Baptiste Tanguy : Sa thèse, dirigée par Glenn Roe et co-encadrée par Gaël Lejeune et Karine Abiven, porte sur l’acquisition automatique et l’exploitation des données textuelles océrisées des mazarinades (courts imprimés parus en France pendant la Fronde).

Caroline Parfait : Sa thèse, dirigée par Glenn Roe et co-encadrée par Gaël Lejeune et Motasem Alrahabi, porte sur les systèmes de reconnaissance automatique (IA) d’entités nommées spatiales/ toponymes appliqués à un corpus de romans français du XIXe siècle.

Gaël Lejeune est maître de conférence en informatique à Sorbonne Université. Ses recherches portent sur l’influence des variations dans le langage (langues, dialectes, données bruitées…) dans les résultats des pipelines de TAL.