Vous êtes cordialement invités au séminaire du vendredi 17 mars de 14h00 à 16h, qui se tiendra en hybride sur zoom et à la Maison de la recherche de Sorbonne Université, au 28 rue Serpente, 75006 Paris — salle D421
Dans ce séminaire nous abordons les questions relatives à l’impact des contaminations d’OCR sur les tâches en aval (entre autres la reconnaissance d’entités nommées) et nous invitons des équipes de recherches à présenter leurs travaux et les difficultés rencontrées lors de l’exploitation de ces données imparfaites ou bruitées. Toutes les contributions sont les bienvenues (voir point 3 du programme de la session)
Nous aurons le plaisir d’assister à une présentation conjointe de Carmen Brando Lebas (Dr et ingénieure de recherche en Humanités numériques à l’EHESS) et Frédérique Mélanie-Becquet (Ingénieure d’études CNRS en production, traitement et analyse de données au Lattice).
Annuaires de propriétaires et des propriétés de Paris (1898, 1903, 1913, 1923) : du papier à la carte
Notre présentation reprendra les grandes étapes du traitement entrepris, entre 2019 et 2022, sur l’Annuaire des propriétaires et des propriétés de Paris et du département de la Seine : transcription, structuration et analyse. Le travail que nous présenterons a été effectué dans le contexte du groupe Annuaires et adresses du consortium Paris Time Machine d’Huma-num.
Notre exposé abordera dans un premier temps la transcription des données : quels outils avons nous utilisé pour passer du format pdf au format texte ? Quels problèmes avons nous rencontrés et comment les avons nous solutionnés ? Dans un second temps, nous nous attarderons sur la structuration et l’analyse des données. Nous montrerons les mécanismes mis en place pour passer du texte à l’analyse. Tout d’abord nous expliquerons comment nous avons structuré nos données : de la création du modèle d’annotation au tableur final. Ensuite nous exposerons nos premiers résultats, les premières analyses effectuées : de l’observation quantitative des données aux premières projection sur carte.
Programme de la session :
1. Présentations sans interruption pour
faciliter le mode hybride pendant 40-50 minutes
2. suivie d’une discussion libre pendant 10-20 minutes
3. puis quelques présentations flash de résultats
récents en forme d’incitations à collaborer. N‘hésitez pas à préparer
1 slide pour servir de support visuel ! toutes les contributions sont les bienvenues
4. Discuter de la création d’une page web et d’un mode d’invitation pour ouvrir le séminaire plus largement ?
5. (on pourra boire un verre après)
En espérant vous voir nombreux⋅ses !
À bientôt,
Joseph Chazalon et Caroline Koudoro-Parfait