Contrat doctoral – Programme doctoral SCAI 2020

Appel à candidatures

Programme doctoral SCAI 2020

Analyse de l’espace littéraire : apprentissage automatique et évaluation des systèmes de reconnaissance des entités nommées

Catégorie : contrat doctoral

Prise de fonction : 1er septembre 2020

Durée : 36 mois

Structure de référence : Laboratoire d’excellence OBVIL

Localisation géographique : Maison de la Recherche, 28 rue serpente, 75006 Paris

  • Description du projet de recherche doctoral :

Les techniques de traitement automatique des langues (TAL) appliquées à l’analyse spatiale des corpus littéraires sont porteuses de promesses pour l’analyse des corpus littéraires. Ce thème de recherche émergent vise notamment l’analyse des lieux dans les œuvres, leur représentation cartographique ainsi que leur rapport aux personnages, à travers une diversité d’auteurs, d’époques ou de courants littéraires.

Malgré l’apparition d’outils de TAL opérationnels, notamment grâce à l’apprentissage profond, la tâche principale de l’analyse spatiale, à savoir la reconnaissance des entités nommées (REN), reste un problème épineux pour la langue française. Une limite importante à la performance de ces outils se situe dans la variabilité des données, de sorte que les résultats sur d’autres langues que l‘anglais restent décevants. Ce manque de robustesse à la variation est particulièrement criant dès lors qu’il est question des corpus littéraires (variations diachroniques, diatopiques, etc.).

À l’intersection du TAL, de l’IA et des humanités numériques (HN), ce projet s’intéresse d’abord à l’évaluation de différentes approches et outils existants pour la REN spatiales et leur applicabilité sur les données littéraires. Ce travail s’appuiera donc sur des outils existants, mais nécessitera aussi le développement d’outils propres et de données manuellement annotées. À partir d’un corpus de 3000 romans du XIXe et XXe siècles, nous poserons la question de la granularité des EN spatiales (rues, villes, régions), de leur nature (réels, imaginaires, disparus) et de leur désambiguïsation.

Ce projet sera porté par une direction interdisciplinaire entre chercheurs en HN, en TAL et en IA avec, d’une part, la question de l’évaluation et de la valeur ajoutée apportée aux utilisateurs finaux des outils, et d’autre part, des questions épistémologiques sur les difficultés rencontrées par les systèmes d’apprentissage à gérer la variabilité et l’inconnu.

Le profil recherché est un(e) étudiant(e) de niveau M2, de formation en apprentissage automatique ou en TAL, avec un intérêt pour les HN littéraires.

  • Personnes à contacter :

Glenn Roe: glenn.roe@sorbonne-universite.fr

Gaël Lejeune: gael.lejeune@sorbonne-universite.fr

Motasem Alrahabi: motasem.alrahabi@sorbonne-universite.fr

Date limite de dépôt des candidatures (lettre de motivation et CV) : 28 mai 2020.