Extraction, évaluation et visualisation à partir de données étiquetées
Niveau de formation : Master 1 ou 2
Durée : 4 mois renouvelables, 35h/semaine
Début : mars (flexible)
Laboratoire d’accueil : ObTIC, Campus Jussieu, Sorbonne Université, 75006
Contexte et missions
Dans le cadre d’une collaboration entre l’équipe-projet ObTIC (Sorbonne Université) et le laboratoire Lattice (CNRS), ce stage s’inscrit au croisement des humanités numériques (HN) et du traitement automatique des langues (TAL).
Le Lattice a mis au point une chaîne de traitement pour le français (sur le modèle de la chaîne BookNLP conçue pour l’anglais) capable notamment d’identifier les entités (mentions de personnages, lieux, etc.) et les coréférences dans des corpus de type roman en français. ObTIC dispose quant à lui du corpus des éditions numériques (en XML-TEI) de la Comédie humaine de Balzac, établi dans le cadre du projet e-Balzac.
La mission principale du stage consistera à appliquer les outils conçus par le Lattice sur le corpus Balzac, à en évaluer la qualité, puis à utiliser ces annotations pour extraire des réseaux de personnages par roman. On étudiera les différentes façons d’extraire ces réseaux à partir des annotations fournies, et on évaluera la pertinence des différentes représentations obtenues.
Enfin, le ou la stagiaire participera à l’animation d’un atelier dans le cadre de ce projet.
Apports
Participation aux volets techniques de projets de recherches en HN et en TAL, usage d’outils et de formats d’annotation, extraction d’informations pertinentes à partir de données étiquetées, familiarisation avec le fonctionnement d’un laboratoire de recherche.
Compétences attendues
- XML-TEI, Xpath, Python.
- Connaissance générale des formats d’annotation des entités nommées.
- Connaissance appréciée d’un outil de visualisation de réseaux.
- Capacités de modélisation
- Intérêt général pour l’analyse de textes littéraires.
Modalité de travail
Présence minimale selon la situation sanitaire (Campus Jussieu, Sorbonne Univ., 75006). Télétravail avec des points réguliers en visioconférence.
La gratification perçue est conforme au taux légal en vigueur (soit environ 577.50€ par mois).
Candidature
Merci d’envoyer un mail avec un CV à Motasem Alrahabi avant le 20 février 2022.