Présentation
L’extraction de mots-clés est le processus de sélection des termes les plus importants et représentatifs d’un document ou d’un corpus. On peut utiliser cette technique pour résumer le contenu d’un texte, améliorer la recherche d’informations ou analyser des tendances. Les approches courantes d’extraction de mots-clés regroupent la fréquence de termes (bm25, tf-idf…), les graphes de mots, les modèles d’apprentissage automatique, etc.
Objectifs du stage
C’est dans ce contexte que se situent les tâches à effectuer dans le cadre de ce stage. Après une première étape d’état des lieux des travaux récents sur l’extraction des mots-clés, la personne recrutée sera amenée à traiter un corpus autour des opinions d’étudiants, portant sur les enseignements et sur le parcours universitaire. L’objectif est d’analyser cette base de données pour détecter les mots-clés et les phrases les plus importants de chaque texte. Il s’agit donc d’expérimenter les différentes librairies existantes (Yake, KeyBERT, Textrank…) et de les comparer afin de trouver les meilleurs choix techniques pour l’idenification et l’évaluation des résultats.
Le (ou la) stagiaire sera accompagné(e) par une équipe de chercheurs qui travaillent sur ce projet interdisciplinaire (https://obtic.sorbonne-universite.fr/projet/textoscopie/).
Profil recherché
Master ou diplôme équivalent dans l’un des domaines suivants (liste non exhaustive) : informatique, machine learning, humanités numériques, etc.
Compétences : bonne maîtrise de python et des librairies de machine et deep learning pour l’extraction d’information et de mots clés, la classification de textes, les transformers, etc.
Conditions du stage
Lieu de travail : ObTIC-SCAI, campus Pierre et Marie Curie – Sorbonne Université.
Temps de travail hebdomadaire : 35 h maximum, travail à distance possible une fois par semaine.
Durée du stage : 4 à 6 mois.
Début du stage : entre janvier et février 2024.
Gratification : la gratification perçue est conforme taux légal en vigueur.
Modalités de recrutement
Lettre de motivation & CV par mail à motasem.alrahabi@sorbonne-universite.fr
Date limite de candidature : 30 novembre 2023.