Présentation
La détection de stance (stance detection) fait partie des tâches émergentes de TAL et de Machine Learning ces dernières années. Il s’agit de l’identification automatique de la cible d’une opinion ou bien des cibles de plusieurs opinions et leur étiquetage en différentes classes comme « pour » ou « contre ».
Utilisée dans différents domaines comme la détection des paroles qui incitent la haine, la prédiction des sondages politiques, la détection de la propagande (1), la tâche de la détection de stance peut aussi être déployée afin de diversifier des contenus suggérés par les moteurs de recherche et de soutenir des efforts contre les biais cognitifs dans ces contenus (2) et afin d’identifier les fausses nouvelles répandues sur les réseaux sociaux.
Différente de l’analyse de sentiment qui vise à identifier la tonalité d’un texte, la détection de stance s’avère désormais comme tâche encore plus complexe. Cette complexité est partiellement due au fait que les corpus traités peuvent contenir des cibles explicites ou implicites, des langues différentes, l’usage de langage informel qui contient des erreurs d’orthographe etc. D’autres enjeux incluent le fait que des modèles entraînés sont parfois peu réutilisables par d’autres études, faute de leur spécificité de domaine (3).
L’état de l’art sur cette thématique montre un intérêt croissant pour les modèles de « cross-target » et « cross-domain » qui permettent d’élargir le contexte et les informations employées dans l’entraînement initial. « Zero-shot stance detection », ou la prédiction des cibles non-vus lors de l’entraînement sans les données étiquetées (4) se montre également comme axe de recherche important. Parmi ces approches se trouvent aussi des travaux qui ont pour ambition de mettre en lumière les explications derrière l’étiquetage automatique des cibles pour l’utilisateur (5).
Objectifs du stage
C’est dans ce contexte que se situent les tâches à effectuer dans le cadre de ce stage. Après une première étape d’état des lieux des travaux récents en stance detection, la personne recrutée sera amenée à traiter un corpus autour des opinions d’étudiants portant sur les enseignements et sur le parcours universitaire. L’objectif est d’analyser cette base de données pour détecter les opinions et leurs cibles associées et de les clusteriser en thématiques distinctes. Il s’agit donc d’expérimenter les librairies existantes et de les comparer afin de trouver les meilleurs choix techniques pour l’idenification et l’interprétation des résultats obtenus.
Le ou la stagiaire sera accompagné(e) par une équipe de chercheurs qui travaillent sur ce projet interdisciplinaire (https://obtic.sorbonne-universite.fr/projet/textoscopie/).
Profil recherché
Master ou diplôme équivalent dans l’un des domaines suivants (liste non exhaustive) : informatique, machine learning, humanités numériques, etc.
Compétences : bonne maîtrise de python et des librairies de machine et deep learning pour la classification de textes, l’analyse des opinions et des sentiments, la stance detection, etc.
Conditions du stage
Lieu de travail : ObTIC-SCAI, campus Pierre et Marie Curie – Sorbonne Université.
Temps de travail hebdomadaire : 35 h maximum, travail à distance possible une fois par semaine.
Durée du stage : 4 mois
Début du stage : entre janvier et février 2024.
Gratification : la gratification perçue est conforme taux légal en vigueur.
Modalités de recrutement
Lettre de motivation & CV par mail à motasem.alrahabi@sorbonne-universite.fr
Date limite de candidature : 30 novembre 2023.