Cette journée d’études vise à réunir les collègues s’intéressant à la robustesse des systèmes de TAL sur des données « non-standards ». Par données non-standard nous désignons des données présentant des variations vis-à-vis d’un certain attendu en terme d’état de langue
(variation de la langue en diachronie, variations régionales, variation dans l’ordre des mots, code-switching, user generated content,
orthographe inconsistante, données accidentellement bruitées suite à un pré-traitement, données incomplètes, présence d’un vocabulaire de
domaine spécialisé…).
L’objectif de cette journée est double :
- documenter les cas pratiques dans lesquels les systèmes de TAL existants se sont révélés peu fiables voir inutilisables, par exemple, mais sans y être limité, dans le domaine des humanités numériques ;
- documenter les solutions existantes, par exemple, mais sans y être limité, pour les systèmes fondées sur des méthodes d’apprentissage automatique.
standards.
Les communications sollicitées concernent les thématiques suivantes, sans y être limitées pour autant :
- évaluation et identification des phénomènes linguistiques problématiques pour les modèles neuronaux et autres systèmes de TAL ;
- analyse et corrections de la propagation des erreurs dans les systèmes en cascade ;
- retours d’expérience sur l’utilisation de systèmes de TAL qui se sont révélés non fonctionnels sur un type de données particulier ;
- construction de jeux de données permettant d’évaluer la robustesse aux variations linguistiques ;
- augmentation artificielle des données pour améliorer la robustesse des modèles ;
- adaptation hors domaine ou apprentissage avec des domaines peu représentés dans les données.
Les travaux portant sur d’autres langues que le français sont les bienvenus.
Les propositions de communications orales sont attendues avant le 30 septembre 2022 sous la forme d’un résumé de 2 pages maximum (hors références, aucune feuille de style n’est imposée).
La soumission se fera via easychair : https://easychair.org/my/conference?conf=robustal22
Dates importantes :
- Soumission des résumés : 30 septembre 2022
- Notification aux auteurs et autrices : mi ou fin octobre 2022
- Date de la journée : 25 novembre 2022
- Lieu : Maison de la recherche, Paris
Présentations invitées :
- Emanuela Boros (L3I, La Rochelle Université) : Reconnaissance d’entités nommées : des documents modernes aux documents historiques, des documents propres aux documents bruyants
- Djamé Seddah (ALMANACH, INRIA) : To be announced
Organisation :
- Gaël Lejeune : gael.lejeune@sorbonne-universite.fr
- Caio Corro : caio.corro@limsi.fr
Maison de la recherche (amphithéâtre Molinié)
28 Rue Serpente
75006 Paris
France