Ateliers numériques ObTIC-SCAI 2024-2025

Programmation 2024-2025

Atelier 07/11/2024 14h-17h

Titre : L’analyse de la parole – De la prosodie à l’analyse à base de modèles pré-entraînés

Lieu : Jussieu – SCAI Seminar Room

Animé par: Eric Jordan

Public concerné: Débutants en traitement de la parole avec des connaissances en TAL

Résumé : Au cours des dix dernières années, l’émergence des approches en apprentissage profond ainsi que les modèles pré-entraînés (e.g. Wav2Vec 2.0, Whisper) ont permis d’atteindre des performances impressionnantes sur une variété de tâches. Néanmoins, les méthodes basées sur la théorie linguistique restent pertinentes, notamment pour leur explicabilité. Cet atelier proposera un aperçu des outils disponibles pour les tâches de traitement de la parole, ainsi qu’une introduction à leur utilisation.

L’atelier débutera avec une brève introduction sur le traitement du son. Ensuite nous analyserons un ensemble de données audios en commençant par des analyses prosodiques avec les outils Praat et Prosogram. Enfin, nous utiliserons ces mêmes données pour explorer des modèles pré-entraînés en accès libre (Wav2Vec et Whisper), afin de comprendre leur fonctionnement et d’évaluer leurs performances.

→ Pré-requis: ordinateur portable, connexion internet, Praat installé, scripts Prosogram téléchargés, accès Google Colab. 

Atelier 13/12/2024 14h-16h

Titre : Prompt Engineering : l’art des requêtes efficaces 

Lieu : Datalab – BNF (salle 70)

Animé par: Mikhail Biriuchinskii

Public concerné: Débutants souhaitant découvrir les bases d’utilisation de ChatGPT et améliorer leurs interactions avec les modèles d’IA. 

Résumé : Cet atelier propose une exploration approfondie du « Prompt Engineering », l’art de formuler des requêtes optimisées pour interagir avec des modèles d’IA, tels que ChatGPT, Mistral ou Llama. Cet atelier vous permettra de découvrir les bonnes pratiques pour formuler des prompts qui donnent des résultats précis et créatifs. 

À travers des exemples concrets et des exercices pratiques, nous aborderons les bases théoriques en discutant de la littérature scientifique sur le sujet ainsi que des astuces avancées pour améliorer l’efficacité de vos requêtes. L’objectif est d’outiller les participants afin qu’ils puissent maximiser les résultats de leurs interactions avec des outils IA tout en développant une compréhension plus fine de leur fonctionnement.

→ Pré-requis: ordinateur portable, connexion internet, éventuellement un compte sur des plateformes d’IA (ChatGPT, DALL-E)

→ Documents : à venir

Atelier 17/01/25 14h-17h

Titre : Créer une édition scientifique numérique pour son corpus – Reconnaissance automatique du texte

Lieu : Datalab – BNF (salle 70)

Animé par : Floriane Chiffoleau

Public concerné : Débutants souhaitant s’initier à la création d’éditions scientifiques numériques pour des documents d’archives (ou autres)

Résumé : Cet atelier, qui se décline en trois étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions scientifiques numériques.

Ce premier atelier est dédié à la reconnaissance automatique de texte, discipline en constante évolution qui permet aujourd’hui, à l’aide de modèles entraînés, d’acquérir efficacement et rapidement une version lisible par machine d’un corpus de textes. Après une présentation de la discipline, l’atelier fera mettre en pratique ce qui a été mentionné, en appliquant des modèles de segmentation et de transcription, sur le corpus apporté, afin d’obtenir une version exploitable ensuite.

Pré-requis : ordinateur portable, connexion internet, avoir demandé la création d’un compte sur l’instance eScriptorium (rajouter le bon lien) 

Documents : Ressources Gallica

Atelier 21/02/2025 14h-17h

Titre : L’annotation d’entités nommées à plusieurs mains : méthodes et outils 

Lieu : Datalab – BNF (Aquarium)

Public concerné : Débutants et intermédiaires

Animé par: Perrine Maurel

Résumé : L’annotation d’entités nommées est une tâche essentielle à la modélisation de données ou l’entraînement de modèles, et mérite donc un soin particulier. Toutefois, il s’agit aussi d’une entreprise extrêmement chronophage, qui demande une grande cohérence pour de meilleurs résultats. Afin de pallier ce premier défaut, plusieurs initiatives ont donc recours à plusieurs mains pour l’annotation, voire au crowdsourcing – ce qui rend la cohérence des annotations finales plus délicate à maintenir.

Dans cet atelier, nous verrons les différents pré-requis garantissant une annotation à plusieurs mains fructueuses, tant sur le plan méthodologique que technique. Notamment, nous traiterons de la fiabilité d’une telle démarche, de l’organisation d’une équipe et des besoins inhérents à l’annotation d’entités nommées. Nous présenterons et expérimenteront avec des outils d’annotation en équipe, tels que LabelStudio. 

→ Pré-requis: ordinateur portable, connexion internet

→ Documents : à venir

Atelier 14/03/25 14h-17h

Titre : Créer une édition scientifique numérique pour son corpus – Encodage et annotation du texte

Lieu : Datalab – BNF (salle 70)

Animé par : Floriane Chiffoleau

Public concerné : Débutants souhaitant s’initier à la création d’éditions scientifiques numériques pour des documents d’archives (ou autres)

Résumé : Cet atelier, qui se décline en trois étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions scientifiques numériques.

Ce second atelier est dédié à l’encodage de texte en XML-TEI, le standard utilisé de nos jours pour encoder des textes littéraires. Après une introduction au langage de balisage XML et aux composants du standard TEI, les participants procéderont, avec l’outil de conversion XML et manuellement, à l’encodage des métadonnées, du corps du texte, ainsi que de diverses annotations (sémantique, critiques, etc.) pertinentes pour le corpus travaillé.

Pré-requis : ordinateur portable, connexion internet, avoir installé Oxygen (obtenir une licence seulement le jour de l’atelier)

Documents : Ressources Gallica

Atelier 11/04/2025 14h-16h

Titre : Prompt Engineering : l’art des requêtes efficaces partie 2

Lieu : Datalab – BNF (salle 70)

Résumé : Ce deuxième atelier poursuit logiquement le premier et s’adresse aux participants ayant des compétences en programmation. Une connaissance de l’interface Hugging Face est recommandée. Au cours de cette session, vous apprendrez à rédiger des prompts efficaces pour les intégrer dans vos programmes via des API, en vous basant sur un use-case d’étude que nous analyserons ensemble. L’atelier vise à vous fournir les outils nécessaires pour maîtriser la création de prompts adaptés à vos projets spécifiques.

Animé par : Mikhail Biriuchinskii

→ Documents.

Atelier 16/05/25 14h-17h

Titre : Créer une édition scientifique numérique pour son corpus – Affichage web du texte

Lieu : Datalab – BNF (salle 70)

Animé par : Floriane Chiffoleau

Public concerné : Débutants souhaitant s’initier à la création d’éditions scientifiques numériques pour des documents d’archives (ou autres)

Résumé : Cet atelier, qui se décline en trois étapes, a pour objectif d’initier aux techniques et standards actuellement utilisés pour la création d’éditions scientifiques numériques.

Ce troisième et dernier atelier de la série est dédié à l’affichage web de son corpus encodé, c’est-à-dire pouvoir observer concrètement les enrichissements variés qui ont été apportés à son corpus via l’encodage. Après une brève introduction de l’intérêt et des méthodes d’une telle étape, l’atelier aura pour but de présenter et de travailler sur plusieurs outils permettant l’affichage web. 

Pré-requis : ordinateur portable, connexion internet

Documents : Ressources Gallica

Atelier 20/06/2025 14h-16h

Titre : Traitement du langage naturel avec spaCy

Lieu : Datalab – BNF (salle 70)

Résumé : Cet atelier s’adresse aux personnes ayant des connaissances en programmation et en linguistique, souhaitant approfondir leurs compétences en traitement du langage naturel. Nous explorerons spaCy, une bibliothèque NLP incontournable et en pleine croissance, pour des tâches essentielles telles que la tokenisation, l’analyse syntaxique et la reconnaissance d’entités nommées.

En complément, nous aborderons des concepts spécifiques tels que l’étiquetage morpho-syntaxique, l’annotation linguistique selon le modèle des Universal Dependencies, ainsi que l’utilisation des treebanks pour enrichir vos analyses.

Animé par : Mikhail Biriuchinskii

→ Documents.