Programme 2022-2023
L’ObTIC reprend ses ateliers numériques pour l’année 2021-2022 avec une série d’interventions thématiques en lien avec les humanités numériques et les nouvelles technologies pour l’analyse textuelle (traitement automatique des langues, apprentissage automatique, analyse de corpus…).
Organisé par Motasem Alrahabi et Glenn Roe
Atelier Python partie 1: Valentina Fedchenko, 24 octobre 2022 (14h-16h)
Atelier Python partie 2: Valentina Fedchenko, 14 novembre 2022 (14h-16h)
Plus d’information ici.
Programme 2021-2022
- Ateliers OCR – du 28/10 au 24/11 [détails]
- Repérage automatique des entités nommées – du 2/12 au 16/12 [détails]
- Programmation en langage Python: manipulation de données textuelles – du 1/12 au 15/12 [détails]
- Stylométrie, analyse automatique du style d’auteurs 22/04/2022 (14h-17h)
Retrouvez toute la programmation de nos ateliers ici.
Organisés par Motasem Alrahabi (voir aussi les anciens ateliers de l’OBVIL)
Responsable: Glenn Roe
Lieu : Salle des séminaires, SCAI – Sorbonne Université
Campus Pierre et Marie Curie
4 Place Jussieu, 75005 Paris
Première série thématique
Les systèmes d’OCR Transkribus, Kraken, eScriptorium et Tesseract
Dans le cadre des projets consacrés à l’édition savante de textes sous le prisme des humanités numériques, l’utilisation des outils de numérisation de textes représente la toute première étape dans la chaîne de traitement d’un corpus. Lors de cette séance, nous présenterons trois logiciels de reconnaissance optique de caractères (OCR) à code source ouvert : Transkribus, Kraken et eScriptorium, qui sont considérés comme l’état de l’art dans le domaine de l’océrisation des textes. Afin de comprendre les spécificités de chacun des systèmes, nous les utiliserons sur un corpus exemple, puis nous évaluerons la qualité des sorties ainsi produites. Pour approfondir, nous verrons comment entraîner un nouveau modèle pour un corpus dont le texte est mal reconnu.
Atelier du 28 octobre 2021 (14h-17h)
Présentation et utilisation des OCR Transkribus, Kraken et eScriptorium
Animé par: Ljudmila Petković, doctorante ObTIC
Atelier du 18 novembre 2021 (14h-17h)
Utilisation avancée des OCR avec Tesseract
Animé par: Johanna Cordova, ingénieure ObTIC
Atelier du 25 novembre 2021 (14h-17h)
Correction automatique de sorties OCR
Animé par: Ljudmila Petković, Angélique Allaire, doctorantes ObTIC
Deuxième série thématique
Repérage automatique des entités nommées
Le but de cet atelier est de donner une vision générale des entités nommées, de leur définition à leurs applications. Elles seront abordées premièrement d’un point de vue définitoire avec une partie annotation manuelle. Nous verrons ensuite les méthodes mises en place afin de les reconnaître automatiquement dans les textes à l’aide de méthodes par apprentissage.
Atelier du 2 décembre 2021 (14h-16h)
Les entités nommées : une vision d’ensemble
Animé par: Yoann Dupont, post-doctorant ObTIC
Atelier du 9 décembre 2021 (14h-17h)
Désambiguïsation des entités nommées et liage au Web des données
ANNULÉ : cet atelier est reporté au mois de janvier
Animé par: Carmen Brando, ingénieure EHESS
Atelier du 16 décembre 2021 (14h-17h)
Spécialisation d’outils de repérage d’entités nommées avec Spacy et SEM.
Animé par: Yoann Dupont, post-doctorant ObTIC
Troisième série thématique
Programmation en langage Python: manipulation de données textuelles
Cette série de séances pratiques est destinée aux chercheurs et étudiants souhaitant s’initier à la programmation. Elles permettront de découvrir les bases de Python et de rédiger les premiers codes pour la manipulation de données textuelles.Atelier du mercredi 1er décembre 2021 (16h-18h)
Algorithmique, Expressions régulières
Animé par: Motasem Alrahabi, coordinateur scientifique, ObTIC
Atelier du jeudi 2 décembre 2021 (10h-12h)
Introduction à Python
Animé par: Johanna Cordova, ingénieure ObTIC
Atelier du mercredi 8 décembre 2021 (16h-18h)
Structures conditionnelles et fonctions
Animé par: Angélique Allaire, doctorante ObTIC
Atelier du jeudi 9 décembre 2021 (10h-12h)
Manipuler des fichiers texte
Animé par: Ljudmila Petković, doctorante ObTIC
Atelier du mercredi 15 décembre 2021 (16h-18h)
Manipuler des fichiers XML
Animé par: James Gawley, post-doctorant, ObTIC
Atelier du jeudi 16 décembre 2021 (10h-12h)
Installer des librairies (Github, environnements virtuels…)
Animé par: Yoann Dupont, post-doctorant ObTIC