Ateliers numériques ObTIC-SCAI

Programme 2022-2023

L’ObTIC reprend ses ateliers numériques pour l’année 2021-2022 avec une série d’interventions thématiques en lien avec les humanités numériques et les nouvelles technologies pour l’analyse textuelle (traitement automatique des langues, apprentissage automatique, analyse de corpus…).

Organisé par Motasem Alrahabi et Glenn Roe

Atelier Python partie 1: Valentina Fedchenko, 24 octobre 2022 (14h-16h)
Atelier Python partie 2: Valentina Fedchenko, 14 novembre 2022 (14h-16h)

 

Plus d’information ici.

 

 


Programme 2021-2022

  • Ateliers OCR – du 28/10 au 24/11 [détails]
  • Repérage automatique des entités nommées – du 2/12 au 16/12 [détails]
  • Programmation en langage Python: manipulation de données textuelles – du 1/12 au 15/12 [détails]
  • Stylométrie, analyse automatique du style d’auteurs 22/04/2022 (14h-17h)

Retrouvez toute la programmation de nos ateliers ici.

Organisés par Motasem Alrahabi (voir aussi les anciens ateliers de l’OBVIL)
Responsable: Glenn Roe
Lieu
: Salle des séminaires, SCAI – Sorbonne Université
Campus Pierre et Marie Curie
4 Place Jussieu, 75005 Paris

 


Première série thématique

Les systèmes d’OCR Transkribus, Kraken, eScriptorium et Tesseract

Dans le cadre des projets consacrés à l’édition savante de textes sous le prisme des humanités numériques, l’utilisation des outils de numérisation de textes représente la toute première étape dans la chaîne de traitement d’un corpus. Lors de cette séance, nous présenterons trois logiciels de reconnaissance optique de caractères (OCR) à code source ouvert : Transkribus, Kraken et eScriptorium, qui sont considérés comme l’état de l’art dans le domaine de l’océrisation des textes. Afin de comprendre les spécificités de chacun des systèmes, nous les utiliserons sur un corpus exemple, puis nous évaluerons la qualité des sorties ainsi produites. Pour approfondir, nous verrons comment entraîner un nouveau modèle pour un corpus dont le texte est mal reconnu.

Atelier du 28 octobre 2021 (14h-17h)

Présentation et utilisation des OCR Transkribus, Kraken et eScriptorium

Animé par: Ljudmila Petković, doctorante ObTIC


Atelier du 18 novembre 2021 (14h-17h)

Utilisation avancée des OCR avec Tesseract

Animé par: Johanna Cordova, ingénieure ObTIC


Atelier du 25 novembre 2021 (14h-17h)

Correction automatique de sorties OCR

Animé par: Ljudmila Petković, Angélique Allaire, doctorantes ObTIC

 

 

 

 

 


Deuxième série thématique

Repérage automatique des entités nommées

Le but de cet atelier est de donner une vision générale des entités nommées, de leur définition à leurs applications. Elles seront abordées premièrement d’un point de vue définitoire avec une partie annotation manuelle. Nous verrons ensuite les méthodes mises en place afin de les reconnaître automatiquement dans les textes à l’aide de méthodes par apprentissage.

Atelier du 2 décembre 2021 (14h-16h)

Les entités nommées : une vision d’ensemble

Animé par: Yoann Dupont, post-doctorant ObTIC


Atelier du 9 décembre 2021 (14h-17h)

Désambiguïsation des entités nommées et liage au Web des données

ANNULÉ : cet atelier est reporté au mois de janvier

Animé par: Carmen Brando, ingénieure EHESS


Atelier du 16 décembre 2021 (14h-17h)

Spécialisation d’outils de repérage d’entités nommées avec Spacy et SEM.

Animé par: Yoann Dupont, post-doctorant ObTIC


 

 

 

 

 

Troisième série thématique

Programmation en langage Python: manipulation de données textuelles

Cette série de séances pratiques est destinée aux chercheurs et étudiants souhaitant s’initier à la programmation. Elles permettront de découvrir les bases de Python et de rédiger les premiers codes pour la manipulation de données textuelles.Atelier du mercredi 1er décembre 2021 (16h-18h)

Algorithmique, Expressions régulières

Animé par: Motasem Alrahabi, coordinateur scientifique, ObTIC


Atelier du jeudi 2 décembre 2021 (10h-12h)

Introduction à Python

Animé par: Johanna Cordova, ingénieure ObTIC


Atelier du mercredi 8 décembre 2021 (16h-18h)

Structures conditionnelles et fonctions

Animé par: Angélique Allaire, doctorante ObTIC


Atelier du jeudi 9 décembre 2021 (10h-12h)

Manipuler des fichiers texte

Animé par: Ljudmila Petković, doctorante ObTIC


Atelier du mercredi 15 décembre 2021 (16h-18h)

Manipuler des fichiers XML

Animé par: James Gawley, post-doctorant, ObTIC


Atelier du jeudi 16 décembre 2021 (10h-12h)

Installer des librairies (Github, environnements virtuels…)

Animé par: Yoann Dupont, post-doctorant ObTIC