L’ObTIC organise en partenariat avec le BnF DataLab un cycle de formations en humanités numériques, destiné en premier lieu aux étudiants et doctorants en sciences humaines. L’inscription est fortement conseillée via ce formulaire.
Cycle de formations en humanités numériques
par le BnF DataLab et ObTIC (Sorbonne Université)
Mise en lumière par ChatGPT, l’« intelligence artificielle », que l’on ramènera ici au traitement automatique des données textuelles, est depuis longtemps derrière un grand nombre de nos pratiques informatiques quotidiennes. Pour la recherche en science humaines, ces techniques d’analyse automatique de texte permettent de travailler sur des corpus toujours plus grands et de plus en plus exhaustifs, ce qui constitue un intéressant complément aux pratiques de recherche traditionnelles. Ce séminaire-atelier aura lieu en trois parties. La première partie sera une introduction aux humanités numériques : nous verrons comment collecter des données pertinentes pour la recherche à travers la bibliothèque numérique Gallica, puis nous présenterons un ensemble d’outils d’analyse automatique de texte permettant la « lecture distante » de corpus. Cette première session s’adresse à toute personne menant des recherches sur des données textuelles (quelle que soit la langue) et qui souhaite se doter de nouveaux outils pour élargir ses perspectives méthodologiques. Une deuxième session présentera le format le plus utilisé pour l’édition numérique de corpus, le format TEI. Une troisième session, plus théorique, s’adressera aux chercheurs ayant déjà une expérience en humanités numériques et souhaitant approfondir leur compréhension des outils de traitement automatique pour mieux cerner leur potentiel et leurs limites.
Session 1 Mardi 24 octobre 2023 | 10h-13h BnF site Tolbiac, Salle 70
Introduction aux humanités numériques : constitution d’un corpus Gallica et présentation des outils d’analyse de texte
Public visé : étudiants, doctorants, chercheurs en sciences humaines
Prérequis : aucun
Programme :
– 10h-11h Comment collecter un corpus pour la recherche ? Présentation de la collection numérique Gallica et exemple d’usages | par Arnaud Laborderie (BnF)
– 11h-13h Présentation des principales techniques d’analyse automatique de corpus | Johanna Cordova et Úna Faller (ObTIC)
Session 2 Vendredi 17 novembre | 10h-12h (en distanciel)
Introduction au format TEI
Prérequis : aucun
Programme : La TEI (ou Text Encoding Initiative) est un standard pour représenter, transférer et pérenniser les textes en format digital, un standard qui s’appuie sur le XML (eXtensible Markup Language). Dans cet atelier, destiné aux débutants, nous définirons le format TEI, la structure arborescente du langage de balise XML, sa syntaxe et autres règles d’usage ; puis nous utiliserons l’outil Oxygen qui permet de créer, visualiser et publier des documents bien formés en XML-TEI. Nous parlerons aussi de quelques outils permettant la conversion de fichiers en formats largement utilisés dans les humanités numériques, en particulier le format XML-TEI.
Session 3 Mardi 5 décembre 2023 | 10h-12h BnF site Tolbiac, Salle 70
Principes du TAL : bases théoriques de l’IA pour l’analyse textuelle
Public visé : étudiants en humanités numériques, personnes intéressées par les bases de l’IA
[Programme à venir]