ATELIERS DE FORMATION
19-20 novembre 2014
Les groupes de travail « Corpus multilingues » (GT 5), « Corpus d’écrits modernes et prise en compte de nouveaux modes de communication » (GT 7), « Annotation du plus haut niveau : syntaxe, sémantique, référence » (GT 8) et « Exploration de corpus » (GT 10) du consortium corpus écrits organisent une session d’ateliers de formation les 19 et 20 novembre 2014 à Paris. Ces ateliers sont ouverts aux membres des groupes de travail ou à toute personne intéressée. Nous accueillerons 40 personnes maximum.
Le consortium financera les frais de mission des membres des groupes de travail, une demande de prise en charge pourra être examinée pour les autres.
Inscription auprès de clement.plancq@linguist.univ-paris-diderot.fr
PROGRAMME
Mercredi 19 novembre
Matin (9h30 -12h30) | Après-midi (14h – 17h) | Lieu |
Unitex | Unitex et CasSys | INaLCO 3.26 (sans ordis) |
Alignement de corpus parallèles et comparables (méthodes, formats, outils) |
INaLCO 7.03 | |
DTMVic avancé | Paris Diderot, ODG, salle 207 |
Jeudi 20 novembre
Matin (9h30 -12h30) | Après-midi (14h – 17h) | Lieu |
TXM avancé | AntConc avancé | Paris Diderot, ODG, salle 234 |
Hyperbase web | INaLCO 7.03 | |
ScienQuest | INaLCO 3.26 (sans ordi) |
– DESCRIPTIF DES ATELIERS
L’atelier permettra d’explorer des fonctionnalités avancées d’AntConc comme, par exemple, la recherche à base d’expressions régulières, la recherche de cooccurrences, l’utilisation de mot-clés. Les participants devront donc connaitre déjà les principales fonctionnalités d’AntConc : les différents onglets et leur fonction, la recherche de concordances, la construction de la liste des mots d’un texte, les fonctions de tri.
Cet atelier portera sur les questions d’alignement de corpus parallèles et comparables. Nous y parlerons de méthodes d’alignement (Gale-Church, Moore), de formats (XCES, TMX) et proposerons un atelier d’utilisation de l’outil uplug-webalign (interface web d’alignement)
Cet atelier fait suite à l’atelier DtmVic de l’an dernier et s’adresse aux chercheurs intéressés par les méthodes quantitatives de corpus et le text mining. On approfondira les deux méthodes précédemment exposées (dont les participants doivent donc avoir connaissance) : l’Analyse Factorielle des Correspondances et l’analyse d’une partition (recherche de spécificités) en proposant différents parcours méthodologiques dans lesquels elles peuvent être exploitées. On insistera particulièrement sur l’import des données. N’hésitez donc pas à venir avec vos corpus et vos métadonnées!
Unitex est un logiciel libre, ouvert et multilingue, destiné aux traitement linguistiques de corpus. Il est basé sur l’utilisation de ressources linguistiques facilement gérables par des linguistes non informaticiens, grâce à une interface graphique conviviale et fonctionne sous Windows, Linux ou Mac OS. Il est utilisé à la fois par des laboratoires de recherche et par des entreprises. Il permet la création de dictionnaires et de règles locales ou morphologiques, l’annotation ou l’alignement de corpus.
La formation proposée concernera l’annotation de corpus. Le matin par une prise en main du logiciel, l’après-midi par une utilisation avancée à l’aide de cascades de règles. La formation de l’après-midi nécessite, soit la participation à la formation du matin, soit la connaissance du menu Graphs d’Unitex.
Attention, il faut apporter son propre portable et télécharger Unitex avant la formation :
1) pour les utilisateurs de PC, il faut télécharger la version 3.1beta (uninstable version): http://www-igm.univ-mlv.fr/~unitex/zips/Unitex3.1beta.zip
2) pour les utilisateurs de Mac, il faut télécharger la version 2.1 : http://www-igm.univ-mlv.fr/~unitex/Unitex2.1.zip
Cet atelier permettra de découvrir Hyperbase Web Edition un nouvel outil en ligne pour l’analyse de données textuelles. De la création du corpus à l’utilisation d’outils statistiques en passant par la recherche documentaire, nous verrons toutes les étapes qui permettent d’analyser votre corpus en utilisant rien d’autre que votre navigateur Internet.
Cet atelier portera sur l’utilisation de ScienQuest, un outil simple pour l’exploration de corpus structurés, annotés et arborés. Nous verrons comment effectuer des recherches simples : recherche de séquences de formes, de parties du discours… et des recherches plus complexes (mais plus précises !), faisant intervenir les relations syntaxiques entre mots. Nous verrons ensuite comment exploiter ces résultats, notamment d’un point de vue contrastif, c’est à dire en faisant, ressortir des différences significatives entre parties, domaines ou types textuels.
ScienQuest a été développé en vue d’être simple à utiliser, et permet de travailler facilement avec des relations syntaxiques. Il est par contre limité à quelques corpus préétablis : actuellement, des textes scientifiques, et prochainement (d’ici la formation !), des textes journalistiques et encyclopédiques.
- TXM avancé : comprendre le calcul des spécificités et l’utiliser dans TXM – Intervenant: Bénédicte Pincemin
L’objectif de ce module est d’une part de comprendre les principes du calcul des spécificités (Lafon 1980), sans que cela exige de compétences statistiques particulières, pour être en mesure d’utiliser le calcul à bon escient et de bien interpréter les résultats du calcul ; et d’autre part de connaître les différents scénarios possibles de mise en œuvre dans TXM, avec les paramétrages disponibles.
Cette formation supposera que les participants ont déjà pris en main TXM, et notamment qu’ils connaissent des commandes comme l’index et la concordance, ainsi que quelques rudiments du langage d’interrogation CQL.
Bien que s’appelant « TXM avancé », la formation proposée ici n’est pas semblable aux ateliers TXM avancés organisés à Lyon qui se construisent de façon complètement personnalisée. Ceci étant, des questions sur des points/cas que l’on souhaiterait voir abordés (en lien avec les spécificités) peuvent être transmises à l’avance à l’équipe Textometrie, textometrie à ens-lyon point fr, sujet : pour la formation IR-Corpus du 20 novembre.
– INFORMATIONS PRATIQUES
- Université Paris Diderot – Bâtiment Olympe de Gouges – 8 place Paul-Ricoeur 75013 Paris
- INaLCO – 65 Rue des Grands Moulins, 75013 Paris
– POUR VENIR…
- En métro : Ligne 14, station bibliothèque François Mitterrand
- En RER : RER C, station bibliothèque François Mitterrand
- En Bus :
- Ligne 83 : arrêt Olympiades
- Ligne 89 : arrêt bibliothèque François Mitterrand
- Lignes 27, 62, 64, 132, N31 : arrêt Patay-Tolbiac
- En Tramway
- Ligne T3a : arrêt Avenue de France