ATELIERS DE FORMATION
18-19 janvier 2016
Les groupes de travail « Corpus multilingues » (GT 5), « Corpus d’écrits modernes et prise en compte de nouveaux modes de communication » (GT 7), « Annotation du plus haut niveau : syntaxe, sémantique, référence » (GT 8) et « Exploration de corpus » (GT 10) du consortium corpus écrits organisent une session d’ateliers de formation les 18 et 19 janvier 2016 à Paris (INALCO). Ces ateliers sont ouverts aux membres des groupes de travail ou à toute personne intéressée.
Le consortium Corpus Ecrits remercie la Direction du système d’information et des ressources numériques de l’INALCO pour son accueil et son aide.
Le consortium financera les frais de mission des membres des groupes de travail, une demande de prise en charge pourra être examinée pour les autres.
Inscription auprès de : clement.plancq@ens.fr
PROGRAMME
Lundi 18 janvier
9h30 – 12h30 | 14h30 – 17h30 | Lieu |
OmegaT (T. Grass) |
Alinea (O. Kraif) |
Salle 7.03 INALCO |
Lexico 5 (A. Salem) |
Iramuteq (P. Ratinaud) |
Salle 7.04 INALCO |
Mardi 19 janvier
9h30 – 12h30 | 14h30-17h30 | Lieu |
Unitex (D. Maurel) | Unitex (D. Maurel) |
Salle 7.03 INALCO |
Dtm-vic (L. Lebart, C. Poudat) |
Hyperbase web (L. Vanni) |
Salle 7.04 INALCO |
– DESCRIPTIF DES ATELIERS
- DtmVic – Intervenants: Ludovic Lebart et Céline Poudat
Cet atelier s’adresse aux chercheurs intéressés par les méthodes quantitatives d’exploration de corpus et le text mining. Particulièrement adapté au traitement des questionnaires et des données d’enquête, DTM-VIC (Data and Text Mining – Visualization, Inference, Classification) est ainsi l’un des seuls outils permettant d’articuler les données textuelles et des données numériques ou nominales nombreuses. On s’intéressera particulièrement aux deux méthodes suivantes : l’Analyse Factorielle des Correspondances et la construction d’une partition (avec recherche de spécificités) en proposant différents parcours méthodologiques dans lesquels elles peuvent être exploitées. On insistera particulièrement sur l’import des données.
N’hésitez donc pas à venir avec vos corpus et vos métadonnées ! Pour ceux qui souhaiteraient prendre de l’avance, le manuel est disponible ici http://www.dtmvic.com/06_ManualF.html et le logiciel est téléchargeable ici http://www.dtmvic.com/05_SoftwareF.html.
- Unitex – Intervenant : Denis Maurel (Université de Tours)
Unitex est un logiciel libre, ouvert et multilingue, destiné aux traitement linguistiques de corpus. Il est basé sur l’utilisation de ressources linguistiques facilement gérables par des linguistes non informaticiens, grâce à une interface graphique conviviale et fonctionne sous Windows, Linux ou Mac OS. Il est utilisé à la fois par des laboratoires de recherche et par des entreprises. Il permet la création de dictionnaires et de règles locales ou morphologiques, l’annotation ou l’alignement de corpus.
La formation proposée concernera l’annotation de corpus. Le matin par une prise en main du logiciel, l’après-midi par une utilisation avancée à l’aide de cascades de règles. La formation de l’après-midi nécessite, soit la participation à la formation du matin, soit la connaissance du menu Graphs d’Unitex.
Des postes de travail seront à votre disposition mais vous pouvez apporter votre propre ordinateur portable et dans ce cas merci d’installer Unitex avant la formation :
1) pour les utilisateurs de PC, il faut télécharger la version 3.1beta (uninstable version): http://www-igm.univ-mlv.fr/~unitex/zips/Unitex3.1beta.zip
2) pour les utilisateurs de Mac, il faut télécharger la version 2.1 : http://www-igm.univ-mlv.fr/~unitex/Unitex2.1.zip
- Hyperbase Web- Intervenant : Laurent Vanni
Hyperbase Web (http://hyperbase.unice.fr/) est une plateforme libre, accessible sur internet, qui propose les principaux outils d’analyse statistique des données textuelles. L’atelier a pour but d’apporter les bases théoriques nécessaires à l’analyse de texte : unité textuelle, lemmatisation et métadonnées sur corpus. Puis la manipulation de la plateforme permettra aux utilisateurs d’être autonomes pour la création, modification et partage d’un corpus/base en ligne. Enfin nous verrons les différents outils disponibles avec Hyperbase Web:
– Analyse des spécificités : d’une partition dans un corpus et d’un mot ou d’une expression dans les différentes partitions.
– Distributions du vocabulaire dans le corpus : distance intertextuelle, analyse arborée et analyse factorielle des correspondances (AFC).
– Analyse de cooccurrences : Matrice Mot x Mot et recherche d’un thème autour d’un mot pôle (cooccurrents spécifiques).
- Alinea – Intervenant : Olivier Kraif
Après une présentation générale des méthodes utilisées pour l’alignement phrastique, nous verrons brièvement comment aligner des textes à travers l’interface d’Alinéa.
Dans un second temps, nous chercherons à mettre en place une chaîne de traitements pour la mise en œuvre de l’alignement (avec Alinéa ou tout autre logiciel) sur une grande quantité de fichiers, en effectuant en cascade des opérations standard de manipulation de corpus textuel : extraction de fichiers compressés, renommage, réencodage, reformatage XML, etc. Pour ce faire, nous utiliserons une boite à outil écrite en Perl.
- OmegaT – Intervenant : Thierry Grass
Le logiciel libre de mémoire de traduction OmegaT bénéficie d’une popularité certaine depuis sa création au début des années 2000. C’est un outil peu difficile à appréhender utilisable pour traduire des textes spécialisés et construire des glossaires tout en gardant le formatage du texte d’ origine. C’est aussi avant tout un logiciel libre particulièrement adapté lorsque l’on veut s’ initier à la pratique de la traduction professionnelle sans passer par des programmes complexes et des formats propriétaires. En effet, le format de sortie TMX (Translation Memory eXchange) basé sur le XML est universel et compatible avec tous les autres formats. Le but de cette formation est de s’initier à la méthode de la traduction professionnelle avec OmegaT, ce qui en plus de la manipulation du programme inclut la connaissance de la gestion d’un projet de traduction.
- Lexico5 – Intervenant : André Salem
L’approche textométrique permet d’analyser des textes rassemblés en corpus par la mise en œuvre et l’articulation d’une série de méthodes documentaires et de méthodes statistiques couramment utilisées dans l’analyse des textes.
Lexico5 constitue la version la plus récente d’une lignée de logiciels qui permettent de mettre en œuvre et d’articuler, d’une manière que l’on a tenté de rendre la plus simple possible, plusieurs de ces méthodes d’analyses à partir de données textuelles. Par delà l’exploration des corpus fondée sur l’étude de la circulation des unités textuelles que l’on peut obtenir par segmentation automatique en formes graphiques, le logiciel permet de constituer des unités plus complexes (segments répétés, groupes de formes, etc.) dont l’utilisation se révèle souvent éclairante pour l’investigation du corpus que l’on étudie.
INFORMATIONS PRATIQUES
- INaLCO – 65 Rue des Grands Moulins, 75013 Paris
– POUR VENIR…
- En métro : Ligne 14, station bibliothèque François Mitterrand
- En RER : RER C, station bibliothèque François Mitterrand
- En Bus :
- Ligne 83 : arrêt Olympiades
- Ligne 89 : arrêt bibliothèque François Mitterrand
- Lignes 27, 62, 64, 132, N31 : arrêt Patay-Tolbiac
- En Tramway
- Ligne T3a : arrêt Avenue de France
[yasr_visitor_multiset setid=0]