18 – 19 janvier 2016 : Ateliers de formation

 

ATELIERS DE FORMATION

18-19 janvier 2016

Les groupes de travail « Corpus multilingues » (GT 5), « Corpus d’écrits modernes et prise en compte de nouveaux modes de communication » (GT 7), « Annotation du plus haut niveau : syntaxe, sémantique, référence » (GT 8) et « Exploration de corpus » (GT 10) du consortium corpus écrits organisent une session d’ateliers de formation les 18 et 19 janvier 2016 à Paris (INALCO). Ces ateliers sont ouverts aux membres des groupes de travail ou à toute personne intéressée.

Le consortium Corpus Ecrits remercie la Direction du système d’information et des ressources numériques de l’INALCO pour son accueil et son aide.

Le consortium financera les frais de mission des membres des groupes de travail, une demande de prise en charge pourra être examinée pour les autres.

Inscription auprès de : clement.plancq@ens.fr

PROGRAMME

Lundi 18 janvier

9h30 – 12h30 14h30 – 17h30 Lieu

OmegaT (T. Grass)

Alinea (O. Kraif)

Salle 7.03 INALCO

Lexico 5 (A. Salem)

Iramuteq (P. Ratinaud)

Salle 7.04 INALCO

Mardi 19 janvier

9h30 – 12h30 14h30-17h30 Lieu
Unitex (D. Maurel) Unitex (D. Maurel)

Salle 7.03 INALCO

Dtm-vic (L. Lebart, C. Poudat)

Hyperbase web (L. Vanni)

Salle 7.04 INALCO

– DESCRIPTIF DES ATELIERS

  • DtmVic  – Intervenants: Ludovic Lebart et Céline Poudat

Cet atelier s’adresse aux chercheurs intéressés par les méthodes quantitatives d’exploration de corpus et le text mining. Particulièrement adapté au traitement des questionnaires et des données d’enquête, DTM-VIC (Data and Text Mining – Visualization, Inference, Classification) est ainsi l’un des seuls outils permettant d’articuler les données textuelles et des données numériques ou nominales nombreuses. On s’intéressera particulièrement aux deux méthodes suivantes : l’Analyse Factorielle des Correspondances et la construction d’une partition (avec recherche de spécificités) en proposant différents parcours méthodologiques dans lesquels elles peuvent être exploitées. On insistera particulièrement sur l’import des données.

N’hésitez donc pas à venir avec vos corpus et vos métadonnées ! Pour ceux qui souhaiteraient prendre de l’avance, le manuel est disponible ici http://www.dtmvic.com/06_ManualF.html et le logiciel est téléchargeable ici  http://www.dtmvic.com/05_SoftwareF.html.

  • Unitex – Intervenant : Denis Maurel (Université de Tours)

Unitex est un logiciel libre, ouvert et multilingue, destiné aux traitement linguistiques de corpus. Il est basé sur l’utilisation de ressources linguistiques facilement gérables par des linguistes non informaticiens, grâce à une interface graphique conviviale et fonctionne sous Windows, Linux ou Mac OS. Il est utilisé à la fois par des laboratoires de recherche et par des entreprises. Il permet la création de dictionnaires et de règles locales ou morphologiques, l’annotation ou l’alignement de corpus.
La formation proposée concernera l’annotation de corpus. Le matin par une prise en main du logiciel, l’après-midi par une utilisation avancée à l’aide de cascades de règles. La formation de l’après-midi nécessite, soit la participation à la formation du matin, soit la connaissance du menu Graphs d’Unitex.

Des postes de travail seront à votre disposition mais vous pouvez apporter votre propre ordinateur portable et dans ce cas merci d’installer  Unitex avant la formation :

1) pour les utilisateurs de PC, il faut télécharger la version 3.1beta (uninstable version): http://www-igm.univ-mlv.fr/~unitex/zips/Unitex3.1beta.zip
2) pour les utilisateurs de Mac, il faut télécharger la version 2.1 : http://www-igm.univ-mlv.fr/~unitex/Unitex2.1.zip

  • Hyperbase Web- Intervenant : Laurent Vanni

Hyperbase Web (http://hyperbase.unice.fr/) est une plateforme libre, accessible sur internet, qui propose les principaux outils d’analyse statistique des données textuelles. L’atelier a pour but d’apporter les bases théoriques nécessaires à l’analyse de texte : unité textuelle, lemmatisation et métadonnées sur corpus. Puis la manipulation de la plateforme permettra aux utilisateurs d’être autonomes pour la création, modification et partage d’un corpus/base en ligne. Enfin nous verrons les différents outils disponibles avec Hyperbase Web:
– Analyse des spécificités : d’une partition dans un corpus et d’un mot ou d’une expression dans les différentes partitions.
– Distributions du vocabulaire dans le corpus : distance intertextuelle, analyse arborée et analyse factorielle des correspondances (AFC).
– Analyse de cooccurrences : Matrice Mot x Mot et recherche d’un thème autour d’un mot pôle (cooccurrents spécifiques).

  • Alinea – Intervenant : Olivier Kraif

Après une présentation générale des méthodes utilisées pour l’alignement phrastique, nous verrons brièvement comment aligner des textes à travers l’interface d’Alinéa.
Dans un second temps, nous chercherons à mettre en place une chaîne de traitements pour la mise en œuvre de l’alignement (avec Alinéa ou tout autre logiciel) sur une grande quantité de fichiers, en effectuant en cascade des opérations standard de manipulation de corpus textuel : extraction de fichiers compressés, renommage, réencodage, reformatage XML, etc. Pour ce faire, nous utiliserons une boite à outil écrite en Perl.

  • OmegaT – Intervenant : Thierry Grass

Le logiciel libre de mémoire de traduction OmegaT bénéficie d’une popularité certaine depuis sa création au début des années 2000. C’est un outil peu difficile à appréhender utilisable pour traduire des textes spécialisés et construire des glossaires tout en gardant le formatage du texte d’ origine. C’est aussi avant tout un logiciel libre particulièrement adapté lorsque l’on veut s’ initier à la pratique de la traduction professionnelle sans passer par des programmes complexes et des formats propriétaires. En effet, le format de sortie TMX (Translation Memory eXchange) basé sur le XML est universel et compatible avec tous les autres formats. Le but de cette formation est de s’initier à la méthode de la traduction professionnelle avec OmegaT, ce qui en plus de la manipulation du programme inclut la connaissance de la gestion d’un projet de traduction.

  • Lexico5 – Intervenant : André Salem

L’approche textométrique permet d’analyser des textes rassemblés en corpus par la mise en œuvre et l’articulation d’une série de méthodes documentaires et de méthodes statistiques couramment utilisées dans l’analyse des textes.

Lexico5 constitue la version la plus récente d’une lignée de logiciels qui permettent de mettre en œuvre et d’articuler, d’une manière que l’on a tenté de rendre la plus simple possible, plusieurs de ces méthodes d’analyses à partir de données textuelles. Par delà l’exploration des corpus fondée sur l’étude de la circulation des unités textuelles que l’on peut obtenir par segmentation automatique en formes graphiques, le logiciel permet de constituer des unités plus complexes (segments répétés, groupes de formes, etc.) dont l’utilisation se révèle souvent éclairante pour l’investigation du corpus que l’on étudie.

INFORMATIONS PRATIQUES

  • INaLCO – 65 Rue des Grands Moulins, 75013 Paris

– POUR VENIR…

  • En métro : Ligne 14, station bibliothèque François Mitterrand
  • En RER : RER C, station bibliothèque François Mitterrand
  • En Bus :
    • Ligne 83 : arrêt Olympiades
    • Ligne 89 : arrêt bibliothèque François Mitterrand
    • Lignes 27, 62, 64, 132, N31 : arrêt Patay-Tolbiac
  • En Tramway
    • Ligne T3a : arrêt Avenue de France

 

 [yasr_visitor_multiset setid=0]

Ressource web : outils et méthodes d’exploration de corpus

Ressource web

Outils et méthodes d’exploration de corpus

 

Dans le cadre du consortium Corpus écrits (Huma-num), le groupe de travail « Exploration de corpus » a mis en ligne un site web visant à recenser les outils d’exploration de corpus existants http://explorationdecorpus.corpusecrits.humanum.fr/
Les outils documentés sont articulés aux pratiques d’exploration de corpus que nous avons recensées au sein de notre groupe de travail.

Toute contribution bienvenue pour améliorer ce travail de recension en documentant les outils que nous avons omis ou que nous avons insuffisamment documentés; les erreurs qui auraient été commises; vos propres pratiques, que nous n’aurions pas documentées.

Deux formulaires sont à votre disposition, un formulaire de contact, et un formulaire permettant de proposer un nouvel outil.

En espérant que ce travail sera utile à la communauté, n’hésitez pas à diffuser!

Céline Poudat
Marie-Paule Jacques
Emilie Née
Linda Hriba
pour le GT « Exploration de corpus »

19-20 novembre 2014 : Ateliers de formation

 

ATELIERS DE FORMATION

19-20 novembre 2014

Les groupes de travail « Corpus multilingues » (GT 5), « Corpus d’écrits modernes et prise en compte de nouveaux modes de communication » (GT 7), « Annotation du plus haut niveau : syntaxe, sémantique, référence » (GT 8) et « Exploration de corpus » (GT 10) du consortium corpus écrits organisent une session d’ateliers de formation les 19 et 20 novembre 2014 à Paris. Ces ateliers sont ouverts aux membres des groupes de travail ou à toute personne intéressée. Nous accueillerons 40 personnes maximum.

Le consortium financera les frais de mission des membres des groupes de travail, une demande de prise en charge pourra être examinée pour les autres.

Inscription auprès de clement.plancq@linguist.univ-paris-diderot.fr

 

PROGRAMME

Mercredi 19 novembre

Matin (9h30 -12h30) Après-midi (14h – 17h) Lieu
Unitex Unitex et CasSys INaLCO 3.26 (sans ordis)
Alignement de corpus parallèles
et comparables (méthodes,
formats, outils)
INaLCO 7.03
DTMVic avancé Paris Diderot, ODG, salle 207

Jeudi 20 novembre

Matin (9h30 -12h30) Après-midi (14h – 17h) Lieu
TXM avancé AntConc avancé Paris Diderot, ODG, salle 234
Hyperbase web INaLCO 7.03
ScienQuest INaLCO 3.26 (sans ordi)

– DESCRIPTIF DES ATELIERS 

  • AntConc avancé – Intervenant : Marie-Paule Jacques

L’atelier permettra d’explorer des fonctionnalités avancées d’AntConc comme, par exemple, la recherche à base d’expressions régulières, la recherche de cooccurrences, l’utilisation de mot-clés. Les participants devront donc connaitre déjà les principales fonctionnalités d’AntConc : les différents onglets et leur fonction, la recherche de concordances, la construction de la liste des mots d’un texte, les fonctions de tri.

  • Alignement de corpus parallèles et comparables- Intervenant : Clément Plancq

Cet atelier portera sur les questions d’alignement de corpus parallèles et comparables. Nous y parlerons de méthodes d’alignement (Gale-Church, Moore), de formats (XCES, TMX) et proposerons un atelier d’utilisation de l’outil uplug-webalign (interface web d’alignement)

  • DtmVic avancé – Intervenants: Ludovic Lebart et Céline Poudat

Cet atelier fait suite à l’atelier DtmVic de l’an dernier et s’adresse aux chercheurs intéressés par les méthodes quantitatives de corpus et le text mining. On approfondira les deux méthodes précédemment exposées (dont les participants doivent donc avoir connaissance) : l’Analyse Factorielle des Correspondances et l’analyse d’une partition (recherche de spécificités) en proposant différents parcours méthodologiques dans lesquels elles peuvent être exploitées. On insistera particulièrement sur l’import des données. N’hésitez donc pas à venir avec vos corpus et vos métadonnées!

  • Unitex – Intervenant : Denis Maurel (Université de Tours)

Unitex est un logiciel libre, ouvert et multilingue, destiné aux traitement linguistiques de corpus. Il est basé sur l’utilisation de ressources linguistiques facilement gérables par des linguistes non informaticiens, grâce à une interface graphique conviviale et fonctionne sous Windows, Linux ou Mac OS. Il est utilisé à la fois par des laboratoires de recherche et par des entreprises. Il permet la création de dictionnaires et de règles locales ou morphologiques, l’annotation ou l’alignement de corpus.
La formation proposée concernera l’annotation de corpus. Le matin par une prise en main du logiciel, l’après-midi par une utilisation avancée à l’aide de cascades de règles. La formation de l’après-midi nécessite, soit la participation à la formation du matin, soit la connaissance du menu Graphs d’Unitex.

Attention, il faut apporter son propre portable et télécharger Unitex avant la formation :

1) pour les  utilisateurs de PC, il faut télécharger la version 3.1beta (uninstable version): http://www-igm.univ-mlv.fr/~unitex/zips/Unitex3.1beta.zip
2) pour les utilisateurs de Mac, il faut télécharger la version 2.1 : http://www-igm.univ-mlv.fr/~unitex/Unitex2.1.zip

  • Initiation Hyperbase Web Edition – Intervenant : Laurent Vanni

Cet atelier permettra de découvrir Hyperbase Web Edition un nouvel outil en ligne pour l’analyse de données textuelles. De la création du corpus à l’utilisation d’outils statistiques en passant par la recherche documentaire, nous verrons toutes les étapes qui permettent d’analyser votre corpus en utilisant rien d’autre que votre navigateur Internet.

  • ScienQuest – Intervenant : Achille Falaise

Cet atelier portera sur l’utilisation de ScienQuest, un outil simple pour l’exploration de corpus structurés, annotés et arborés. Nous verrons comment effectuer des recherches simples : recherche de séquences de formes, de parties du discours… et des recherches plus complexes (mais plus précises !), faisant intervenir les relations syntaxiques entre mots. Nous verrons ensuite comment exploiter ces résultats, notamment d’un point de vue contrastif, c’est à dire en faisant, ressortir des différences significatives entre parties, domaines ou types textuels.
ScienQuest a été développé en vue d’être simple à utiliser, et permet de travailler facilement avec des relations syntaxiques. Il est par contre limité à quelques corpus préétablis : actuellement, des textes scientifiques, et prochainement (d’ici la formation !), des textes journalistiques et encyclopédiques.

  • TXM avancé : comprendre le calcul des spécificités et l’utiliser dans TXM – Intervenant: Bénédicte Pincemin

L’objectif de ce module est d’une part de comprendre les principes du calcul des spécificités (Lafon 1980), sans que cela exige de compétences statistiques particulières, pour être en mesure d’utiliser le calcul à bon escient et de bien interpréter les résultats du calcul ; et d’autre part de connaître les différents scénarios possibles de mise en œuvre dans TXM, avec les paramétrages disponibles.

Cette formation supposera que les participants ont déjà pris en main TXM, et notamment qu’ils connaissent des commandes comme l’index et la concordance, ainsi que quelques rudiments du langage d’interrogation CQL.

Bien que s’appelant « TXM avancé », la formation proposée ici n’est pas semblable aux ateliers TXM avancés organisés à Lyon qui se construisent de façon complètement personnalisée. Ceci étant, des questions sur des points/cas que l’on souhaiterait voir abordés (en lien avec les spécificités) peuvent être transmises à l’avance à l’équipe Textometrie, textometrie à ens-lyon point fr, sujet : pour la formation IR-Corpus du 20 novembre.

 

– INFORMATIONS PRATIQUES

  • Université Paris Diderot – Bâtiment Olympe de Gouges – 8 place Paul-Ricoeur 75013 Paris
  •  INaLCO – 65 Rue des Grands Moulins, 75013 Paris

– POUR VENIR…

  • En métro : Ligne 14, station bibliothèque François Mitterrand
  • En RER : RER C, station bibliothèque François Mitterrand
  • En Bus :
    • Ligne 83 : arrêt Olympiades
    • Ligne 89 : arrêt bibliothèque François Mitterrand
    • Lignes 27, 62, 64, 132, N31 : arrêt Patay-Tolbiac
  • En Tramway
    • Ligne T3a : arrêt Avenue de France

21 novembre 2014 – Assemblée générale – Consortium Corpus écrits

REUNION PLÉNIÈRE ANNUELLE

Vendredi 21 novembre 2014 – De 9h00 à 17h00

 

L’assemblée Générale de notre Consortium Corpus Ecrits se réunira toute la journée du 21 novembre 2014, à la Halle aux Farines, à Paris dans le 13ème arrondissement :

 Université Paris Diderot – Halle aux Farines – Hall C

 Amphithéâtre 6 C– 3ème étage

15 esplanade Pierre Vidal-Naquet ou 16 rue Françoise Dolto

75013 Paris.

Vous pouvez vous inscrire dès maintenant en suivant ce lien : >http://form.jotformeu.com/form/42924499409366

PROGRAMME

09h 00 – 09h 15 Accueil
09h 15 – 09h 45 Consortium Corpus Ecrits, bilan 2014 et perspectives 2015 – Franck Neveu, Directeur de l’ILF
09h 50 – 10h 30 Présentation de la formation « Chaînes d’annotations » – Céline Poudat et Clément Plancq
10h 30 – 11h 00 Pause
11h 00 – 11h 45 Présentation de la table des usages – Céline Poudat
11h 50 – 12h 10 Corpus : les aspects juridiques – Bernard Colombat
12h 15– 13h 00 L’évaluation des Corpus – Table ronde – Bernard Laks, Christophe Parisse, Franck Neveu
13h 00 – 14h 00 Déjeuner
14h 10 – 14h 45 Présentation DARIAH – Sophie David
14h 50 – 15h 35 Création de la banque de corpus CoMeRe : Corpus-écrits / ORTOLANG, TEI-CMC – Thierry Channier
15h 35 – 15h 45 Pause
15h 45 – 16h 20 Finalisation des corpus financés par le Consortium Corpus Ecrits – Amalia Todirascu, Agnès Tutin
16h 25 – 17h 00 Conclusions et discussions

Assemblée générale du consortium « Corpus Écrits » – 22 novembre 2013

 Assemblée générale du consortium « Corpus Écrits » – 22 novembre 2013

Le Consortium Corpus Ecrits organise sa réunion plénière annuelle le vendredi 22 novembre 2013, de 9h30 à 18h, à l’INALCO 62 rue des Grands Moulins à Paris dans le 13ème arrondissement.

Cette réunion sera consacrée à la présentation du bilan de parcours et aux perspectives.

PROGRAMME :
–      Présentation

–       Bilans par thèmes des réalisations

–      Présentation des actions des groupes de travail

–       Formations réalisées et/ou nécessaires

–      Présentation de l’Initiative Corpus de références du Français

–       Appel d’offres 2014 : Quels critères, quelles thématiques, quel budget ?

–      Quelles attentes, quels projets en 2014 et 2015 pour le Consortium Corpus Ecrits

La participation de toutes les personnes intéressées par cette journée est vivement encouragée par le comité de pilotage, qu’elles soient ou non inscrites à un groupe de travail.

Si la participation à ces journées est libre, l’inscription est obligatoire et…  très rapide. Il vous convient de vous enregistrer en vous connectant à : http://french.jotform.com/form/32943348795872
Le consortium peut contribuer au financement des missions des participants actifs des groupes de travail.

 

 

 

 

 

Journée d’étude : L’annotation de la subjectivité langagière. Méthodes, Modélisation, Outils, Retours d’expérience, 14 janvier 2014, Paris

Journée d’étude : L’annotation de la subjectivité langagière. Méthodes, Modélisation, Outils, Retours d’expérience, 14 janvier 2014, Paris

Maison de la Recherche, Université Paris-Sorbonne, 28 rue Serpente, 75006 Paris
Fédération de recherche ILF (Institut de la Langue Française)
Consortium Corpus Ecrits, Groupe de travail Annotation de haut niveau

Depuis quelques années, le thème de la recherche d’informations dans de très grands corpus et sur le WEB, tout particulièrement dans le domaine de l’expression des émotions et des opinions (sentiment analysis), intéresse de nombreux spécialistes tant dans le domaine des sciences du langage que dans celui des industries de la langue. D’autre part, le consortium Corpus Ecrits est impliqué dans un projet de création d’un grand corpus de référence du français. C’est dans ce contexte que s’inscrit la Journée d’Etude du Groupe de travail Annotation de haut niveau (consortium Corpus Ecrits de l’ILF) du 14 janvier 2014. Elle sera l’occasion de cibler plus particulièrement le thème de l’annotation de la subjectivité langagière, en vue d’un tour d’horizon des premiers résultats obtenus et des travaux en cours.

    • 10 h -10 h 40 : Noémi Boubel & Thomas François (Cental, ILC, Université catholique de Louvain (UCL, Belgique): Étude linguistique des phénomènes de modification de polarité dans le domaine de la fouille d’opinion.
    • 10 h 40 – 11 h 20 : Catherine Dominguès (Université Paris-Est, IGN/SR, COGIT) & Iris Eshkol-Taravella (LLL, UMR 7270, Orléans) : La subjectivité à travers la désignation des lieux.
    • 11 h 20 – 12 h : Agata Jackiewicz (STIH, Université Paris-Sorbonne) & Max Silberztein (Université de Franche-Comté) : Apprécier des attitudes et des manières d’agir. Le cas des adverbes orientés vers le sujet.
    • 12 h – 12 h 40 : Emilie Née (Ceditec, UPEC), Frédérique Sitri (ModyCo, Université Paris Ouest Nanterre, CNRS) & Serge Fleury (Clesthia, Syled, Université Paris 3 Sorbonne Nouvelle) :L’annotation du pronom « nous » dans un corpus de rapports éducatifs : objectifs, méthodes, résultats.
    • 12 h 40 – 14 h : Déjeuner
    • 14 h – 14 h 40 : Denis Le Pesant (MoDyCo, Université Paris Ouest Nanterre) : Travaux d’annotation sémantique automatique à partir d’un thésaurus des mots d’affect.
    • 14 h 40 – 15 h 20 : Magdalena Augustyn, Vannina Goossens & Agnès Tutin (LIDILEM, Université Stendhal – Grenoble 3) : Annotations des marques de la subjectivité langagière.
    • 15 h 20 – 16 h : Discussion et clôture

 

Inscriptions aux ateliers de formation autour du logiciel libre TXM

 Inscriptions aux ateliers de formation autour du logiciel libre TXM

Les prochains ateliers de formation autour du logiciel libre TXM (textométrie, analyse statistique de données textuelles) auront lieu à Lyon, à l’ENS site Descartes, les journées suivantes (8h30/9h30-17h30/18h) :

jeudi 4 avril : Initiation à TXM ;
vendredi 5 avril : Préparation de corpus et import dans TXM -complet)
lundi 13 mai : Initiation à TXM ;
mardi 14 mai : Préparation de corpus et import dans TXM ;
mardi 21 mai : TXM avancé ;
vendredi 24 mai : Initiation à TXM.

Attention, les ateliers suivants seront en septembre-octobre. Peut-être une ou deux dates pourront-elles être rajoutées entre temps si besoin mais rien de sûr.

Par ailleurs nous avons la chance d’accueillir Pierre Ratinaud le lundi 10 juin à Lyon (ENS site Descartes) pour un atelier spécial « Iramuteq » (http://www.iramuteq.org/).

Si vous êtes intéressé par l’une de ces séances, il faut vous inscrire en envoyant un mail à :
textometrie < à > ens-lyon <point>fr (l’inscription est nécessaire même si vous aviez répondu à la consultation doodle.)
Merci alors de consulter la page des ateliers TXM pour avoir bien toutes les informations sur le contenu, les prérequis, les modalités pratiques, etc. : https://groupes.renater.fr/wiki/txm-users/public/ateliers_txm

Le LabEx ASLAN soutient les ateliers TXM en offrant quelques bourses (environ 7 par an), permettant de prendre en charge les frais de déplacement de personnes motivées qui n’auraient pas les moyens de venir à Lyon (autre région de France, pays limitrophe). Si vous êtes concerné il faut prendre contact avec nous à ce sujet au moins un mois avant la date de la séance choisie.

Au plaisir de vous retrouver peut-être à l’un de ces ateliers,

Bénédicte Pincemin, pour l’équipe TXM.

28 – 29 mars : Jounées Initiative Corpus de Référence du Français 2

 
 
Organisées par l’Institut de Linguistique Française (CNRS, FR 2393) avec la participation du Consortium Corpus Ecrits de la TGIR-CORPUS.
 

L’Institut de Linguistique Française (CNRS, 2393 FR) organise pour la seconde fois deux journées de réflexion et de débats sur le thème « Initiative Corpus de référence du français ». Le comité directeur de l’ILF a jugé qu’il entre effectivement dans les missions de la fédération de lancer une telle initiative au niveau national (corpus de textes écrits, corpus oraux, corpus de référence ouvert à la diachronie longue).

La France, contrairement à d’autres pays ne s’est pas dotée d’un tel type de corpus. Or, les avancées scientifiques et technologiques, le développement des programmes et des infrastructures dans le domaine de ce qu’il est convenu d’appeler « Corpus » permettent de considérer que le contexte actuel se prête à l’accueil favorable d’une telle initiative.

Les deux journées s’articuleront autour de présentations de 45 minutes suivies de 15 minutes de discussion avec le public. À partir des conclusions de cette réflexion, un calendrier et des modalités de travail seront définis pour lancer concrètement l’initiative.

Nous serions heureux de vous accueillir nombreux à participer à ces journées qui se dérouleront les 28 et 29 mars prochains à l’amphithéâtre Emeraude de ParisTech à Paris (75013).

Stéphanie GIRAULT et Franck NEVEU pour le Comité d’Organisation Scientifique

 

24 novembre 2012 : Journée d’information et d’échanges sur les aspects juridiques et l’archivage de corpus

 

Le samedi 24 novembre s’est déroulée une journée d’information et d’échanges sur les aspects juridiques de la propriété et de l’archivage des corpus

Vous pouvez télécharger ici le diaporama de la première partie de la journée.

23 novembre 2012 : Réunion plénière annuelle du consortium « Corpus Ecrits » – Accès aux présentations des groupes de travail

 

Le consortium « Corpus écrits » (Corpus-IR) a organisé sa réunion plénière annuelle le vendredi 23 novembre 2012, de 9h30 à 18h, au Campus des Cordeliers (15, rue de l’Ecole de Médecine, 75006, Paris). Cette réunion fut consacrée à la présentation des activités des différents groupes de travail du consortium :

Vous pouvez accéder aux présentations des groupes de travail en cliquant sur les liens ci-après.

  1. Numérisation (OCR, saisie), correction
  2. Pluralité de systèmes d’écriture
  3. Corpus multilingues (parallèles, comparables…)
  4. Qualité scientifique et accessibilité des corpus (place des corpus dans l’évaluation de la production scientifique des UR)

Chaque présentation fut suivie d’une discussion d’une vingtaine de minutes.