Assemblée générale du consortium « Corpus Écrits » – 22 novembre 2013

 Assemblée générale du consortium « Corpus Écrits » – 22 novembre 2013

Le Consortium Corpus Ecrits organise sa réunion plénière annuelle le vendredi 22 novembre 2013, de 9h30 à 18h, à l’INALCO 62 rue des Grands Moulins à Paris dans le 13ème arrondissement.

Cette réunion sera consacrée à la présentation du bilan de parcours et aux perspectives.

PROGRAMME :
–      Présentation

–       Bilans par thèmes des réalisations

–      Présentation des actions des groupes de travail

–       Formations réalisées et/ou nécessaires

–      Présentation de l’Initiative Corpus de références du Français

–       Appel d’offres 2014 : Quels critères, quelles thématiques, quel budget ?

–      Quelles attentes, quels projets en 2014 et 2015 pour le Consortium Corpus Ecrits

La participation de toutes les personnes intéressées par cette journée est vivement encouragée par le comité de pilotage, qu’elles soient ou non inscrites à un groupe de travail.

Si la participation à ces journées est libre, l’inscription est obligatoire et…  très rapide. Il vous convient de vous enregistrer en vous connectant à : http://french.jotform.com/form/32943348795872
Le consortium peut contribuer au financement des missions des participants actifs des groupes de travail.

 

 

 

 

 

Journée d’étude : L’annotation de la subjectivité langagière. Méthodes, Modélisation, Outils, Retours d’expérience, 14 janvier 2014, Paris

Journée d’étude : L’annotation de la subjectivité langagière. Méthodes, Modélisation, Outils, Retours d’expérience, 14 janvier 2014, Paris

Maison de la Recherche, Université Paris-Sorbonne, 28 rue Serpente, 75006 Paris
Fédération de recherche ILF (Institut de la Langue Française)
Consortium Corpus Ecrits, Groupe de travail Annotation de haut niveau

Depuis quelques années, le thème de la recherche d’informations dans de très grands corpus et sur le WEB, tout particulièrement dans le domaine de l’expression des émotions et des opinions (sentiment analysis), intéresse de nombreux spécialistes tant dans le domaine des sciences du langage que dans celui des industries de la langue. D’autre part, le consortium Corpus Ecrits est impliqué dans un projet de création d’un grand corpus de référence du français. C’est dans ce contexte que s’inscrit la Journée d’Etude du Groupe de travail Annotation de haut niveau (consortium Corpus Ecrits de l’ILF) du 14 janvier 2014. Elle sera l’occasion de cibler plus particulièrement le thème de l’annotation de la subjectivité langagière, en vue d’un tour d’horizon des premiers résultats obtenus et des travaux en cours.

    • 10 h -10 h 40 : Noémi Boubel & Thomas François (Cental, ILC, Université catholique de Louvain (UCL, Belgique): Étude linguistique des phénomènes de modification de polarité dans le domaine de la fouille d’opinion.
    • 10 h 40 – 11 h 20 : Catherine Dominguès (Université Paris-Est, IGN/SR, COGIT) & Iris Eshkol-Taravella (LLL, UMR 7270, Orléans) : La subjectivité à travers la désignation des lieux.
    • 11 h 20 – 12 h : Agata Jackiewicz (STIH, Université Paris-Sorbonne) & Max Silberztein (Université de Franche-Comté) : Apprécier des attitudes et des manières d’agir. Le cas des adverbes orientés vers le sujet.
    • 12 h – 12 h 40 : Emilie Née (Ceditec, UPEC), Frédérique Sitri (ModyCo, Université Paris Ouest Nanterre, CNRS) & Serge Fleury (Clesthia, Syled, Université Paris 3 Sorbonne Nouvelle) :L’annotation du pronom « nous » dans un corpus de rapports éducatifs : objectifs, méthodes, résultats.
    • 12 h 40 – 14 h : Déjeuner
    • 14 h – 14 h 40 : Denis Le Pesant (MoDyCo, Université Paris Ouest Nanterre) : Travaux d’annotation sémantique automatique à partir d’un thésaurus des mots d’affect.
    • 14 h 40 – 15 h 20 : Magdalena Augustyn, Vannina Goossens & Agnès Tutin (LIDILEM, Université Stendhal – Grenoble 3) : Annotations des marques de la subjectivité langagière.
    • 15 h 20 – 16 h : Discussion et clôture

 

Inscriptions aux ateliers de formation autour du logiciel libre TXM

 Inscriptions aux ateliers de formation autour du logiciel libre TXM

Les prochains ateliers de formation autour du logiciel libre TXM (textométrie, analyse statistique de données textuelles) auront lieu à Lyon, à l’ENS site Descartes, les journées suivantes (8h30/9h30-17h30/18h) :

jeudi 4 avril : Initiation à TXM ;
vendredi 5 avril : Préparation de corpus et import dans TXM -complet)
lundi 13 mai : Initiation à TXM ;
mardi 14 mai : Préparation de corpus et import dans TXM ;
mardi 21 mai : TXM avancé ;
vendredi 24 mai : Initiation à TXM.

Attention, les ateliers suivants seront en septembre-octobre. Peut-être une ou deux dates pourront-elles être rajoutées entre temps si besoin mais rien de sûr.

Par ailleurs nous avons la chance d’accueillir Pierre Ratinaud le lundi 10 juin à Lyon (ENS site Descartes) pour un atelier spécial « Iramuteq » (http://www.iramuteq.org/).

Si vous êtes intéressé par l’une de ces séances, il faut vous inscrire en envoyant un mail à :
textometrie < à > ens-lyon <point>fr (l’inscription est nécessaire même si vous aviez répondu à la consultation doodle.)
Merci alors de consulter la page des ateliers TXM pour avoir bien toutes les informations sur le contenu, les prérequis, les modalités pratiques, etc. : https://groupes.renater.fr/wiki/txm-users/public/ateliers_txm

Le LabEx ASLAN soutient les ateliers TXM en offrant quelques bourses (environ 7 par an), permettant de prendre en charge les frais de déplacement de personnes motivées qui n’auraient pas les moyens de venir à Lyon (autre région de France, pays limitrophe). Si vous êtes concerné il faut prendre contact avec nous à ce sujet au moins un mois avant la date de la séance choisie.

Au plaisir de vous retrouver peut-être à l’un de ces ateliers,

Bénédicte Pincemin, pour l’équipe TXM.

28 – 29 mars : Jounées Initiative Corpus de Référence du Français 2

 
 
Organisées par l’Institut de Linguistique Française (CNRS, FR 2393) avec la participation du Consortium Corpus Ecrits de la TGIR-CORPUS.
 

L’Institut de Linguistique Française (CNRS, 2393 FR) organise pour la seconde fois deux journées de réflexion et de débats sur le thème « Initiative Corpus de référence du français ». Le comité directeur de l’ILF a jugé qu’il entre effectivement dans les missions de la fédération de lancer une telle initiative au niveau national (corpus de textes écrits, corpus oraux, corpus de référence ouvert à la diachronie longue).

La France, contrairement à d’autres pays ne s’est pas dotée d’un tel type de corpus. Or, les avancées scientifiques et technologiques, le développement des programmes et des infrastructures dans le domaine de ce qu’il est convenu d’appeler « Corpus » permettent de considérer que le contexte actuel se prête à l’accueil favorable d’une telle initiative.

Les deux journées s’articuleront autour de présentations de 45 minutes suivies de 15 minutes de discussion avec le public. À partir des conclusions de cette réflexion, un calendrier et des modalités de travail seront définis pour lancer concrètement l’initiative.

Nous serions heureux de vous accueillir nombreux à participer à ces journées qui se dérouleront les 28 et 29 mars prochains à l’amphithéâtre Emeraude de ParisTech à Paris (75013).

Stéphanie GIRAULT et Franck NEVEU pour le Comité d’Organisation Scientifique

 

24 novembre 2012 : Journée d’information et d’échanges sur les aspects juridiques et l’archivage de corpus

 

Le samedi 24 novembre s’est déroulée une journée d’information et d’échanges sur les aspects juridiques de la propriété et de l’archivage des corpus

Vous pouvez télécharger ici le diaporama de la première partie de la journée.

23 novembre 2012 : Réunion plénière annuelle du consortium « Corpus Ecrits » – Accès aux présentations des groupes de travail

 

Le consortium « Corpus écrits » (Corpus-IR) a organisé sa réunion plénière annuelle le vendredi 23 novembre 2012, de 9h30 à 18h, au Campus des Cordeliers (15, rue de l’Ecole de Médecine, 75006, Paris). Cette réunion fut consacrée à la présentation des activités des différents groupes de travail du consortium :

Vous pouvez accéder aux présentations des groupes de travail en cliquant sur les liens ci-après.

  1. Numérisation (OCR, saisie), correction
  2. Pluralité de systèmes d’écriture
  3. Corpus multilingues (parallèles, comparables…)
  4. Qualité scientifique et accessibilité des corpus (place des corpus dans l’évaluation de la production scientifique des UR)

Chaque présentation fut suivie d’une discussion d’une vingtaine de minutes.

 

19-22 novembre 2012 : formation avancée en TEI pour les consortiums CAHIER, ECRITS, IRCOM

 

Paris, Institut de Linguistique Française, 19 – 22 novembre 2012

 

Responsables : Lou Burnard (TEI) et Alexandre Gefen (Sorbonne), assistés de Lauranne Bertrand (BVH, CESR). La participation d’autres experts français est envisagée selon leur disponibilité.

Cette formation s’articulera autour de 3 thèmes :

  • La modélisation des ressources et la sélection des traits signifiants
  • L’encodage et l’explicitation TEI des structures modélisées
  • L’exploitation et l’analyse des ressources structurées

Chaque journée sera découpée en 4 sessions qui feront alterner des présentations et des sessions de travaux pratiques.

 

Prérequis : Connaissances basiques de l’encodage XML et des essentiels de la TEI. En l’absence d’une salle pré-equipée d’ordinateurs, les participants seront invités à travailler sur leurs portables personnels (PC, Mac, ou Linux). Les logiciels à installer leur seront communiqués avant la formation.

 

Public : Les participants doivent être porteurs d’un projet en cours et seront invités à présenter des échantillons des sources sur lesquelles ils travaillent et à discuter de leur encodage éventuel. La formation vise à s’adresser autant aux scientifiques qu’aux ingénieurs.

 

– Date limite d’inscription : 5 novembre

– Inscriptions : Laurence Rageot et Stéphanie Girault

Télécharger le programme complet des journées

11 octobre 2012 – Assemblée des comités de pilotage des consortiums de Corpus-IR

Le Jeudi 11 Octobre 2012 à 9h30 aura lieu la 1ère Assemblée Générale de Corpus IR, à l’amphithéâtre Marie Curie, au Siège du CNRS, Paris Michel-Ange.

Cet événement sera l’occasion pour tous les acteurs des consortiums de se rencontrer et d’échanger sur les projets, les travaux et les acquis, et où ensemble nous pourrons discuter des questions techniques et administratives qui intéressent tous les partenaires.

Programme : 

  • 8h30-9h30 : Accueil
  • 9h45– 10h : Introduction – Patrice Bourdelais (sous-réserves)
  • 10h – 10h30 : Réalisations et présentation de l’activité de la TGIR Corpus – Laurent Dousset & Stéphane Pouyllau
  • 10h30 – 12h30 : Présentation des corpus : premières réalisations et projets – Consortium Ecrit – Consortium Ircom – Consortium Archive des ethnologues -Consortium Cahier
  • 12h30 – 13h30 : Déjeuner
  • 13h30 – 14h30 : Discussions et échanges
  • 14h30– 15h : L’enjeu de la réutilisation des données scientifiques : vers un open data maitrisé en SHS – Stéphane Pouyllau
  • 15h – 15h20 : Les TGIR en SHS : enjeux, objectifs, construction – Françoise Thibault
  • 15h20 – 16h30 : Discussions et conclusions