619 - Documents et ressources pour leur traitement : un couplage crucial

Type : Colloque

Section : Section 600 - Colloques multisectoriels

Description :

Les ressources linguistiques et lexicales sont utilisées à plusieurs fins dans différents domaines : traitement automatique de la langue (TAL), terminologie, indexation, didactique des langues, fouille de texte, analyse de contenu, etc. Ainsi, les documents textuels non structurés traités par des systèmes de TAL peuvent nécessiter des ressources linguistiques pour appréhender leur contenu : terminologies, réseaux lexicaux, bases de connaissances, ontologies, etc., où les liens entre termes sont explicites. Aussi, pour décrire, indexer ou classifier des documents (textuels, visuels, audio, vidéo), on recourt à des thésaurus, à des plans de classification, etc. Et l’enseignement utilise souvent des ressources pédagogiques linguistiques ou terminologiques.

Des relations diverses existent entre ces ressources, les documents auxquels elles sont appliquées et les applications auxquelles elles servent. Notre colloque permettra d’étudier ces interactions en tentant de répondre aux questions suivantes :

— Quelles ressources sont mieux adaptées à une application, à un genre, à un type de document ou de discours particulier? Qu’en est-il des corpus non linguistiques (images ou vidéos, par exemple)?

— En quoi les ressources reflètent-elles le corpus de documents ou de connaissances qui ont servi à les créer?

— Quelles adaptations des ressources sont nécessaires pour traiter un corpus donné?

— Comment combiner des ressources pour atteindre un traitement optimal, ou composer un corpus pour en extraire des ressources optimales?

— Comment intégrer une documentation ou une organisation aux ressources pour maximiser leur réutilisation?

— Quels écueils rencontrerait une utilisation imprévue de ressources données?

Les communications présentées dans le colloque aborderont ces questions d’un point de vue théorique, pratique ou empirique.

Le caractère interdisciplinaire de la thématique proposée vise à rassembler des chercheurs issus de divers champs afin de partager les expertises.

Date :

9 mai 2016

Responsables :

Programme

9 mai 2016

Communications orales 08 h 45 → 10 h 30

Mot et conférence d'ouverture

08 h 45
Mot d'ouverture
Lyne Da Sylva (UdeM - Université de Montréal), Patrick DROUIN (UdeM - Université de Montréal)
09 h 00
Thésaurus distributionnels pour la recherche d'information et vice versa
Vincent Claveau (CNRS - Centre national de la recherche scientifique)
10 h 00
Pause

Communications orales 10 h 30 → 11 h 45

Liens entre ressources linguistiques et applications

10 h 30
Quelles ressources lexicales électroniques pour l'enseignement du vocabulaire? Du dictionnaire en ligne au Réseau Lexical du Français
Ophélie Tremblay (UQAM - Université du Québec à Montréal), Paolo Frassi (Università degli studi di Verona)
Notre communication tentera de répondre à quelques-unes des questions qui structurent le colloque : quelles ressources lexicales sont les mieux adaptées à une application pédagogique en enseignement du français langue première ou seconde et pour l'enseignement du vocabulaire en particulier? Quelles adaptations doivent être faites pour un traitement optimal de ces ressources ou pour en extraire les contenus les plus appropriés à des fins d'enseignement et d'apprentissage du vocabulaire?
Afin de répondre à ces questions, nous aborderons les aspects théoriques de l'enseignement du vocabulaire, souvent considéré comme le parent pauvre de la didactique des langues. Nous présenterons ensuite un éventail de ressources lexicales existantes (dictionnaires en ligne, dictionnaires électroniques, concordanciers, listes de mots, etc.) en nous attardant plus particulièrement à une ressource originale et novatrice dont le potentiel pédagogique reste encore à explorer, le Réseau Lexical du Français (RLF), développé par Alain Polguère (Université de Lorraine; ATILF-CNRS) et son équipe. Ce tour d'horizon, appuyé par une analyse des caractéristiques des ressources présentées et de leurs utilisations pédagogiques possibles en enseignement du vocabulaire, nous conduira ensuite à proposer des pistes d'exploitation didactique du RLF. Nous réfléchirons en terminant aux adaptations à envisager pour rendre ces ressources (et le RLF, plus particulièrement) plus accessibles aux professionnels de l'enseignement.
10 h 55
Élaboration de ressources linguistiques pour la génération de texte
Florie Lambrey (UdeM - Université de Montréal), François Lareau (UdeM - Université de Montréal)
La profusion de documents scientifiques pousse le monde académique à recourir à des logiciels de synthèse qui analysent les textes et en extraient les informations pertinentes pour ensuite les reformuler. Le plus souvent, ces logiciels emploient des algorithmes statistiques qui opèrent à un niveau assez superficiel. Afin d'obtenir de meilleurs résumés, un traitement plus approfondi des textes est nécessaire. À l'aide d'une analyse linguistique solide, la tâche d'extraction de contenu fournit une structure conceptuelle représentant le contenu du document. Ensuite, le module de génération de texte reconstruit ce contenu en énoncé en langue naturelle. L'élaboration de ressources lexicales et grammaticales est donc essentielle au développement d'un logiciel de synthèse de document. Dans cette communication, nous présenterons notre générateur de texte multilingue, Géco, qui s'appuie sur des ressources linguistiques. Sa grammaire contient des règles génériques servant à modéliser les phénomènes récurrents dans les langues, ce qui la rend adaptée à la génération multilingue. De même, ses dictionnaires décrivent les spécificités de chaque langue. Nous montrerons que ces choix de conceptualisation et structuration des ressources permettent de refléter plusieurs aspects subtils de la langue, visibles au travers des textes générés par notre système. Nous parlerons également de la possibilité de réutiliser ces ressources d'une langue à l'autre.
11 h 20
Des connaissances à la ressource et de la ressource aux connaissances : genèse du DicoFLex
Sébastien Marengo (UdeM - Université de Montréal), Benoit Robichaud (UdeM - Université de Montréal)
Lorsqu'on s'appuie sur un cadre théorique pour concevoir une ressource lexicale destinée aux non-spécialistes, il convient de se mettre à leur place : la ressource doit non seulement permettre d'accéder aux données, mais également aux connaissances théoriques qui les sous-tendent et en permettent la compréhension. Comment alors faire en sorte que l'accès soit à la fois simple, ludique et efficace ?
C'est la question que se posent les concepteurs du DicoFLex (Dictionnaire de fonctions lexicales), une ressource web actuellement développée par l'Observatoire de linguistique Sens-Texte (OLST). Celle-ci vise à décrire les liens lexicaux du français, en particulier ceux impliqués dans les expressions semi-figées, ou collocations. Elle exploite les fonctions lexicales de la Lexicologie explicative et combinatoire (LEC), un formalisme expressif et puissant mais difficilement accessible.
Après avoir présenté les caractéristiques de base du DicoFLex, nous explorerons les moyens de refléter les connaissances théoriques ayant servi à le créer. Si l'intégration d'une documentation est prévue, nous visons aussi des procédés plus intuitifs : une terminologie vulgarisée qui côtoiera celle d'origine, ainsi qu'une disposition des données qui reflétera la hiérarchie des concepts en jeu.
Nous souhaitons en somme faire un pas vers l'usager dans l'espoir qu'il fera, en retour, un pas vers le cadre théorique. Ce voeu a été formulé, entre autres, pour la didactique des langues.

Assemblée générale 11 h 45 → 13 h 00

Dîner

Communications orales 13 h 00 → 14 h 15

Liens entre corpus et applications

13 h 00
Exploitation d'un corpus spécialisé pour apprenants en vue de l'enseignement-apprentissage du lexique spécialisé
Marjan Alipour (UdeM - Université de Montréal)
Il est important pour un futur traducteur de textes spécialisés de bien connaitre le lexique propre à un domaine de spécialité pour exprimer des connaissances relatives à celui-ci et produire des textes de qualité.
Dans cette communication, nous présenterons une méthodologie d'exploitation d'un corpus d'apprenant portant sur la pollution. Ainsi, nous montrerons l'utilité du corpus dans la didactique du lexique spécialisé, ressource peu utilisée dans les cours de langue spécialisée.
Nous présenterons d'abord les critères de création du corpus d'apprenant : taille, types de textes, etc. en nous inspirant de ceux proposés par Granger (2013). Puis, en nous basant sur les travaux sur le lexique de la langue générale (Binon et al. 2004), nous montrerons l'utilité du corpus pour créer des exercices de distinction de sens et d'appréhension de collocations sur le lexique spécialisé. Par exemple, il existe le risque de considérer comme interchangeables des termes comme décontaminer [éliminer les contaminants de différents types (ordure, pétrole, bactéries…)], et désinfecter [éliminer les microorganismes (bactéries)]. Mais les contextes extraits du corpus permettent de savoir lequel utiliser lors de la production de textes : l'eau polluée par le pétrole sera décontaminée; ces bactéries sont nocives, désinfectez l'air.
Les contextes aident aussi à appréhender le bon collocatif et à l'utiliser correctement pour exprimer un sens précis [ex. carbone : émettre du ~ (produire); teneur en ~ (quantité)].
13 h 25
L'environnement vu par ses documents : utilisation de techniques de fouille de textes dans un contexte de description linguistique
Dominic Forest (UdeM - Université de Montréal), Gabriel Bernier-Colborne (UdeM - Université de Montréal), Hélène Brousseau, Patrick DROUIN (UdeM - Université de Montréal)
Nous présentons l'utilisation d'une approche de fouille de textes dans le cadre d'un projet regroupant des chercheurs en sciences de l'information et en linguistique. L'objectif du projet est la description du domaine de l'environnement à partir d'un important corpus web de 23 514 documents moissonnés à partir de 1 969 sites web totalisant 47 364 125 occurrences. L'étape dont nous rendons compte dans cette communication est une première étape de fouille de textes visant à extraire la structure thématique d'un échantillon du corpus en appliquant de façon itérative un algorithme de classification non supervisée pour identifier une structure hiérarchique de documents partageant des thématiques communes. Notre approche est novatrice puisqu'elle permet de traiter un corpus complexe composé de différents genres textuels et de multiples domaines, incluant des rapports d'experts, des articles de journaux, des pamphlets idéologiques et des travaux de vulgarisation. À partir de nos résultats, nous sommes à même d'alimenter le travail de linguistes par la possibilité de visualiser les principaux thèmes sous la forme d'un dendrogramme interactif de thèmes et par la création de sous-corpus spécialisés. Au final, nos résultats démontrent que l'utilisation de cette approche basée sur la fouille de textes comme première étape exploratoire pour appréhender les corpus massifs et bruités du Web améliore la précision des étapes subséquentes menant à la description linguistique d'un domaine.
13 h 50
Construction automatique de corpus spécialisés pour l'application de méthodes d'analyse distributionnelle
Daphnée Azoulay (UdeM - Université de Montréal)
Les méthodes d'analyse distributionnelle permettent, au moyen de mesures statistiques, de faire ressortir des liens de similarités entre les mots et d'observer les phénomènes les plus récurrents de la langue. Bien que ces méthodes soient souvent utilisées en linguistique de corpus, elles sont rarement employées dans le domaine de la terminologie (Périnet et Hamon 2014). La taille généralement inférieure des corpus spécialisés par rapport à celle des corpus généraux est peut-être l'un des facteurs réduisant l'intérêt pour ce type d'analyse appliqué au travail terminologique. Cependant, la quantité importante de documents désormais accessibles sur le Web nous laisse envisager la possibilité de construire des corpus spécialisés de taille considérable. Notre projet vise donc à automatiser la compilation de textes spécialisés afin d'obtenir des corpus de grande taille sur lesquels seront appliquées des méthodes d'analyse distributionnelle.
Nous présenterons une méthode de construction automatique de corpus spécialisés dont le processus itératif utilise le Web et l'extracteur de termes TermoStat (Drouin 2003). Nous décrirons également une méthode d'évaluation des corpus qui utilise le modèle neuronal word2vec (Mikolov et al. 2013) et dont le but est d'évaluer leur cohérence thématique ainsi que l'influence de leur taille sur la précision de l'information distributionnelle.
14 h 15
Pause

Communications orales 14 h 45 → 15 h 35

Liens entre corpus et ressources linguistiques

14 h 45
Étude des changements lexicaux dans la terminologie d'Internet avant et après l'avènement des réseaux sociaux dans un corpus diachronique anglais
Angélique Lafrance (UdeM - Université de Montréal)
Cette présentation vise à étudier les changements lexicaux en anglais dans le domaine de l'Internet en diachronie courte. Nous voulons ainsi mettre en lumière les termes nouveaux qui sont apparus avec l'avènement des réseaux sociaux en ligne, notamment Facebook, le plus populaire. À l'instar de Paquin (2007) et Picton (2009), nous travaillons en diachronie courte, car l'Internet est un domaine qui évolue rapidement.
Nous avons construit un corpus anglais constitué d'articles de revues d'informatique grand public, PC Magazine et PC World, couvrant les années 2001 à 2010. Le corpus est divisé en deux sous-corpus : 2001 à 2005 et 2006 à 2010. Nous avons choisi 2006 comme pivot, car c'est depuis cette année-là que Facebook est ouvert au public. Pour chacune des deux revues, nous avons sélectionné un numéro par année de 2001 à 2010, pour un total d'environ 540 000 mots pour le sous-corpus de 2001 à 2005 et environ 390 000 mots pour le sous-corpus de 2006 à 2010. Chaque sous-corpus sera soumis à l'extracteur de termes TermoStat pour en extraire les candidats-termes, puis nous tenterons de voir si l'avènement des réseaux sociaux a modifié la terminologie.
Le corpus anglais étant déjà compilé, la présentation portera sur le montage du corpus anglais et sur les résultats préliminaires des expérimentations faites avec ce corpus dans TermoStat.
15 h 10
De quelques aspects de l'adjectif dans un corpus textuel autour des énergies renouvelables
Maria Francesca Bonadonna (Université de Vérone)
Dans cette contribution, nous nous proposons de décrire les adjectifs dans la terminologie des énergies renouvelables à partir de corpus textuels et de les modéliser par le biais des fonctions lexicales conçues par la Lexicologie Explicative et Combinatoire.
La première partie est consacrée à la constitution du corpus, qui, en raison de l'hétérogénéité du domaine, exige une structuration préalable en différents sous-corpus : technique et scientifique ; législatif ; économique et financier ; journalistique. Grâce à l'extracteur terminologique TermoStat et au concordancier AntConc, on passe ensuite à l'extraction et au filtrage manuel des adjectifs du corpus. D'abord est considérée la polysémie des adjectifs moyennant l'observation en contexte : par exemple, l'adjectif vert, qui figure dans des expressions telles que « emploi vert », « technologie verte », est chargé d'un sens métaphorique qui ne correspond pas à son acception dans la langue générale. Cette acception est explicitée dans la paraphrase « verts (environnementaux) ». Ensuite, les dérivés sémantiques adjectivaux repérables dans le corpus sont examinés : dérivés actanciels purs (électrique, énergétique) et dérivés actanciels de potentiels (durable, éligible, renouvelable). Des antonymes peuvent aussi être identifiés, par exemple renouvelable vs fossile. L'analyse comparée des résultats des sous-corpus permettra de vérifier si, et dans quelle mesure, le fonctionnement des adjectifs varie selon le type de texte considéré.

Communications orales 15 h 35 → 16 h 25

Approches comparatives

15 h 35
Complémentarité de ressources et de corpus : le cas du DiCoEnviro
Élizabeth Marshman (Université d’Ottawa), Marie-Claude L'homme (UdeM - Université de Montréal)
Les dictionnaires spécialisés, souvent créés à partir de corpus, sont le fruit d'un investissement important de temps et d'effort dans l'analyse, la sélection et la structuration de données. Quel est le retour sur cet investissement? En quoi l'interaction des utilisateurs avec ces données soigneusement présentées est-elle différente de celle avec des données brutes? Les bénéfices tirés sont-ils comparables?
Dans cette communication, nous explorons ces questions par une étude de cas. Nous avons enregistré l'activité de huit étudiants en traduction qui analysaient des occurrences de six termes de l'environnement. Trois étaient étudiés dans les contextes annotés du DiCoEnviro, un dictionnaire de l'environnement qui s'inspire des principes de la lexicographie explicative et combinatoire et de la sémantique des cadres (L'Homme 2012). Un concordancier en ligne et le corpus utilisé pour créer le dictionnaire ont servi à analyser les trois autres. Les participants ont alors rédigé des définitions pour les termes.
Nous résumons nos observations de ces activités (entre autres le temps passé à consulter les données, les choix effectués au niveau des recherches, le résultat de la rédaction) ainsi que les réactions des participants aux deux ressources. Ceci nous aidera à mieux comprendre le comportement des apprenants face à de telles données, et contribuera éventuellement à une meilleure compréhension de la complémentarité de ressources telles que le DiCoEnviro et son corpus.
16 h 00
Comparaison entre deux méthodes automatiques d'extraction de relations sémantiques et une approche manuelle
Emmanuelle Dusserre (Université de Grenoble), Patrick DROUIN (UdeM - Université de Montréal)
Notre projet a pour objectif d'identifier automatiquement à partir d'un corpus des relations sémantiques entre mots du Lexique scientifique transdisciplinaire (lexique partagé par divers domaines scientifiques) (Tutin 2014). Pour y parvenir, nous exploitons des techniques du traitement automatique des langues; plus particulièrement une analyse distributionnelle automatisée. D'une part, nous utilisons Hyperwords, un logiciel permettant l'exploitation de la méthode distributionnelle (Harris 1955) et d'autre part, nous faisons appel à l'algorithme word2vec (Mikolov et al. 2013) reposant sur une architecture en réseaux de neurones artificiels.
Le corpus analysé est issu de Scientext ; il comporte 3,6 millions de mots et regroupe des articles, des thèses et des écrits d'étudiants recouvrant dix disciplines scientifiques. Nous nous intéressons plus particulièrement aux relations sémantiques des noms et verbes du Lexique scientifique transdisciplinaire et à la création de regroupements de voisins sémantiques par le biais de graphes. Ces derniers seront comparés avec les classes sémantiques des mots du Lexique scientifique transdisciplinaire constituées manuellement par l'équipe du LIDILEM de Grenoble, afin de montrer les similarités et divergences des deux approches.

Communications orales 16 h 25 → 16 h 50

Mot de clôture

16 h 25
Mot de clôture
Patrick Drouin (UdeM - Université de Montréal), Lyne DA SYLVA (UdeM - Université de Montréal)

Rechercher

Informations générales

Programme

9 mai 2016

Mot et conférence d'ouverture

Liens entre ressources linguistiques et applications ﻿﻿

Dîner

Liens entre corpus et applications﻿﻿

Liens entre corpus et ressources linguistiques ﻿﻿

Approches comparatives﻿﻿

Mot de clôture

Liens entre ressources linguistiques et applications

Liens entre corpus et applications

Liens entre corpus et ressources linguistiques

Approches comparatives