635 - Langues naturelles, informatique et sciences cognitives

Type : Colloque

Section : Section 600 - Colloques multisectoriels

Description :

Le sujet de ce colloque traite de la linguistique informatique et plus particulièrement du traitement automatique des langues naturelles (TALN/TAL) ainsi que de son interaction avec les sciences cognitives. Il s’agit d’un domaine qui se situe au carrefour de la linguistique, de l’intelligence artificielle et des sciences cognitives dans leurs recherches sur le langage naturel.

Le colloque proposé vise les différentes applications du TALN dans un contexte monolingue, bilingue ou multilingue, telles que le développement des méthodologies nécessaires pour la construction et l’enrichissement des ressources linguistiques. Tous les aspects du traitement automatique des langues sont considérés, en particulier les travaux théoriques ayant pour but de décrire les phénomènes linguistiques par des modèles calculatoires, le développement de logiciels d’aide aux linguistes pour leurs travaux de recherche, tels que des études de corpus, le développement de logiciels et de ressources pour utiliser, traiter, organiser et conserver des données linguistiques écrites ou orales.

Plus spécifiquement, nous proposons d’abord les sujets suivants :

– modèles de calcul des langues naturelles

– réseaux sémantiques de grande taille

– modèles cognitifs et psychologiques des langues naturelles

– évolution des langues naturelles

– traitement du discours

– pragmatique, processus cognitifs et sociaux des langues

– résumé automatique et extraction d’information

– interfaces et systèmes de dialogue

– traduction automatique

– traitement des ressources multilingues

– outils et ressources en TALN

– corpus linguistique

– forage de données.

Il sera demandé aux présentateurs de mettre en valeur les aspects liés au traitement automatique des langues naturelles, quel que soit le sujet abordé, ainsi qu’à leur pertinence au niveau des sciences cognitives.

Date :

13 mai 2014

Responsables :

Fatiha Sadat (UQAM - Université du Québec à Montréal)
Alexandre Blondin Massé (UQAC - Université du Québec à Chicoutimi)
Stevan Harnad (UQAM - Université du Québec à Montréal)

Programme

13 mai 2014

Communications orales 09 h 00 → 17 h 00

Langues naturelles, informatique et sciences cognitives

09 h 00
Mot de bienvenue
09 h 05
La vie indépendante des mèmes
Stevan Harnad (UQAM - Université du Québec à Montréal)
Les mots ne sont que des formes arbitraires que nous utilisons systématiquement pour la communication linguistique orale et écrite — des « mèmes » selon le vocabulaire de la psychologie évolutive. La distribution de ces mèmes et leurs intercorrélations ne sont que des reflets indirectes du sens de ces formes arbitraires. Leur propre sens est ancré dans nos intéractions directes avec leurs référents dans le monde externe — référents et interactions dont la forme n'est pas arbitraire. Pourtant les propriétés statistiques des énormes bases de données numériques de ces mèmes peuvent révéler des propriétés sémantiques ainsi que scientométriques.
09 h 40
Lecture augmentée par table conceptuelle Wikipédia : modèles informatiques, linguistiques et cognitifs
Ludovic Bocken (TÉLUQ - Université du Québec), Daniel LEMIRE (TÉLUQ - Université du Québec), Stevan HARNAD (UQAM - Université du Québec à Montréal)
Face au volume croissant de documents disponibles sur Internet, optimiser leurs accesseurs constitue un enjeu. Nous entendons ici par accesseur d'un document toute signalétique amenant à son information essentielle. Parmi eux, les titres et leurs fonctions sont particulièrement ancrés socialement. Ils guident l'interprétation, la compréhension et la mémorisation des textes. D'ailleurs, le groupe W3C recommande que toute page web ait un titre. Or améliorer leur qualité nécessite de prendre en compte plusieurs contraintes: dimension ontologique, modification contestable, marché évolutif, complexité, simplification, pertinence, positionnement systémique, esthétique, etc. Comme solution hypothétique, en fonction d'autres accesseurs, nous proposons une table de renvois conceptuels hypertextes à Wikipédia. Celle-ci est constituée d'entrées d'articles, certaines considérées comme principales. L'ensemble est organisé sémantiquement par des catégories et des relations typées. Certaines entrées sont mises en évidence graphiquement. Nous justifierons l'usage de Wikipédia en tant que folksonomie, ressource TAL, et banque de connaissances multilingue. Nous présenterons les modèles informatiques, linguistiques et cognitifs sous-jacents à notre méthodologie, ainsi que leurs interactions. Nous illustrerons leur application à deux articles scientifiques comprenant les termes "Cognitive Science" et "Natural Language Processing". Nous terminerons par une première évaluation du système proposé.
10 h 05
Cotexto : une interface d'interprétation textuelle par contextualisation linéaire et réticulaire
Julien Bonneau (UPEC - Université Paris-Est Créteil (Paris 12))
En cours de développement, Cotexto est une interface de lecture augmentée (Beust et al. 2012), orientée textométrie et analyse de contenu, produite dans le cadre du projet TextObserver (Ceditec - Université Paris 12).
La sémantique texuelle (Rastier 2011) décrit l'interprétation comme l'imbrication d'un double parcours textuel, à la fois linéaire - dans l'ordre de la lecture - et réticulaire - certains passages d'un texte pointant vers des contextes éloignés intra- ou inter-textuels ; voire extra-textuels si l'on élargit le champ théorique de la sémantique.
Les cooccurrences généralisées (Viprey 1997) mettent en valeur ce réseau : appliquées à l'ensemble du vocabulaire d'un texte ou d'ungroupe de textes, les cooccurrences apparaissent comme les unités minimales de contextualisation nécessaires à l'interprétation du sens (Mayaffre 2007). Le graphe de cooccurrences d'un texte (Heiden 2004) fournit une visualisation de son organisation sémantique (Bonneau 2012) en petits mondes lexicaux (Gaume 2004).
Néanmoins, du fait de sa complexité, ce réseau reste difficilement interprétable et perd toute trace du déroulement textuel.
10 h 30
Pause
10 h 50
Fouille textuelle, extraction et catégorisation de contextes de citations pour les articles scientifiques
Marc Bertin (UQAM - Université du Québec à Montréal), Iana Atanassova (UQAM - Université du Québec à Montréal)
Nous proposons une méthodologie de fouille textuelle orientée autour des actes de citation présents dans les articles scientifiques. En étudiant la structure IMRaD ainsi que la distribution des références bibliographiques, nous pouvons mieux appréhender la structure cognitive des publications. L'analyse automatique d'un corpus de 45000 articles nous amène à dégager des propriétés intrinsèques et invariantes aux articles scientifiques.
Notre méthode repose sur : a) l'identification automatique des références, b) l'extraction des contextes de citation, c) l'analyse des relations entre auteurs correspondantes aux actes de citation, et d) l'annotation sémantique de ces relations. Cette approche fait appel à une organisation de formes discursives présentes dans les contextes de citation. Ces dernières, organisées sous forme d'ontologie linguistique, serviront de ressources aux outils d'annotation sémantique.
11 h 15
L'implémentation des fonctions lexicales en LFG et dans la TST pour la génération automatique de textes
François Lareau (UdeM - Université de Montréal)
Dans un système de génération automatique de textes (GAT) à base de grammaires symboliques, une des étapes importantes est la lexicalisation (le choix des mots pour exprimer un message). Pour que les textes générés soient fluides et naturels, il faut savoir générer un type particulier de locutions appelées « collocations », c'est-à-dire des expressions semi-idiomatiques où il existe un lien privilégié entre des mots qui « vont ensemble » (par exemple, "procéder à l'arrestation" au lieu de "arrêter"). Ce phénomène lexical, loin d'être marginal dans l'usage, est omniprésent, et pourtant il reste encore mal traité en TAL. L'arbitraire de ces combinaisons de mots exige que l'information soit encodée d'une façon ou d'une autre dans le dictionnaire d'un système de GAT, et la théorie sens-texte (TST) offre une façon élégante d'encoder cette information grâce aux « fonctions lexicales » (FL). Dans notre exposé, nous allons comparer comment les FL s'implémentent dans MATE, un système de GAT basé sur la TST, et dans XLE, un système basé sur la lexical functional grammar (LFG). Nous allons montrer en quoi les formalismes diffèrent et quelles conséquence cela a pour l'implémentation des FL.
11 h 40
Linguistique textuelle et textmining appliqués à l'analyse contrastive des médias : le cas de la médiatisation de la protection des données personnelles et des technologies sans contact
Mathilde De Saint Leger (CNRS - Centre national de la recherche scientifique), Brigitte JUANALS (Université Paris Ouest Nanterre La Défense (Paris 10)), Jean-Luc MINEL (Université Paris Ouest Nanterre La Défense (Paris 10))
Cette communication présente une approche instrumentée du traitement médiatique de l'information dans un contexte monolingue. L'objectif est une analyse contrastive de 3 types de médias en France, la presse généraliste, la presse professionnelle et économique, et les blogs de journalistes, sur la problématique des données personnelles et des technologies sans contact en lien avec les mobiles. Notre démarche se situe au carrefour de la linguistique textuelle et de la fouille de données textuelle instrumentées avec des outils de TAL; elle s'appuie notamment sur les outils TXM (Heiden & al. 2010) et Calliope (de Saint Leger 2005). Nous commencerons par exposer notre méthodologie. Dans un deuxième temps, nous exposerons les résultats du traitement d'un corpus de 569 articles collectés automatiquement sur la période 2011-2012. L'extraction automatique de la terminologie fondée sur la méthode des segments répétés complétée par un traitement textométrique et les techniques de clustérisation, nous ont permis d'identifier les thématiques principales et les acteurs de ce domaine, et de contraster ces 3 types de médias.
12 h 05
Extraction automatique des verbes arabes spécialisés
Nizar Ghazzawi (UdeM - Université de Montréal)
Dans le cadre de notre étude des verbes arabes spécialisés, nous procédons à l'extraction de ces derniers au moyen d'un extracteur automatique, à savoir TermoStat (Drouin 2003). Notre objectif est de voir dans quelle mesure un extracteur automatique conçu pour le français, l'anglais, le portugais, l'italien et l'espagnole pourra accueillir une langue sémitique, morphologiquement complexe telle que la langue arabe. Notre travail se distingue par le fait qu'il présentera un extracteur pour les verbes arabes spécialisés, contrairement aux outils disponibles qui procèdent à l'extraction automatique des unités terminologiques complexes ou simples, mais de nature nominale. Notre méthodologie de travail consiste à mettre en place un analyseur morphosyntaxique (MADA, Habash et al. 2009) et un corpus arabe de langue générale ainsi qu'un corpus spécialisé pour effectuer l'extraction. En ce qui concerne le corpus général, nous nous servons du corpus général que propose l'Université de Leeds en Grande-Bretagne. Pour le corpus spécialisé, nous disposons d'un corpus spécialisé du domaine de l'informatique totalisant presque 500 000 mots, extrait de matériel sur le web. Suite à l'extraction, nous procédons à l'interprétation des résultats au moyen des listes KWIC que TermoStat établit pour chaque unité repérée. Ces listes nous permettent de valider les unités extraites selon les critères de validation terminologique de L'Homme (2004).
12 h 30
Dîner
14 h 00
Modélisation du traitement visuel morphologique verbal du français, du portugais et bilingue
Gustavo Estivalet (Université Claude Bernard Lyon 1), Fanny MEUNIER (CNRS - Centre national de la recherche scientifique)
Le lexique et le système computationnel sont sous-jacent à tout le traitement des langues naturelles (Chomsky, 1995). Ainsi, au-delà du macro-traitement syntaxique de la phrase, le micro-traitement morphologique du mot fléchi doit suivre les mêmes principes (Halle & Marantz, 1993). Dans les langues latines, le verbe est ordinairement la classe de mots la plus riche en suffixes qui réalisent les traits morphosyntaxiques dans les morphèmes de temps (T) et d'accord (Agr) (ex. [[parl]v[[ai]T[t]T]T]T). Dans ce travail, nous avons développé une modélisation du traitement visuel morphologique verbale du français, du portugais et bilingue avec le logiciel Matlab® qui mime une série d'études comportementales sur le traitement morphologique. Cette modélisation nous a permis d'établir dans les deux langues travaillés a) les items du vocabulaire (morphèmes), b) la structure du mot (opérations morphologiques), c) le fonctionnement de chacune des conjugaisons, d) les interactions du système dans un traitement bilingue et e) les processus de décomposition du mot pour sa reconnaissance visuelle. Les résultats ont montré que a) les règles phonologique sont obligatoires, b) il ne faut pas avoir un trait [langue] pour les morphèmes de différentes langues et c) le lexique verbal peut être constitué juste par des morphèmes sans avoir besoin de la stockage du mot complet de verbes fléchis.
14 h 25
Pause
14 h 50
Le modèle linguistique Compreno développé par ABBYY
Elena Kozlova (ABBYY), Maria Goncharova (ABBYY)
Nous présentons le modèle linguistique Compreno développé par ABBYY. Initialement conçu pour la traduction automatique, il est à présent destiné aux différentes applications du TALN ( l'analyse sémantique et syntaxique, la recherche plein texte, l'extraction d'informations). Le pivot du modèle est une hiérarchie sémantique, faite par les linguistes à la base du russe et de l'anglais. Néanmoins elle s'est montrée suffisamment universelle pour inclure les lexiques d'autres langues (français, allemand, chinois). Pour l'instant l'ampleur des lexiques anglais et russe est comparable à celle de Wordnet. Les lexiques d'autres langues sont en cours de construction. Les dépendances sémantiques dans le modèle sont décrites par des positions sémantiques universelles (plus de 300 au total). La description syntaxique, spécifique pour chaque langue, est réalisée à l'aide du paradigme syntaxique qui prend en considération des propriétés universelles des parties du discours ainsi que des particularités lexico-syntaxiques des mots. Les dépendances syntaxiques sont décrites par des positions syntaxiques qui représentent les réalisations de surface possibles des positions sémantiques dans une langue. Ces mécanismes sont à la base de la désambigüisation des sens dans le contexte. Le choix lexical correct est aidé par des données statistiques collectées à travers des corpus. Le modèle possède plusieurs outils pour traiter les groupes de mots figés et l'asymétrie translingue
15 h 15
Étude des erreurs d'accord de genre dans les corpus d'apprenants du français
Alexandra Luccioni (UQAM - Université du Québec à Montréal)
L'interférence entre la langue source et la langue cible d'un apprenant est un phénomène bien documenté qui peut être à la source d'une grande quantité d'erreurs des apprenants (Dechert and Raupach, 1989; Odlin, 1989; Gass and Selinker, 1992; Schwartz and Sprouse, 1994, parmi d'autres). En comparant les structures d'une paire de langues source et cible spécifique, on peut faire des prédictions sur l'émergence d'erreurs spécifiques chez les apprenants. Ces prédictions peuvent ensuite être vérifiées en analysant les corpus d'apprenants, pour plusieurs raisons: afin de confirmer la présence d'un erreur spécifique, de son contexte, et des facteurs qui peuvent influencer son importance. Finalement, après l'interprétation des données recueillies via l'analyse des corpus, on peut faire des suggestions sur des manières plus efficaces d'enseigner et apprendre des structures linguistiques spécifiques afin d'éviter ou minimiser les erreurs dues à l'interférence. Dans cette étude, on a fait une étude préliminaire du Salford Learners Corpus de la série de corpus FFLOC (French Learner Language Oral Corpora), en ciblant les erreurs d'accord de genre faites par des étudiants anglophones apprenant le français. On fait une série d'observations sur les taux d'erreurs et les facteurs qui les influencent et, ensuite, on propose une série de recommandations pour intégrer ces observations dans la conception d'un système tutoriel pour enseigner le français langue seconde.
15 h 40
Reconnaissance et désambiguïsation des entités nommées : application aux revues françaises du 19e siècle
Alaa Abi Haidar (UPMC - Université Pierre et Marie Curie (Paris 6)), Yusra Ibrahim (LIP6 - UPMC), Jean-Gabriel Ganascia (Sorbonne Université)
Dans cet article, nous présentons notre méthode de reconnaissance des entités nommées non-supervisée (UNERD) que nous testons sur un corpus revues françaises comprenant 260 questions du 19ème siècle. Ce corpus a était récemment numérisé et publié par la Bibliothèque Nationale de France (BnF). Notre méthode se base sur la détection automatique des noms de personnes, de lieux, et d'organisations qui se trouvent dans le texte. Notre méthode originale utilise une base de connaissance française (Aleda) avec une approche statistique et contextuelle. Nous montrons que notre méthode est plus performante que d'autres approches supervisées lorsque l'apprentissage se limite à une petite portion des données annotées, puisque l'annotation manuelle est très coûteuse et fastidieuse, surtout dans des langues étrangères et des domaines spécifiques.
16 h 05
Comparaison et évaluation de différentes méthodes de représentation d'expressions polylexicales
Alexsandro Fonseca (UQAM - Université du Québec à Montréal)
Pendant les dernières années, plusieurs travaux se sont consacrés aux expressions polylexicales. Cependant, la majorité se concentre sur l'extraction, la désambiguïsation et l'interprétation de ces expressions. Une partie moins significative de la littérature se consacre à la représentation et à l'intégration des EPs aux autres tâches du TALN (Ramisch, 2012).
Dans cet article, nous évaluons l'utilisation de quatre différentes méthodes de représentation, en les appliquant à la représentation des EPs du portugais du Brésil. À partir d'un ensemble d'EPs du portugais automatiquement extraites, nous voulons évaluer chacune de ses méthodes par rapport à leur pouvoir de représentation et de généralisation. La première approche est présentée par Villavicencio et al. (2004). Elle se restreint aux expressions idiomatiques et aux constructions de verbes à particule. Il consiste d'un codage pour les EPs basé sur le codage de leurs mots constituants. La deuxième approche est présentée par Grégoire (2010) et il s'applique à des EPs en général, implémentée pour la langue hollandaise. Elle utilise l'idée de « Equivalence Class Method » (Odijk 2004) pour créer une classification des EPs. La troisième (Multiflex) et la quatrième (POLENG) approches sont présentées par Gralinski et al. (2010) et sont implémentées pour la langue polonaise. Multiflex est basée sur une représentation en graphe et POLENG est plus simple, les EPs sont décrites par une chaîne de caractères compacte et linéaire.
16 h 30
Apprentissage non supervisé, basé sur réseau bayésien, de nouvelles unités lexicales pour améliorer la performance de la segmentation du texte chinois
Zhe Fu (UQAM - Université du Québec à Montréal), Pierre POIRIER (UQAM - Université du Québec à Montréal)
L'écriture chinoise ne sépare pas les différentes unités lexicales d'une phrase par des marques textuelles. Par conséquent, un texte chinois écrit consiste en une séquence de caractères chinois où les phrases sont séparées par des points mais les unités lexicales ne sont pas séparées les unes des autres. Le traitement automatique de la langue chinoise écrite doit débuter par une étape desegmentation de la phrase en ses unités lexicales constituantes. Il existe déjà plusieurs segmenteurs automatiques du chinois, mais ceux-ci rencontrent souvent des difficultés lorsque confrontés à des unités lexicales inconnues, ce qui peut réduire significativement leur performance. Nous proposons une méthode pour améliorer cette performance en utilisant les réseaux bayésiens. Cette méthode peut calculer, évaluer et mettre à jour la probabilité qu'une séquence de caractères forme une unité lexicale et, lorsqu'une prédiction s'avère élevée, d'ajouter cette unité lexicale à un dictionnaire (apprendre de nouvelles unités puis ajuster continuellement leur probabilité). Appliquée de manière récursive, cette méthode pourrait améliorer la performance des segmenteurs en leur permettant d'apprendre de nouvelles unités lexicales et en mettant à jour automatiquement, et selon les différents corpus, leurs probabilités dans un dictionnaire.
16 h 55
Mot de clôture

Rechercher

Informations générales

Programme

13 mai 2014

Langues naturelles, informatique et sciences cognitives