328 - Étude et traitement des lexiques à vocation particulière : regards croisés

Type : Colloque

Section : Section 300 - Lettres, arts et sciences humaines

Description :

Le lexique d’une langue n’est pas un objet monolithique. Son étude passe par l’identification de caractéristiques particulières de mots isolés, mais aussi de regroupements de mots qu’on pourrait appeler des ensembles lexicaux. On peut les définir de différentes manières : par thématique (p. ex., le lexique de l’environnement), par niveau d’apprentissage (p. ex., le Basic English), par caractéristiques sémantiques (p. ex., événements, prédicats, objets, etc.), par contexte d’utilisation (p. ex., terminologie spécialisée vs langue générale). Selon l’optique retenue, les méthodes d’identification, de caractérisation, d’enseignement et de description ne sont pas les mêmes.

Il devient intéressant de comparer les différentes approches afin de voir dans quelles mesures elles peuvent s’alimenter et s’enrichir mutuellement. Le travail en vase clos des chercheurs s’intéressant à la thématique peut conduire à des recherches en parallèle qui sont trop rarement mises en commun dans un cadre d’échange multidisciplinaire. Or, une considération moins monolithique du lexique ne peut que conduire à des descriptions plus flexibles et complémentaires.

Le colloque permettra de :

1) réunir des chercheurs intéressés par la thématique du lexique à vocation particulière afin qu’ils puissent échanger sur leurs cadres théoriques, leurs méthodes et leur utilisation des divers sous-ensembles lexicaux;

2) explorer les bases théoriques de classes de vocabulaire ou de sous-ensembles lexicaux ou terminologiques;

3) caractériser des ensembles lexicaux;

4) réunir des chercheurs provenant de pays différents.

Dans un tel contexte, réunir des chercheurs provenant de la didactique, de la lexicologie, de la lexicographie, de la terminologie, de la linguistique de corpus et de l’informatique, des sciences cognitives, des sciences de l’information et des divers domaines spécialisés contribuera nécessairement à enrichir la réflexion sur le sujet.

Dates :

28 mai 2015
29 mai 2015

Responsables :

Programme

28 mai 2015

Communications orales 09 h 30 → 12 h 15

Ressources lexicales et terminologiques (partie 1)

Présidence : Marie-Claude L'homme (UdeM - Université de Montréal)

09 h 30
Mot de bienvenue
09 h 45
Les multiples facettes des ressources terminologiques et lexicographiques : motivations, directions et mises en garde
Élizabeth Marshman (Université d’Ottawa)
Outils par excellence dans les domaines de spécialité, les ressources terminologiques et lexicographiques spécialisées fournissent une riche synthèse de données conceptuelles, sémantiques, linguistiques et même pragmatiques pour une variété d'usagers (experts du domaine, langagiers professionnels, apprenants). La difficulté : ces usagers ont le plus souvent des motifs différents pour consulter ces ressources et des besoins différents en matière de contenu. Le format électronique offre de multiples possibilités pour concevoir, adapter, développer, présenter et compléter ces ressources afin de mieux servir cette variété d'usagers. Mais pour profiter pleinement de ces possibilités, il reste encore plusieurs questions à régler.
Quels sont les besoins exprimés par les divers groupes d'usagers? Quelles sont les tentatives qui ciblent des avenues prometteuses pour la conception de ressources? Quels sont les facteurs qui limitent leur création et leur enrichissement? Enfin, comment pouvons-nous, à travers ces regards croisés, choisir la direction la plus efficace pour atteindre les buts fixés? Par une exploration d'études récentes du domaine, entre autres, des études qui ciblent le point de vue de l'utilisateur, nous discuterons de certains indices que nous pouvons déceler dans les projets en cours en vue de créer de meilleures ressources.
10 h 45
Pause
11 h 15
Traduction de VerbNet vers le français
Laurence Danlos (Université Paris Diderot (Paris 7)), Takuya NAKAMURA (Université Paris-Est Marne-la-Vallée), Quentin PRADET (Université Paris Diderot (Paris 7))
VerbNet est une ressource lexicale pour les verbes anglais (du domaine général) très utilisée en TAL pour l'annotation en rôles sémantiques. Une telle ressource n'existe pas pour le français. Nous montrons comment "traduire” semi-automatiquement VerbNet en français en utilisant deux ressources lexicales existantes, manuellement construites dans les années 1970, le LVF (Les Verbes Français) et le LG (Lexique-Grammaire), la première reposant sur un classement sémantique des verbes, la seconde sur un classement syntaxique.
VerbNet reposant sur un classement syntaxique et sémantique, ce travail permet d'affiner les classes syntaxiques du LG par des critères sémantiques. À rebours, la couverture plutôt exhaustive du LG permet de contrôler la couverture du Verb3net français qui devrait atteindre 6 à 7000 verbes. Ce travail met aussi en avant les cas de (non)-correspondances entre classes anglaises et françaises syntaxiquement et sémantiquement homogènes. Ainsi, les sous-classes de 35-Searching où l'objet recherché peut être introduit par la préposition for (I hunted/stackled the woods for game, I hunted/stackled game in the woods) doivent être réorganisées en français, car il n'existe pas d'équivalent à la préposition for (J'ai chassé/traqué le gibier dans les bois, *J'ai chassé/traqué les bois pour du gibier). Les (non)-correspondances entre classes anglaises et françaises sont utiles tant pour l'enseignement que pour la traduction (manuelle ou automatique) d'une des langues vers l'autre.
11 h 45
La terminologie de l'informatique : entre le terme et le frame sémantique
Nizar Ghazzawi (UdeM - Université de Montréal)
Dans le contexte de notre étude du vocabulaire technique arabe du domaine de la technologie de l'informatique, nous nous concentrons sur l'application de modèle de FrameNet (Ruppenhofer 2010) sur un ensemble des termes extraits d'un corpus spécialisé. Notre objectif dans ce travail est de voir comment les termes verbaux et déverbaux peuvent être organisés dans des cadres sémantiques (ou encore Frames) en fonction de leurs spécificités sémantiques et syntaxiques, suivant la méthodologie du FrameNet. De plus, nous nous interrogeons sur les liens possibles que les différents cadres sémantiques peuvent avoir entre eux. Pour ce faire, notre méthodologie (L'Homme et coll. 2014) consiste à extraire les données linguistiques d'une base de données terminologique appelée DiCoInfo et, par la suite, les comparer avec les unités lexicales existant dans FrameNet. Nous examinons si les cadres proposés dans FrameNet correspondent à nos termes. À défaut de cadres correspondants, nous créerons les nôtres, ou nous adapterons les cadres existants à nos besoins. Étant donné que nous travaillons sur deux ressources différentes (DiCoInfo en arabe et FN en anglais), nous nous intéressons à comparer les structures actantielles des unités lexicales dans les deux. Dans notre présentation, nous montrons des résultats préliminaires basés sur l'analyse d'un ensemble de termes susceptibles de former un cadre donné.
12 h 15
Dîner

Communications orales 14 h 00 → 16 h 00

Ressources lexicales et terminologiques (partie 2)

Présidence : Élizabeth Marshman (Université d’Ottawa)

14 h 00
Pertinence des lexiques juridiques canadiens dans un contexte plurijuridique
Nathalie Pelletier (UdeM - Université de Montréal), Marie-Hélène GIRARD (UNIGE - Université de Genève)
Au Canada, la langue juridique est une chimère à quatre têtes. Les langagiers oeuvrant dans le domaine du droit doivent jongler avec la common law en français et la common law en anglais, le droit civil en français et le droit civil en anglais. Dans ce contexte plurijuridique et bilingue, des organismes canadiens de jurilinguistique ont créé des outils linguistiques pour les juristes et le public, notamment des lexiques spécialisés, dans le but de définir les langues du droit. Leur objectif est de réduire les ambiguïtés conceptuelles du droit et d'assurer un accès égal à la justice dans les deux langues officielles. Nous proposons d'explorer quelques-uns de ces lexiques afin d'en dégager les méthodes lexicographiques et d'en évaluer l'application et la pertinence. Nous voulons ainsi découvrir si les lexiques servent réellement les objectifs énoncés et si leur production est vraiment utile aux utilisateurs finaux, ainsi que présenter quelques pistes de réflexion à ce chapitre.
14 h 30
Distinctions sémantiques fines dans le domaine de l'environnement : analyse des ressources terminologiques classiques et du DiCoEnviro
Daphnée Azoulay (UdeM - Université de Montréal), Elizabeth MARSHMAN (Université d’Ottawa), Allison STENTAFORD (Université d’Ottawa)
Le domaine de l'environnement pose de nombreux défis aux langagiers. Certains termes (par ex. en anglais uptake, accumulation; en français accumulation, absorption) véhiculent des sens a priori similaires, mais dont des éléments de définition les distinguent. Il est alors difficile pour le néophyte de choisir le terme correspondant le mieux au sens qu'il cherche à exprimer en contexte.

Certains tests (cf. Cruse 1986) mettent en évidence des distinctions sémantiques fines qui ne sont pas forcément reflétées dans les descriptions des ressources terminologiques. L'approche classique (cf. Dubuc 2002) met l'accent sur des informations de nature conceptuelle, principalement sous forme de définitions et de contextes. Le dictionnaire d'approche lexico-sémantique, le DiCoEnviro, (L'Homme et coll., 2013), fait notamment appel à des annotations qui, basées sur la méthode de FrameNet (Ruppenhofer et coll. 2010), identifient les actants et les circonstants participant au sens en contexte.

Notre projet jette les bases d'études ultérieures sur l'utilisabilité des ressources. Pour ce faire, nous ciblons les distinctions sémantiques clés par une analyse en corpus, nous comparons les stratégies mises en oeuvre par les ressources terminologiques (Termium, GDT, DiCoEnviro) pour expliciter ces distinctions et nous identifions les pistes susceptibles d'être les plus prometteuses pour la désambiguïsation des sens en contexte d'énonciation.
15 h 00
Prise en compte de la nature épistémologique et historique d'un domaine lors de l'élaboration d'un thésaurus
Alicia Vico Ramírez (OLST - Observatoire de linguistique Sens-Texte)
Un thésaurus est un schéma de connaissances utile pour l'indexation documentaire et l'apprentissage
d'un domaine. Il s'agit d'une classification de termes contrôlés représentant des concepts, tout en
rendant explicites leurs relations. Dans cette communication, nous nous pencherons sur une méthode
d'élaboration d'un thésaurus multilingue (Thésaurus de la terminologie) considérant la nature
épistémologique et historique du domaine de la terminologie.

Selon Hjørland (1998), un thésaurus doit être axé sur les aspects constituant un domaine : l'histoire, les
sujets, les approches, la production de connaissances, l'objet d'étude, les sous-disciplines et les
disciplines connexes. Pour en rendre compte, nous proposons une méthode d'élaboration de thésaurus
basée sur les principes théoriques du paradigme de l'analyse de domaine en sciences de l'information
(Hjørland, 1997). Nous menons une étude d'opportunité, nous analysons les caractéristiques du
domaine, de la littérature et des approches théoriques avant de procéder à la sélection de descripteurs,
et de mener à bien leur encodage et leur visualisation.

Lors de notre communication, nous examinerons les décisions et les difficultés inhérentes à chaque étape,
comme la prise en compte des aspects suivants : l'évolution des systèmes conceptuels, la variation
terminologique, la multidimensionnalité et les dissensions théoriques. Finalement, nous présenterons le
résultat de cette méthode sur certains descripteurs de notre thésaurus.
15 h 30
Les soins de fin de vie : une terminologie empreinte de variation
Aline Francoeur (Université Laval), Mélissa BOIRON (Université Laval)

29 mai 2015

Communications orales 09 h 15 → 12 h 15

Corpus spécialisés

Présidence : Aline Francoeur (Université Laval)

09 h 15
Quelques réflexions sur les ensembles lexicaux
Patrick Drouin (UdeM - Université de Montréal)
L'exploration du lexique des écrits scientifiques a conduit les chercheurs (Tutin, 2007a; Drouin, 2010a,b; Tutin, 2014) à proposer et explorer le concept de lexique scientifique transdisciplinaire (LST), une extension du vocabulaire général d'orientation scientifique proposé dans Phal (1976). Il est aussi similaire au lexique académique décrit dans les travaux de Coxhead (2000); Paquot (2010); Coxhead (2014), mais s'en démarque en ce qu'il ne se limite pas au discours académique et intègre la phraséologie. Le LST est utilisé dans la description et la présentation de l'activité scientifique, il est donc essentiel à l'expression de la pensée scientifique. Il côtoie dans les textes la ou les terminologie(s) à l'œuvre et constitue un noyau lexical commun significatif entre les disciplines.
Les récents travaux sur le LST ont mis en évidence un ensemble nommé lexique abstrait général (LAG) ) qui n'est pas spécifique aux écrits scientifiques, mais qui, par sa forte fréquence, se démarque de son usage en langue non spécialisée. Une première tentative de distinguer ce lexique du LST a été faite par Hatier (2013) et Jacquey et coll. (2013).
Notre communication visera à présenter les particularités de chacun de ces ensembles lexicaux. Nous verrons comment ces particularités permettent ou non leur recensement automatique. Nous terminerons avec une description des liens qui se tissent entre ces ensembles lexicaux dans le texte et des perspectives des travaux potentiels dans le domaine.
10 h 15
Analyse à grande échelle du fonctionnement des marqueurs de relations conceptuelles en corpus spécialisés
Luce Lefeuvre (Université Toulouse - Jean Jaurès), Anne CONDAMINES (Université Toulouse - Jean Jaurès)
La variation du fonctionnement des marqueurs de relations conceptuelles a été assez peu étudiée. Dans le cadre du projet ANR CRISTAL1 (Contextes RIches en connaissanceS pour la TrAduction terminoLogique), nous étudions cette variation à grande échelle, en fonction du domaine, du genre et de la langue afin d'améliorer le fonctionnement des outils d'extraction de relations.

Une première étape a permis de constituer une liste de marqueurs, pour l'anglais et pour le français, des relations d'hyperonymie, de méronymie et de cause. Ces marqueurs sont constitués d'éléments lexico-syntaxiques qui, hors contexte, peuvent être associés à une interprétation « relationnelle » (Y être Dét_Indéfini espèce de Dét X pour l'hyperonymie ou X cause Y pour la cause). L'étape actuelle vise à étudier la productivité de ces quelques 469 marqueurs dans des corpus français portant sur la volcanologie et le cancer du sein, et pour deux genres textuels : scientifique et vulgarisé. Trois catégories de fonctionnement apparaissent selon le taux d'occurrences dans lesquelles l'élément testé joue le rôle de marqueur : 1- plus de 60 % des cas, 2- 30 à 60 % des cas, 3- moins de 30 % des cas. Cette catégorisation nous permettra d'évaluer le rôle du domaine et du genre dans le fonctionnement de chaque marqueur et donc son utilisabilité dans des outils. L'étape suivante permettra, pour la tranche 30 à 60%, de voir comment la prise en compte de ressources extérieures, contraignant le co-texte, améliore ce résultat.
10 h 45
Pause
11 h 15
Corpus parallèles : un moyen déficient pour l'étude des collocations spécialisées?
Zhichao Jia (UdeM - Université de Montréal), Marie-Claude L'homme (UdeM - Université de Montréal), Jian-Yun NIE (UdeM - Université de Montréal)
Les collocations ont fait couler beaucoup d'encre depuis les années 1950. En revanche,
les méthodes d'étude des collocations n'ont toujours pas attiré assez d'attention. Jusqu'ici,
si l'on peut dire, le plus grand changement méthodologique est l'introduction des corpus,
notamment par Sinclair (1991). Parmi les deux grands types de corpus bilingues, à savoir
le corpus comparable et le corpus parallèle, ce dernier fait souvent l'objet de critiques. À
titre d'exemple, dans une étude sur les collocations spécialisées, Maniez (2001) a montré
que la partie du corpus parallèle qui correspond à la langue d'arrivée présente une
richesse lexicale et idiomatique inférieure à celle de la langue de départ. Étant donné que
Maniez a limité ses études aux collocations V + N, il nous apparaît légitime de vérifier si
cette conclusion reste valable pour les autres types de collocations. Notre présentation a
donc pour objectif de faire une analyse préliminaire des collocations de type N + A, qui
est basée sur la terminologie lexico-sémantique (L'Homme 2004). D'abord, nous
examinerons les collocations de 20 termes extraits d'un corpus anglais (langue de départ)
et ses équivalents dans un corpus chinois composé de textes traduits. Ensuite, l'analyse se
concentra sur ces collocations et ses équivalents dans un troisième corpus constitué de
textes écrits initialement en chinois. À la fin, nous comparerons les deux résultats obtenus
au cours des deux étapes précédentes pour dégager notre conclusion.
11 h 45
De parole publicitaire à langue de la solidarité : caractéristiques du slogan social
David Fradette (Université Laval)
Le slogan publicitaire a fait l'objet de bon nombre d'études, notamment en traductologie, pour
des considérations pragmatiques évidentes. Il serait toutefois erroné d'envisager le slogan
uniquement dans sa dimension commerciale. En effet, les besoins de communication multilingue
en contexte mondialisé ne sont pas l'apanage des entreprises. C'est pourquoi, par l'utilisation de
corpus comparables complémentaires, nous proposons de distinguer le slogan publicitaire du
slogan social, soit le slogan tel que l'instrumentalisent les organisations de la société civile dans
les domaines de l'environnement, du développement, de la santé et de la solidarité sociale. Nous
verrons d'abord comment une méthodologie axée sur la linguistique différentielle permet la
catégorisation de divers ensembles lexicaux en fonction d'un genre textuel à définir. Nous
observerons ensuite que l'analyse des propriétés syntaxiques, sémantiques et pragmatiques de ces
ensembles met au jour des schémas de rédaction propres au contexte d'énonciation des slogans.
Enfin, nous verrons qu'une analyse des points communs et divergents des slogans publicitaire et
social permet non seulement de proposer des stratégies de rédaction et de traduction précises et
pragmatiques, mais également d'enrichir la réflexion sur la notion de société civile.
12 h 15
Dîner

Communications orales 14 h 00 → 16 h 00

Didactique et lexique mental

Présidence : Patrick Drouin (UdeM - Université de Montréal)

14 h 00
Élaboration du Petit Druide des cooccurrences : dictionnaire pédagogique destiné à l'enseignement de la cooccurrence lexicale
Anne-Laure Jousse (Druide Informatique Inc.)
Nous présenterons la méthodologie et les principes sous-jacents à l'élaboration d'un dictionnaire papier à vocation pédagogique : le Petit Druide des Cooccurrences (ou PDC) [Charest et coll. 2015]. Exempt de définitions, le PDC explicite les rapports syntagmatiques (ou collocations) entre les mots, et ce, dans l'optique de favoriser le développement des compétences de production écrite.
Deux étapes ont guidé la création du dictionnaire : dans un premier temps, en tant qu'héritier direct du Grand Druide des Cooccurrences (GDC) [Charest et coll. 2012], créé lui-même d'après le dictionnaire de cooccurrences du logiciel Antidote, le PDC repose sur une analyse automatique de corpus et une approche statistique [Charest et coll. 2007, 2010]. Cette méthode a, entre autres, l'avantage de refléter des associations réelles et non seulement de se fier à l'intuition des lexicographes, et elle permet d'ordonner les données selon leur degré de pertinence.
Dans un deuxième temps, les données obtenues ont été adaptées à un public scolaire. Nous décrirons les critères qui ont présidé à l'élaboration d'une nomenclature, ceux-ci portant à la fois sur le degré de spécificité des mots et sur la pertinence de leurs ensembles de cooccurrents. Nous montrerons également comment les contextes syntaxiques ont été simplifiés et aménagés pour mieux répondre aux attentes et aptitudes du public visé.
14 h 30
Le lexique mathématique scolaire : entre lexique spécialisé et lexique courant
Fabienne Venant (UQAM - Université du Québec à Montréal), Ophélie TREMBLAY (UQAM - Université du Québec à Montréal)
Le lexique mathématique peut être considéré comme un lexique de spécialité. Il est en effet
constitué d'un ensemble de termes qui lui sont propres et est structuré par des relations lexicales
parmi lesquelles la relation d'hyperonymie joue un rôle particulier, en lien avec le rôle donné à la
définition dans les preuves mathématiques.

Cependant, la plupart des termes (côté, figure, face, opération...) qui constituent ce lexique
correspondent à des acceptions de vocables polysémiques dont d'autres sens sont également
largement utilisés dans le langage courant. Nous sommes ici dans un cas particulier de ce que
Putnam (1974) a appelé la « division du travail linguistique ». Des études récentes en didactique
des mathématiques (Mathé 2008 et 2012, Perray 2008) montrent que cet ancrage du langage
mathématique dans le langage courant peut interférer avec l'acquisition du vocabulaire
mathématique chez des élèves de primaire et de secondaire.

Nous nous intéressons donc dans cette communication aux liens entre langage courant et langage
mathématique en nous appuyant sur les outils lexicographiques issus de la théorie Sens-Texte
(Mel'čuk 1997; Polguère 2008) . Nous cherchons ainsi à expliciter, d'une part les relations entre
sens courants et sens spécialisés (mathématiques) des vocables, et, d'autre part, à mettre au jour
les relations et fonctions lexicales propres au lexique mathématique (génératrices par exemple de
collocations comme triangle équilatéral ou polygone régulier).
15 h 00
Méthode d'enseignement des liens de synonymie et d'antonymie dans l'apprentissage du lexique spécialisé
Marjan Alipour (UdeM - Université de Montréal)
Pour un traducteur de textes spécialisés, la connaissance du lexique spécialisé, élément clé de la langue de spécialité, est importante. L'enseignement du lexique spécialisé a été peu étudié comparativement à celui du lexique général, d'où notre intérêt pour le premier. L'apprentissage du lexique ne se limite pas à l'acquisition du sens des mots; il passe aussi par la connaissance des liens lexicaux que les mots partagent entre eux. Nous expliquerons d'abord pourquoi l'apprentissage des synonymes et des antonymes est utile au traducteur afin de faire la nuance entre les termes selon le contexte pour exprimer une idée précise. Puis, en tenant compte des principes de la Lexicologie explicative et combinatoire (Mel'?uk et coll. 1995), nous proposerons une méthode d'enseignement de ces liens qui sera appliquée à l'aide d'outils en ligne proposant des jeux éducatifs (Deubel 2006, Cobb 2012). Notre domaine d'étude est l'environnement. Comme il s'agit d'un domaine qui emprunte de nombreuses unités lexicales de la langue générale, le risque existe de considérer comme interchangeables des termes qui ont des sens distincts dans la langue de spécialité, comme réemploi (les bouteilles consignées peuvent être à nouveau remplies après nettoyage) et réutilisation (de nouveaux objets sont confectionnés à partir de pièces récupérées). Les activités proposées aideront les étudiants à utiliser ces termes correctement en contexte de traduction.
15 h 30
Le genre grammatical dans le lexique mental bilingue roumain-français
Amelia Manolescu (UdeM - Université de Montréal)
Notre étude explore la manière dont le genre grammatical (GG) est représenté dans le lexique mental bilingue pour déterminer si le GG de la langue maternelle (L1) des locuteurs interagit avec celui de la langue seconde (L2) et s'il affecte la production de noms dans celle-ci. L'étude porte sur des bilingues roumain-français. Le statut du genre roumain « neutre » a aussi été étudié pour déterminer si ce genre agit différemment des genres masculin et féminin roumains, et donc, si le roumain possède un système du genre grammatical tripartite, ce qui était incertain jusqu'à présent. Les bilingues roumain-français ont été testés à l'aide d'une tâche de dénomination d'images en L2 (Expériences 1 et 2) et d'une tâche de traduction de L1 à L2 (Expérience 3). Les participants devaient utiliser un nom seul (condition 1, ex. : table) ou un syntagme nominal (condition 2, ex. : une table). Dans toutes les expériences et les conditions, les temps de réponse des participants ont été plus longs pour les stimuli au genre incongruent dans les deux langues (ex. : masculin en roumain, féminin en français). Dans toutes les expériences, le « neutre » était différent du masculin et du féminin. Nous croyons que l'information sur le genre grammatical est disponible à la représentation lexicale de la langue, et que les deux langues des bilingues sont reliées d'une manière qui permet à l'information de ce niveau d'interagir. Nous croyons aussi que le roumain possède un système de genre tripartite.
16 h 00
Mot de clôture

Rechercher

Informations générales