Aller au contenu principal
10 mai 2016
Mariama Diallo
Journaliste

« Les mots vélos et bicyclettes sont des synonymes, mais les moteurs de recherche ont du mal à le comprendre ». L’ajout d’un "thésaurus de distribution", selon Vincent Claveau, limite cette discordance entre les mots de même sens.
  • Colloque 619 - Documents et ressources pour leur traitement : un couplage crucial
  • Communication : Thésaurus distributionnels pour la recherche d’information et vice versa

 

Vous êtes-vous déjà demandé pourquoi, lorsque vous inscrivez « avocat » dans un moteur de recherche, vous tombez sur le fruit, et la profession? Ou comment certains résultats farfelus apparaissent dans votre fenêtre Google, Bing ou Yahoo?

Même s’ils sont tr'es efficaces, les moteurs de recherche sont aussi faillibles. Lorsqu’un utilisateur inscrit un mot, un algorithme calcule la similarité entre la requête et les documents de sa base de données. Après un processus complexe de découpage et de filtration, le ou les mots recherchés sont représentés par des valeurs numériques qui prennent en compte plusieurs facteurs. « La plupart des moteurs de recherche savent détecter la langue de la requête, gérer le pluriel et le singulier d’un mot, ou la conjugaison d’un verbe. Mais ils associent mal les mots dont le sens est similaire, mais l’orthographe diffèrent », explique le professeur Vincent Claveau de l’Institut de recherche en informatique et systèmes aléatoires (IRISA) du Centre national de la recherche scientifique (CNRS) de France.

« Les mots vélos et bicyclettes sont des synonymes, mais les moteurs de recherche ont du mal à le comprendre ». L’ajout d’un thésaurus de distribution, selon Vincent Claveau, limite cette discordance entre les mots de même sens. Ce lexique sémantique, intégré au moteur de recherche, emploie le contexte d’utilisation des mots pour les associer : «  Le concept est connu depuis la fin des années 1950, mais on a désormais plus de textes dans les banques de données, et on calcule mieux les similitudes du contexte ». Dans le cas des mots vélos et bicyclette, « si on ajoute je pédale sur au lexique distributionnel, le moteur de recherche sera davantage en mesure de détecter le lien entre les deux mots ».

Mais encore faut-il que le thésaurus distributionnel soit complet, et adapté au mot utilisé. La recherche du professeur Vincent Claveau prend alors tout son sens : « J’examine la chaine de recherche d’information, au niveau du lexique utilisé, de l’acquisition des connaissances, ou de l’extraction d’information dans la banque de données. Je trouve les failles des modèles existants, et je développe de nouvelles méthodes pour améliorer les procédés ».

«Améliorer les thésaurus distributionnels permettrait de mieux définir les contextes d’utilisation d’un mot».

Améliorer les thésaurus distributionnels permettrait donc de mieux définir les contextes d’utilisation d’un mot, et ainsi faciliter la recherche d’éléments pertinents dans la banque de données du moteur. Même s’il est difficile d’intégrer du contexte dans un moteur de recherche, Vincent Claveau et son équipe ont choisi cette direction pour optimiser les procédés à travers l’extension de requête : « On inclus des informations supplémentaires à la requête de l’utilisateur, soit des synonymes, des formulations différentes, des éléments du lexique, etc. Le tout est transmis au moteur de recherche ». Dans le domaine biomédical, par exemple, « cela permet de trouver le mot stomachalgie en tapant maux d’estomac ». C’est donc une passerelle d’informations additionnelles entre l’utilisateur et le moteur de recherche.

Les concepts du professeur Claveau bénéficient surtout aux entreprises et à certains domaines spécialisés. À la demande d’industriels, il élabore des algorithmes et des concepts pour créer ou améliorer les moteurs de recherche de type Intranet : « On acquiert des informations à partir de textes de l’entreprise pour ensuite faire un moteur plus intelligent, adapté au vocabulaire propre à la discipline ».

Les recherches dans ce domaine pourraient aussi bénéficier aux particuliers, notamment pour pallier un problème du surplus de données : « Les gens accumulent toujours plus d’information. C’est difficile de retrouver certaines données. Améliorer les techniques de recherche d’information pourrait régler le problème ».

Auteur(e)

  • Mariama Diallo
    Journaliste

    Mariama Diallo est à la fois finissante en journalisme à l’Université de Montréal et étudiante en technique d’analyse biomédicale au Collège Dawson. Après un baccalauréat en biochimie et médecine moléculaire de l’Université de Montréal, elle obtient un certificat en communication appliquée et s’oriente vers le journalisme. Elle réalise des reportages indépendants avec une collègue journaliste pour leur propre chaine YouTube, MWNews, et se prépare à lancer son blogue. Curieuse de nature et passionnée de science et de journalisme, Mariama aime partager ses trouvailles avec le public.

Commentaires