Sensibilité des modèles de langue monolingues et multilingues à certaines structures linguistiques

91e Congrès de l'Acfas

Technologies de l'information et des communications

Auteur et co-auteurs

Diego Maupomé
UQAM - Université du Québec à Montréal

Junior Cédric Tonga, Marie-Jean Meurs

École Normale Supérieure Cachan, Université du Québec à Montréal

Les outils d’intelligence artificielle peuvent fournir une aide précieuse en soutien à la santé mentale, notamment en analysant les productions textuelles des personnes à risque. Afin de fournir des analyses pertinentes, il est primordial que de tels outils soient robustes à la diversité d'expression textuelle qui peut exister chez ces personnes. Dans cet esprit, nous étudions les effets que les différences d'ordre dialectique ont sur la représentation interne de messages textuels dans les modèles de langue courants en libre distribution. Nous comparons les modèles produits à partir de corpus en plusieurs langues avec ceux produits à partir de corpus francophones uniquement en les appliquant à des messages texte en français québécois.
Pour ce faire, nous comparons l'encodage de messages textes que font ces modèles avec l'encodage des mêmes messages, normalisés en français standard. Ensuite, les modèles sont ajustés afin de rapprocher les encodages des deux versions d'un même message et ainsi faire abstraction des particularités d’expression qui distinguent ces versions.
Nos résultats indiquent que les modèles produits à partir de corpus en français sont plus réceptifs à ces ajustements que ceux produits à partir de corpus multilingues.

Rechercher

Connexion requise