Informations générales
Événement : 92e Congrès de l'Acfas
Type : Colloque
Section : Section 600 - Colloques multisectoriels
Description :La parole est un signal physiologique utilisé par les humains pour communiquer. En plus d’être porteuse d’un message en langage naturel, la parole contient aussi de nombreuses informations sur la personne du locuteur et son état au moment où la communication a lieu. La production et la perception de la parole sont traditionnellement étudiées par des chercheurs de disciplines très diverses, dont la linguistique, l’audiologie, l’orthophonie, la didactique des langues, l’informatique et le génie, recoupant à la fois les secteurs des sciences naturelles et du génie, des sciences de la santé et des sciences humaines et sociales. Les technologies jouent un rôle important dans ces recherches, que ce soit à titre d’outil de mesure pour caractériser les signaux, à titre d’aide technique pour des patients ou des apprenants, ou encore dans un contexte d’automatisation de transactions.
Malgré les succès scientifiques et commerciaux de ces technologies et la diversité des points de vue dans les différentes communautés de recherche entourant les sciences de la parole, des défis importants demeurent en matière d’équité, de diversité et d’inclusion dans ce secteur. Par exemple, les engins de synthèse de la parole n’existent pas dans toutes les langues. Les outils de reconnaissance vocale automatisée ne fonctionnent pas bien avec toutes les populations de locuteurs. Les expériences réalisées à l’aide d’outils de mesure sophistiqués ont souvent lieu dans un contexte de laboratoire fortement contrôlé qui exclut des participants issus de certaines minorités. Certaines technologies ne sont pas adaptées à des situations de handicap.
Dans ce colloque, nous mettons en valeur des perspectives multisectorielles sur l’utilisation et le développement des technologies au service des sciences de la parole, les enjeux que ces derniers soulèvent en matière d’inclusivité et les solutions (technologiques ou non) à ces enjeux.
Remerciements :Le comité organisateur remercie le Centre de recherche sur le cerveau, le langage et la musique pour son soutien financier à l'organisation de ce colloque.
Date :Format : Sur place et en ligne
Responsables :- Catherine Laporte (ÉTS - École de technologie supérieure)
- Rachel Bouserhal (ÉTS - École de technologie supérieure)
- Lucie Ménard (UQAM - Université du Québec à Montréal)
Programme
Apport de la technologie en sciences de la parole : perspectives multidisciplinaires
-
Communication orale
Production et perception de la parole : l’apport de la capture de mouvement et de la réalité virtuelleLucie Ménard (UQAM - Université du Québec à Montréal)
La parole est l’un des comportements humains les plus complexes qui soient. De nombreux facteurs moteurs, cognitifs et perceptifs concourent à son développement chez l’enfant et à son maintien chez l’adulte. Comment le bébé acquiert-il les habiletés motrices nécessaires à l’articulation des sons de sa langue maternelle? Comment le cerveau intègre-t-il les informations sensorielles afin de percevoir les sons? Dans cette présentation, je décrirai une série d’études menées au Laboratoire de phonétique dans le but de répondre à ces questions. L’apport de données quantitatives fournies par des techniques de capture de mouvement, combinées à la réalité virtuelle, sera démontré. Je discuterai des principaux enjeux des études expérimentales en phonétique, et plus spécifiquement des liens entre la population à l’étude et le protocole.
-
Communication orale
Comparaison de deux plateformes pour la capture de la parole à distance : Microsoft Teams et OpenTeraLiziane Bouvier (Université McGill), François Grondin (Université de Sherbrooke), Karina Lebel (Université de Sherbrooke), Arabel Morin (Université McGill)
La possibilité de réaliser des évaluations de la parole à distance revêt un attrait important tant pour les cliniciens que pour les chercheurs. Toutefois, les plateformes de téléconférence populaires comportent des limites au plan de la fidélité sonore qui peuvent altérer de façon significative le signal de la parole tant pour son évaluation subjective qu’objective (Bouvier, Green et al., 2023 ; Weerathunge et al., 2021). Le présent projet vise à comparer l’effet de deux plateformes respectant les critères de sécurité pour la télésanté au Québec, soit Microsoft Teams et OpenTera, sur le signal de la parole.
Vingt échantillons de parole de tâches d’évaluation typique (p.ex. voyelles soutenues, lecture de texte) seront enregistrés de façon simultanée sur trois conditions (Teams, OpenTera et un enregistreur numérique). Des mesures acoustiques temporelles, spectrales et cepstrales seront effectuées à l’aide du logiciel d’analyse de la parole Praat. Les effets de la condition d’enregistrement seront mesurés à l’aide de modèles linéaires mixtes. Les résultats du projet en cours permettront d’identifier les mesures pouvant être effectuées de façon fidèle avec chacune des plateformes et de cibler des algorithmes à développer dans la plateforme OpenTera pour améliorer la fidélité sonore du signal capté.
-
Communication orale
Les synthétiseurs de parole dans la pédagogie de la prononciation en L2 : Une nouvelle évaluation de la qualitéWalcir Cardoso (Université Concordia)
Les chercheurs et pédagogues en L2 s’intéressent aux synthétiseurs de parole (SdeP) pour leur potentiel à optimiser l’apprentissage (Liakin et al., 2017). Le succès des SdeP repose souvent sur la qualité de leur voix (Bione & Cardoso, 2020) et leur capacité à enrichir l’input en L2 (Al-Shami, 2024). Bien que les SdeP aient longtemps été critiqués pour leur manque de naturel et d’authenticité prosodique (Cardoso et al., 2015), les progrès récents en IA générative (IA-Gen) permettent désormais une parole quasi humaine (Barakat et al., 2024).
Cette étude réplique Cardoso et al. (2015), en évaluant un SdeP d’anglais basé sur l’IA-Gen selon trois critères : la qualité vocale, le Focus-on-Form (allomorphie du passé -ed), et les processus cognitifs (compréhension auditive, latence dans les tâches de shadowing). Trente apprenants d’anglais ont écouté des échantillons humains et SdeP, puis exécuté des tâches comparatives. Les résultats indiquent une équivalence statistique pour toutes les mesures, suggérant que le synthétiseur adopté produit un résultat proche de la parole humaine, en accord avec Barakat et al. (2024) et en contradiction avec Bione et Cardoso (2020). La discussion aborde les répercussions de ces résultats sur la pédagogie de la prononciation assistée par la technologie.
Technologie, langage et santé
4 présentations orales
-
Communication orale
Guide d’utilisation de l’IA pour l’analyse automatique des altérations du langage dans la caractérisation des aphasies et leur évolutionPierre André Ménard (École de technologie supérieure), Sylvie Ratté (ÉTS - École de technologie supérieure)
Cette présentation vise à illustrer comment les récentes avancées dans les algorithmes d’intelligence artificielle (IA) appliqués au traitement du langage naturel (TLN) peuvent être utilisés pour identifier, caractériser et prédire l’évolution des altérations du langage dans le discours des personnes atteintes d’aphasie. Deux grands types d’aphasie sont couverts dans cet article : les aphasies primaires progressives, causées par des maladies neurodégénératives comme la maladie d’Alzheimer, et les aphasies dites « acquises », causées par un accident vasculaire cérébral, un traumatisme crânien ou d’autres lésions cérébrales.
Après avoir discuté des avantages et des limites des modèles de TLN, nous identifions les besoins technologiques et cliniques dans un contexte de « suivi » personnalisé des patients. Cette synthèse permet de mieux comprendre les obstacles à un meilleur alignement entre les caractéristiques linguistiques directement identifiables d’un point de vue technique et celles décrites dans la littérature sur l’aphasie. Nous comparons ensuite les caractéristiques du domaine clinique avec les caractéristiques explicatives offertes par les modèles de TLN, afin de mettre en évidence les écarts et les opportunités d’amélioration.
Enfin, nous terminons cette présentation par une analyse critique des architectures de TLN compatibles avec les besoins cliniques, en mettant l’accent sur les enjeux d’interprétabilité, d’explicabilité et de confiance de ces systèmes d’IA.
-
Communication orale
La technologie au service des sciences de la parole : le Test canadien de triplets de chiffresSesi Collins Akotey (Université d'Ottawa), Christian Giguère (Université d'Ottawa), Josée Lagacé (Université d’Ottawa), Mélina Rochon (Université d'Ottawa)
Le Test canadien de triplets de chiffres (TCTC) et sa version en anglais, soit le Canadian Digit Triplet Test (CDTT), ont initialement été créés pour le dépistage de la surdité dans le cadre d’une étude longitudinale sur le vieillissement. D’autres applications ont été mises de l’avant depuis, dont l’évaluation de la perception de la parole en présence de bruits compétitifs et l’examen de certaines fonctions auditives, dont la capacité d’intégration binaurale.
Le logiciel du TCTC se distingue également par son adaptabilité, dont la possibilité d’intégrer facilement des enregistrements faits dans d’autres langues, pour étendre son utilisation auprès d’autres populations. Par exemple, une version en Asante Twi, soit une des langues indigènes du Ghana, a récemment été développée, et les résultats préliminaires seront présentés. Cette caractéristique du test ouvre la voie à l’évaluation des capacités auditives à l’échelle internationale. Par ailleurs, une version en ligne du TCTC est en cours de développement, offrant un accès élargi et une utilisation simplifiée dans différents cadres cliniques et de recherche.
Cette présentation mettra en lumière les avantages du TCTC et ses applications innovantes, de même que son potentiel pour contribuer à l’avancement des connaissances sur le plan des sciences de la parole et de l’audition.
Note : une première version de ce texte a été générée à l’aide de ChatGPT (OpenAI, 2025), puis adapté.
-
Communication orale
Les «Dispauditifs»: une technologie émergente au service de la communication et de la santéRachel Bouserhal (ÉTS - École de technologie supérieure)
Les dispositifs intra-auriculaires avancés, ou dispauditifs, connaissent un essor fulgurant. Leur popularité s'explique par leur caractère non-invasif et leurs nombreuses applications allant bien au-delà de la simple reproduction audio. Dans leur forme la plus courante, ils intègrent un microphone intra-auriculaire, un microphone extra-auriculaire et un mini haut-parleur. Cette configuration leur confère une grande polyvalence, notamment en sciences de la parole et en surveillance de l’état santé.
Placés dans le conduit auditif, les dispauditifs offrent une plateforme stable pour l'enregistrement de signaux physiologiques et vocaux, capturant des éléments clés tels que la parole, les battements cardiaques et la respiration. Grâce au microphone externe, ils peuvent également analyser les sons ambiants, ouvrant ainsi la voie à de nombreuses applications.
Dans cette présentation, nous explorerons diverses applications des dispauditifs, notamment leur rôle dans l’amélioration de la communication et le suivi de l’état santé.
-
Communication orale
Inclusion des personnes usagères finales dans le développement d’une nouvelle technologie pour la maladie de Parkinson: quand, pourquoi et commentRachel Bouserhal (École de technologie supérieure), Ons El Mokhtar (Université de Montréal), Ingrid Verduyckt (UdeM - Université de Montréal)
Dans le cadre du développement de technologies intra-auriculaires (TIA) pour la détection et le suivi de la maladie de Parkinson, une démarche participative s’inscrivant dans les principes de l’innovation responsable en santé a été adoptée pour co-créer un protocole de pilotage des technologies.
Trois personnes atteintes de la maladie de Parkinson, une proche aidante et une orthophoniste ont été recrutées pour le co-développement du protocole. Le processus s’est articulé autour de trois cafés scientifiques visant à renforcer la littératie en technosanté, suivis d’une table ronde de co-construction. Des questionnaires ont été administrés avant et après les cafés, et des entrevues semi-dirigées ont permis de recueillir le vécu et les perceptions des participant·e·s. Par la suite, quatre personnes usagères ont expérimenté les TIA, avec une évaluation de l’acceptabilité et de l’utilisabilité via questionnaires et entrevues post-expérience.
La démarche collaborative a permis une implication réelle des usager·e·s, malgré quelques critiques concernant la longueur du processus. Le protocole co-développé a démontré sa faisabilité et son acceptabilité après expérimentation. Les résultats suggèrent que l’approche participative enrichit le développement technologique en santé. Toutefois, ils soulèvent des questions sur le rapport coût bénéfice du processus et le moment le plus opportun pour impliquer les personnes usagères.
Dîner
Conférencière plénière
-
Communication orale
Capture de mouvement et suivi de la référence dans une langue des signesAnne-Marie Parisot (UQAM - Université du Québec à Montréal)
Les langues des signes utilisent l’espace pour marquer les relations grammaticales entre les éléments du discours. La superposition spatiale est une possibilité structurelle, au même titre que la juxtaposition temporelle des éléments en français par exemple. Cependant, elle a des incidences sur l’organisation de la syntaxe. Quatre moyens (manuels et non manuels) sont attestés dans les langues des signes pour marquer l’association spatiale entre une anaphore et son antécédent, soit : 1) la localisation directe d’un élément sur un locus spatial; 2) l’utilisation d’un pointé vers la trace spatiale de l’antécédent; 3) la direction du regard vers la trace spatiale de l’antécédent et 4) l’inclinaison du tronc vers la trace spatiale de l’antécédent. Ils sont utilisés entre autres pour la référence anaphorique, la détermination du nom ou l’accord verbal.
Dans cette présentation, nous illustrerons comment la capture de mouvement des membres supérieurs et la mesure de la convergence du regard pourrait contribuer à la description de la grammaire de la langue des signes québécoise, notamment en termes de suivi de la référence et de variation dans le marquage référentiel chez les signeurs aînés.
Session d’affiches
-
Communication par affiche
Développement d'un système de tutorat en lecture basé sur l'IACimon Chapdelaine (PhonIA), Félix Jobin (PhonIA), Héloïse Masse (Collège de Maisonneuve), Jihene Rezgui (Collège de Maisonneuve)
Au collégial certain.es étudiant.es éprouvent d’importantes difficultés en lecture de textes. Le système de tutorat basé sur l'IA vise à répliquer les méthodes d'interventions utilisées en relation d'aide en français afin d'accompagner l’étudiant.e dans l’amélioration de ses compétences en lecture active et ce pour tous les types de textes complexes qu’iel sera appelé.e à lire au cégep (littéraires, philosophiques ou scientifiques).
OBJECTIFS :
- AMÉLIORER LA LECTURE. Grâce à l’utilisation d’une reconnaissance vocale, la tutrice IA peut repérer les hésitations, blocages, intonations, pauses et silences qui sont symptomatique d’une mauvaise compréhension. Ce repérage permet au tuteur IA de stimuler l’étudiant.e à résoudre les problèmes de lecture à mesure qu’ils se présentent en s’inspirant des stratégies de lecture de la RA (Reading Apprenticeship).
- AMÉLIORER LA COMPRÉHENSION. La tutrice IA questionnera l’étudiant.e afin de l’aider à résumer les éléments signifiants d’un texte (thème, personnages, éléments narratifs, inférences, etc.).
- CRÉER UN CLIMAT PÉDAGOGIQUE FAVORABLE À L’APPRENTISSAGE. Les séances, étant « privées », viennent éliminer le risque du jugement d’un pair ou d’un enseignant. L’entraînement proposé permettra de stimuler et valider le raisonnement de l’étudiant.e avec bienveillance. La patience d’un tuteur IA étant sans limite, la séance sera adaptée au rythme d’apprentissage de l’étudiant.e.
-
Communication par affiche
Évaluation détaillée des modèles multilingues pour la transcription des phénomènes langagiers aphasiquesJulien Dupuis Desroches (ÉTS - École de technologie supérieure), Pierre André Ménard (École de technologie supérieure), Sylvie Ratté (École de technologie supérieure)
L'aphasie affecte la capacité des individus à parler, comprendre, lire et écrire. La reconnaissance automatique de la parole (RAP) représente une technologie prometteuse pour soutenir l'évaluation clinique des personnes aphasiques. Toutefois, les systèmes actuels de reconnaissance de la parole montrent des performances variables dans le contexte de discours atypiques chez les personnes aphasiques.
Notre recherche vise donc une comparaison approfondie des performances des systèmes RAP en se basant sur les phénomènes spécifiques de l’aphasie (faux départs, retraçage, etc.). L’évaluation et la comparaison de modèles en français et en anglais est effectuée en intégrant des outils de détection de pauses et d'alignement temporel.
Les résultats préliminaires montrent des différences significatives de précision entre différents phénomènes, avec une reconnaissance plus robuste en anglais. Une évaluation sur des corpus aphasique a démontré un taux d'erreur par caractères globale 32% plus élevées pour les patients francophones que pour les patients anglophones. La différence est moindre lorsqu’on évalue le taux d’erreur sur des phénomènes de retraçage et de répétition en observant un hause de 15% et de 13% respectivement.
Ces résultats apportent une contribution importante à une éventuelle amélioration des outils cliniques d’orthophonie en vue de les rendre plus inclusifs pour les personnes aphasiques francophones.
-
Communication par affiche
L'intelligence artificielle au service du dépistage des troubles du langage chez les enfants arabophonesFaten Bouhajeb (UdeM - Université de Montréal), Orhan Selçuk Güven (Université de Montréal)
Le trouble développemental du langage (TDL) constitue un enjeu de santé publique, rendant le dépistage précoce complexe surtout dans les langues sous-étudiées.
Notre étude vise à développer un algorithme basé sur l’intelligence artificielle pour diagnostiquer le TDL chez les enfants arabophones. Nous avons recruté un échantillon de 42 enfants arabophones (avec et sans TDL), d’âge préscolaire et parlant le dialecte tunisien.
Notre méthodologie comporte une évaluation clinique des capacités cognitives et langagières à l’aide de quatre tâches ; 1) une tâche cognitive avec Wechsler Preschool and Primary Scale of Intelligence, 2) une tâche phonologique avec la répétition de non-mots, 3) une tâche lexicale basée sur le Cross-Linguistic Lexical Task et 4) une tâche morphologique à l’aide de Arab Verb Elicitation Task. Faute de tests standardisés en arabe tunisien, nous avons adapté des deux dernières tâches dans ce dialecte en s’appuyant sur des données recueillies auprès de 15 enfants et de 36 adultes. D’après les résultats pilotes, ces tests reflètent bien les tendances développementales des enfants.
Ensuite, des enregistrements audios du langage spontané sont réalisés en clinique et à domicile. Les données recueillies seront analysées pour identifier les marqueurs cliniques du TDL, qui seront utilisés pour entraîner des algorithmes d’apprentissage profond.
-
Communication par affiche
L’échographie pourrait-elle faciliter l’évaluation des troubles des sons de la parole (TSP)? – Étude piloteIsabelle Démosthènes (UQAM - Université du Québec à Montréal), Lucie Ménard (Université du Québec à Montréal)
L’objectif du projet est de déterminer si l’ajout de l’image de l’échographie au signal audio diminue la variabilité dans la transcription phonétique réalisée par des orthophonistes.
Après une formation comparable à ce qui pourrait être offert en pratique, 13 cliniciens (groupe 1) ont transcrit les productions d’enfants ayant un TSP et jugé la réalisation articulatoire de phonèmes à partir de vidéos de mots isolés recueillis en clinique (échographie de la langue + son). 5 cliniciens supplémentaires (groupe 2) ont réalisé une transcription et une cotation à l’aide uniquement du signal audio extrait des vidéos.
Variabilité interjuge – Le taux d’accord moyen sur 53 phonèmes est de 72,95 % (écart-type, 5,29 %) pour le groupe 1 et de 66,05 % (écart-type, 2,62 %) pour le groupe 2. Le premier groupe présente une bonne concordance pour la transcription des 53 phonèmes. Le second présente une concordance modérée à bonne. Les deux groupes présentent une légère concordance dans le jugement de la réalisation articulatoire.
Variabilité intrajuge – les participants du groupe 1 présentent légèrement plus de variabilité dans le jugement articulatoire que ceux du second.
Nos résultats ne nous permettent pas de confirmer que l’ajout de l’échographie améliore la stabilité de la transcription des cliniciens.
-
Communication par affiche
PhonIA : Une collecte de données inclusive pour développer une IA en orthophonie adaptée au français et à sa diversité d’accents.Cimon Chapdelaine (PhonIA), Félix Jobin (PhonIA), Foutse Khomh (Polytechnique Montréal), Lucie Ménard (Université du Québec à Montréal), Jihene Rezgui (Collège Maisonneuve), Christine Turgeon (Université Laval)
L’accessibilité aux services orthophoniques est limitée, en partie par le manque d’outils technologiques adaptés au français et à ses variations régionales. PhonIA mène une collecte de données d’envergure pour supporter le développement et l’entraînement d’une intelligence artificielle capable d’optimiser le travail des orthophonistes, en intégrant les défis d’équité et d’inclusivité propres aux technologies vocales.
Notre méthodologie repose sur la constitution d’un corpus diversifié de voix francophones, incluant différentes variétés d’accents et de profils linguistiques. De plus, une procédure de validation des annotations phonétiques a été développée par l'équipe de recherche pour assurer une qualité constante des transcriptions phonétiques associées aux enregistrements.
Les résultats attendus incluent une meilleure reconnaissance automatique de la parole en contexte orthophonique et une optimisation du travail clinique, permettant aux professionnels de se concentrer davantage sur l’intervention. En valorisant la diversité linguistique du français, l’équipe de recherche contribue à une évolution technologique plus équitable et adaptée aux besoins réels des orthophonistes, de leurs patients et des chercheurs des domaines concernés.
-
Communication par affiche
Échographie dans la recherche sur les langues secondes : revue systématique et analyse thématiqueEija Aalto (École de technologie supérieure), Hana Ben Asker (École de technologie supérieure), Walcir Cardoso (Université Concordia), Catherine Laporte (ÉTS - École de technologie supérieure), Lucie Ménard (Université du Québec à Montréal)
Cette revue systématique et analyse thématique synthétise et évalue les études sur l’utilisation de l’échographie dans la production de langues secondes (L2), comprenant 31 travaux publiés : 23 sur le biofeedback par échographie et 8 sur la prononciation en L2. L'anglais est la langue principale étudiée (82 %), avec des participants principalement des jeunes adultes (2-60 participants). Dans les études de biofeedback, les doses d’intervention variaient, et le biofeedback échographique a été comparé au biofeedback auditif et/ou à une condition témoin sans intervention dans 16 études PICO. Le biofeedback par échographie a montré un potentiel en tant qu’outil efficace pour améliorer la prononciation en L2, bien que les résultats préliminaires suggèrent que des recherches supplémentaires sont nécessaires. L’échographie joue également un rôle crucial dans la caractérisation de la prononciation en L2 en révélant des schémas articulatoires et coarticulatoires à travers l’analyse dynamique des mouvements de la parole. Cette revue met en évidence la valeur de l’échographie tant pour le biofeedback que pour la caractérisation de la prononciation et encourage son utilisation continue dans les futures études. L'expansion de la diversité linguistique et démographique dans les recherches futures est essentielle pour capturer la gamme complète de variations linguistiques.
-
Communication par affiche
La prosodie et son impact sur la perception de la tromperie dans les appels d’urgence aux services 911Lucie Ménard (Université du Québec à Montréal), Julien Plante-Hébert (UQAM - Université du Québec à Montréal)
La détection de la tromperie dans la parole lors d’appels d’urgence aux services 911 peut s’avérer cruciale dans la gestion des événements et lors d’éventuelles enquêtes sur ceux-ci. Il existe cependant peu de données issues de méthodes scientifiques qui permettent d’appuyer les impressions des répondant.e.s à cet effet. Dans la présente étude, 43 participant.e.s ont écouté 58 extraits d’appels 911 représentant uniquement la parole de l’appelant.e. Ces extraits étaient filtrés (< 350 Hz) afin que les mouvements articulatoires ne soient pas perceptibles, mais que les composantes prosodiques le demeurent. Suite à chaque extrait, les participant.e.s devaient indiquer si, à leur avis, la parole entendue était trompeuse ou non. Vingt de ces personnes ont aussi pris part à une seconde partie lors de laquelle ils et elles devaient indiquer leur perception de certains paramètres prosodiques (débit, intonation, variabilité de l’intonation et émotivité) par rapport aux mêmes extraits.
Les résultats obtenus indiquent que la perception de la tromperie à l’aide seule de la prosodie est une tâche particulièrement ardue. Certains extraits ont cependant été catégorisés, à tort ou à raison, de manière relativement uniforme par les participant.e.s. Les caractéristiques prosodiques de ces appels ainsi que les liens entre elles et la perception de la tromperie seront présentés. Les enjeux quant au développement et à l’utilisation des technologies dans ce contexte seront aussi discutés.
-
Communication par affiche
Évaluation de systèmes de reconnaissance vocale automatique en anglais sur des paroles accentuées non nativesEija Aalto (École de technologie supérieure), Walcir Cardoso (Université Concordia), Marie-Ève Ippersiel (ÉTS - École de technologie supérieure), Catherine Laporte (École de technologie supérieure), Lucie Ménard (Université du Québec à Montréal)
Introduction
Les systèmes de reconnaissance vocale automatique (ASR) sont de plus en plus utilisés et utiles au quotidien. Cependant, ils sont moins performants pour les voix accentuées non natives que pour les voix non accentuées natives. Malgré tout, l'ASR pourrait être un outil intéressant pour l’apprentissage de langues.
Méthodologie
L’objectif de ce projet est d’analyser la relation entre le taux d’erreur de reconnaissance des mots (Word Error Rate, WER) obtenu avec l’ASR et l’évaluation humaine de l’intelligibilité ainsi que du niveau d’accent de locuteurs et locutrices natifs et natives du mandarin s’exprimant en anglais.
Pour ce faire, les modèles de reconnaissance vocale Whisper d’OpenAI, Wav2Vec2 de Facebook et un modèle Whisper affiné à la parole accentuée sont testés avec différentes banques de données contenant des enregistrements de parole accentuée ou native en anglais. En parallèle, huit évaluateurs et évaluatrices sont invité·es à retranscrire ou à évaluer le niveau d’accent de certains enregistrements sur une échelle continue entre 0 à 10.
Résultats
Nos résultats indiquent une légère corrélation entre le WER et l’évaluation du niveau d’accent, démontrant ainsi le potentiel des systèmes de reconnaissance vocale automatique pour contribuer au développement de la compétence orale dans l’apprentissage des langues.
-
Communication par affiche
Étude de l'impact de l'intelligence artificielle sur l'accessibilité de la langue des signesGilles Boulianne (CRIM), Édith Galy (CRIM), Hamed Ghodrati (CRIM), Mathilde Hochedel (CRIM), Marc Lalonde (CRIM)
La langue des signes (LDS) est une langue importante pour la communauté Sourde, en tant qu’instrument de communication mais aussi de marqueur identitaire tout comme les langues parlées. Or, plusieurs obstacles d’accessibilité demeurent, entre autres la pénurie d’interprètes qui rend difficile l’obtention des services d’interprétation en situation spontanée. L'intelligence artificielle a-t-elle le potentiel de réduire ces obstacles?
La compréhension de la LDS est un problème complexe et essentiellement multimodal puisqu'elle n’implique pas que les mains. Un message en LDS contient beaucoup d’information visuelle supplémentaire qu’un système automatisé doit capturer et interpréter : les sourcils et la bouche jouent un rôle linguistique important. Aussi, sa syntaxe repose fortement sur l'utilisation dynamique de l'espace tridimensionnel pour structurer les référents et les relations syntaxiques.
L’affiche proposée examine le rôle de l'IA dans la production et la traduction de messages en LDS. Elle discute des approches proposées dans la littérature scientifique, des jeux de données disponibles, des systèmes commerciaux et open source, ainsi que des initiatives académiques. Malgré les avancées en apprentissage profond qui permettent d’envisager une analyse automatisée et globale d’un signeur, soulignons la complexité du problème et la nécessité d'une approche multidisciplinaire impliquant la communauté pour développer des solutions efficaces.
-
Communication par affiche
Effets du stress sur la parole : une étude acoustiqueMarie-Michèle Beausoleil (UQAM - Université du Québec à Montréal), Lucie Ménard (Université du Québec à Montréal)
Le stress à une incidence cruciale sur l’être humain. Sa présence peut être détectée par divers changements physiologiques, notamment dans la voix. Il s’avère cependant complexe de le générer de manière éthique, contrôlée et écologique en laboratoire. Pour contourner cet enjeu, des études ont été menées pour valider l’utilisation de la réalité virtuelle comme méthode expérimentale.
Nous avons donc créé un environnement virtuel induisant des situations stressantes afin de mesurer les effets acoustiques du stress aigu sur la production de la parole en français québécois, une langue sous étudiée dans ce domaine. Les enregistrements de 20 participant·es ont été collectés. Les analyses acoustiques ont mesuré les variations de la fréquence fondamentale, de la durée, de l’espace vocalique maximal et des deux premiers formants des trois voyelles cardinales. La présence de stress a été mesurée à l’aide de données physiologiques (battements cardiaques par minute, fréquence de la variation cardiaque, réaction électrodermale) et d’un questionnaire d’auto-évaluation de l’anxiété (IASTA). Le niveau d’immersion a été évalué à l’aide d'un questionnaire (SOPI). Les résultats démontrent une augmentation de F0 et F1 en présence de stress aigu, ainsi qu’une diminution de l’EVM et de F2. Aucun résultat significatif n’a été observé quant à la durée.
-
Communication par affiche
Intégrer l’innovation responsable dans les technologies en sciences de la parole : résultats d’une consultation participativeSébastien Finlay (UdeM - Université de Montréal), Geneviève Lamoureux (Université de Montréal), Anne Moïse-Richard (Université de Montréal), Lucie Ménard (Université du Québec à Montréal), Ingrid Verduyckt (Université de Montréal)
L’innovation responsable en santé (IRS) offre un cadre pour concevoir des innovations technologiques équitables et adaptées aux besoins du système de santé. Dans le domaine des sciences de la parole, où les avancées technologiques se multiplient, elle permet une réflexion éthique et contextuelle visant à favoriser leur inclusivité. Ce projet s’appuie sur une consultation participative auprès de parties prenantes pour examiner comment l’IRS peut guider la conception et le développement d’innovations en sciences de la parole, en se concentrant sur le bégaiement. Nous avons utilisé une méthode mixte inspirée de la cartographie conceptuelle participative, où les participant·es ont généré, trié et évalué des idées pour structurer une compréhension partagée du sujet. Dix-sept personnes ont pris part à cette réflexion (5 personnes qui bégaient, 6 clinicien·nes et 6 innovateur·rices en santé). Ensemble, les participant·es ont produit 94 idées, regroupées en six grappes, et les ont classées selon leur importance et leur faisabilité. Nous présenterons les pistes de réflexion issues de cette consultation, en explorant leurs implications pour le développement de technologies plus inclusives et responsables en sciences de la parole.
-
Communication par affiche
Impact du taux d’images par seconde sur la reconnaissance de vidéos échographiques chez des participants tout-venantCatherine Laporte (École de technologie supérieure), Isabelle Marcoux (UQAM - Université du Québec à Montréal), Lucie Ménard (Université du Québec à Montréal)
L’échographie est un outil prometteur en orthophonie, particulièrement comme outil de biofeedback (Sugden et al., 2019). Cependant, pour que l’outil soit efficace, il faut que le patient puisse interpréter correctement l’image échographique.
L’utilisation d’échographes portables sans fil est susceptible de créer une variation dans le taux d’images par seconde présenté au patient. Or, on ne connait pas l’impact du nombre d’images par secondes sur la capacité de personnes naïves de reconnaître des images échographiques.
Dans cette étude, nous avons mesuré l’effet du nombre d’images par seconde sur la reconnaissance de courtes vidéos échographiques chez 30 participants naïfs.
Chaque participant a complété trois tâches d’identification, qui comprenaient chacune 2 choix de réponses : [p] ou [t], [p] ou [k] et [p] ou [ʁ]. Dans chaque tâche, les vidéos étaient présentées avec 4 niveaux de taux d’images par secondes: 24, 4.8 (une image sur 5), 2.4 (une image sur 10) ou 1.6 (une image sur 15).
Les résultats montrent que la reconnaissance des vidéos demeure bonne jusqu’à 2.4 images par seconde, puis décline significativement. On note que, pour la tâche [p] vs [t], le pourcentage de reconnaissance décline plus rapidement avec la baisse du taux d’images par seconde que pour les deux autres tâches.
-
Communication par affiche
Suivi automatique du palais dans les images échographiquesHana Ben Asker (ÉTS - École de technologie supérieure), Walcir Cardoso (Université Concordia), Catherine Laporte (École de technologie supérieure), Lucie Ménard (Université du Québec à Montréal), Dominic Tremblay (École technologie supérieure)
L’échographie est un outil non invasif qui permet d’analyser en temps réel les mouvements de la langue. Son usage est utile pour l’apprentissage d’une langue seconde en tant que biofeedback visuel et en orthophonie pour le suivi et le traitement des troubles de la parole. L’échographie permet de visualiser la langue, tandis que le palais demeure invisible en raison de l’espace d’air qui les sépare et n’est que partiellement visible lors du contact langue-palais. Toutefois, le localiser aiderait à mieux interpréter les mouvements de la langue. Nous proposons une méthode automatique de suivi du palais, exploitant des séquences de déglutitions sèches et la méthode de squelette d’écho cumulatif pour reconstruire l’écho du palais. Nous utilisons ensuite le tendon comme référence proportionnelle afin d’actualiser sa position, même lorsqu’il est invisible. Pour plus de robustesse, des réinitialisations périodiques du tracé peuvent être déclenchées lors de déglutitions sèches spontanées. Cette technique en développement sera validée en comparant les tracés automatiques aux manuels et en évaluant l'effet des réinitialisations sur la précision. En temps réel, un suivi paresseux, activé lors de mouvements significatifs, maintient une cadence d’environ 25 images par seconde, suffisante pour observer la plupart des mouvements de la langue.