Aller au contenu principal
Il y a présentement des items dans votre panier d'achat.
Jean-Hugues Roy, Université du Québec à Montréal

Examiner aujourd'hui la langue des mémoires et des thèses permettrait de prévoir l'évolution de l'utilisation du français dans la production scientifique de demain.

Au Québec, on note une augmentation de l'usage de l'anglais par les étudiant-e-s des cycles supérieurs dans la rédaction de leur mémoire de maîtrise ou leur thèse de doctorat. C'est ce qui ressort d'une étude effectuée dans la foulée d'une courte analyse de la longueur des mémoires et thèses, présentée dans le présent magazine en avril, et qui se penche ici plus spécifiquement sur la langue dans laquelle ils ont été publiés.

Cette constatation est cohérente avec un rapport rendu public un peu plus tôt ce mois-ci par l'Acfas sur la place du français dans la recherche en milieu minoritaire francophone au Canada. Le rapport nous apprend, entre autres, que le français recule partout au Canada à toutes les étapes de la recherche : des demandes de subvention à la publication scientifique, en passant par les colloques, les conférences et les autres activités de diffusion. Même dans « les établissements francophones du Québec [...] l’attrait de l’anglais demeure majeur »1.

Le présent article vient compléter ce portrait en y ajoutant une autre étape de la production scientifique : la réalisation des mémoires de maîtrise et des thèses de doctorat. Or, il appert que la langue qu'une chercheuse ou qu'un chercheur choisit pour rédiger son doctorat est déterminante pour le reste de sa carrière. Rocher et Stockemer ont réalisé, il y a quelques années, un sondage auprès de 125 politologues canadiens, et ils ont constaté que « le facteur ayant le plus de poids quant au choix d’un chercheur de publier en français est la rédaction de la thèse de doctorat dans cette langue »2. Inversement, « les politologues francophones qui ont écrit leurs dissertations en anglais publient peu ou pas du tout en langue française »3.

Examiner aujourd'hui la langue des mémoires et des thèses permet donc de prévoir l'évolution de l'utilisation du français dans la production scientifique de demain. Si on se fie aux deux premières décennies du XXIe siècle, l'avenir du français paraît plutôt sombre, avec néanmoins quelques lueurs d'espoir çà et là.

Analyse de 88 000 thèses et mémoires

Cette analyse porte sur plus de 88 000 thèses et mémoires diffusés au Québec entre les années 2000 et 2020 inclusivement (voir remarques méthodologiques, ci-dessous). Au cours de ces 21 années, plus de 33 000 documents ont été rédigés en anglais (37,2 % de l'ensemble) contre près de 55 000 en français. Seulement quatre autres langues ont été utilisées au cours de cette période (dans l'ordre, l'espagnol, le portugais, l'allemand et l'italien), mais leur proportion est négligeable (0,4 %).

Jean-Hugues Roy - figure 1
Figure 1 - Distribution du nombre de thèses de doctorat et des mémoires de maîtrise par année (2000-2020) et par langue (anglais ou français)

La figure 1 montre la distribution de la langue des thèses et mémoires publiés au cours de la période. Les documents en anglais sont indiqués dans des teintes de rouge, ceux en français dans des teintes de bleu.

Si pour certaines années on compte moins de documents, ce n'est pas en raison de la pauvreté de la production. Cela reflète simplement l'évolution de la quantité de dissertations accessibles dans les répertoires des universités québécoises; ces répertoires étaient moins utilisés au cours des premières années du siècle. En outre, l'année 2020 était incomplète au moment où le moissonnage des données a été effectué, en février 2021 (l’Université McGill, entre autres, n'avait aucun document disponible pour l'année 2020).

Ainsi, les seules années statistiquement comparables sont 2006 à 2019. L'évolution de la proportion de thèses et de mémoires déposés en anglais au cours de ces 14 années est présentée à la figure 2.

Jean-Hugues Roy - figure 2
Figure 2 - Proportion de thèses et de mémoires rédigés en anglais (2006-2019). Les droites sont le résultat d'une régression linéaire sur chacune des distributions par la méthode des moindres carrés ordinaires.

La tendance à la hausse est lente, mais affirmée. Ce sont aujourd'hui un mémoire sur trois et une thèse sur deux qui sont rédigés en anglais au Québec, tous domaines confondus.

Évidemment, si on exclut les deux universités anglophones du lot, on arrive à des proportions bien inférieures : seulement 7,8 % des maîtrises et 21,1 % des doctorats ont été rédigés en anglais dans les universités francophones de la province entre 2000 et 2020. On se désole parfois au Québec de l'utilisation grandissante de l'anglais par nos cousins d'Outre-Atlantique. Mais selon le répertoire theses.fr, qui recense les thèses de doctorat soutenues en France depuis 1985, seulement 8,9% l'ont été en anglais. Même si on restreint la recherche aux thèses déposées entre 2011 et 2020, la proportion de l'anglais en France (18,2%) reste inférieure à celle observée dans les universités francophones du Québec au cours de cette même période de 10 ans (23,8 %).

Jean-Hugues Roy - figure 3
Figure 3 - Proportion de thèses et de mémoires rédigés en anglais dans les universités francophones du Québec (2006-2019). Les droites sont le résultat d'une régression linéaire sur chacune des distributions par la méthode des moindres carrés ordinaires.

La figure 3 montre bien que c'est au troisième cycle que l'attrait de l'anglais croît le plus vite, ici. Ainsi, uniquement dans les 15 universités francophones du Québec, un-e étudiant-e à la maîtrise sur dix et plus d'un-e sur quatre au doctorat font aujourd'hui le choix d'écrire leur travail final dans la langue de Rutherford.

Quand on examine plus attentivement les données par université ou par domaine, le portrait devient cependant plus nuancé.

Jean-Hugues Roy - figure 4
Figure 4 - Proportion de thèses de doctorat rédigées en anglais par université, par année (2000-2020), par ordre croissant du pourcentage total des documents rédigés en anglais par université sur toute la période.
Jean-Hugues Roy - figure 5
Figure 5 - Proportion de mémoires de deuxième cycle rédigés en anglais par université, par année (2000-2020), par ordre croissant du pourcentage total des documents rédigés en anglais par université sur toute la période.

Les figures 4 et 5 font une cartographie de la proportion de thèses et de mémoires en anglais par année et par université. Plus le rouge est foncé, plus la proportion de documents rédigés en anglais est grande.

Ce qui est le plus frappant, c'est la popularité croissante, ces dernières années, de l'anglais au troisième cycle (figure 5) à HEC Montréal, à l'École de technologie supérieure et à Polytechnique Montréal. Sur les 67 doctorats décernés à l'ÉTS en 2019, par exemple, 48 (72 %) l'ont été sur la base d'une thèse en anglais. À HEC Montréal, la même année, 20 des 25 doctorats étaient en anglais, ce qui montre que le phénomène n'est pas limité aux sciences naturelles ou au génie.

L'attrait de l'anglais est moins important, mais tout de même en croissance chez les doctorant-e-s de l'INRS, de l'Université de  Montréal et de l'Université Laval.

Au deuxième cycle (figure 5), les mêmes universités semblent mener le bal. À Polytechnique Montréal, par exemple, 47 des 155 grades de M. Eng octroyés en 2019 l'ont été après le dépôt d'un mémoire en anglais, une proportion d'un peu plus de 30 %.

«L'anglais est déjà bien établi comme lingua franca des sciences naturelles et de la santé depuis plusieurs décennies à travers le monde», soulignent St-Onge et coll.4. « Sa place dans l’écosystème des sciences sociales et humaines l’est cependant moins », précisent-ils. Les Figures 6 et 7 permettent de voir si cette dichotomie entre sciences naturelles et sciences humaines existe aussi dans la production des étudiant-e-s des cycles supérieurs depuis 2000.

Jean-Hugues Roy - figure 6
Figure 6 - Proportion de thèses de doctorat rédigées en anglais par discipline, par année (2000-2020), par ordre croissant du nombre total de thèses par discipline sur toute la période.
Jean-Hugues Roy - figure
Figure 7 - Proportion de mémoires de deuxième cycle rédigés en anglais par discipline, par année (2000-2020), par ordre croissant du nombre total de mémoires par discipline sur toute la période.

Comme les figures 6 et 7 sont classées par nombre total de mémoires ou de thèses, c'est dans le bas de chacune qu'on peut tirer les conclusions les plus pertinentes puisque c'est dans ces disciplines qu'on peut compter sur un grand nombre de documents. C'est donc ici que les nuances les plus intéressantes apparaissent.

Si la production des thèses dans la plupart des disciplines des sciences naturelles, particulièrement celles du génie, se fait déjà en anglais dans des proportions qui dépassent largement 50 % année après année, il y a des exceptions. La chimie et la biologie en font partie. Si elles voyaient plus de la moitié de leurs doctorant-e-s théser en anglais dans la première décennie du siècle, dans la deuxième, cette proportion a baissé sous les 40 % dans le cas de la biologie et même sous les 30 % dans le cas de la chimie. Et on peut affirmer qu'il s'agit de proportions significatives puisqu'il se termine annuellement au Québec plus de 50 doctorats en biologie et 200 en chimie. On peut penser que cette tendance durera puisqu'on remarque le même phénomène dans les maîtrises de ces disciplines.

Reste que l'anglais progresse comme langue de diffusion du savoir dès les premiers pas d'un chercheur ou d'une chercheuse à la maîtrise et au doctorat. À quoi cela peut-il être dû? En discutant, il y a quelques semaines, de ces conclusions avec Vincent Larivière, collègue de l'École de bibliothéconomie et des sciences de l'information de l'Université de Montréal et titulaire de la Chaire de recherche du Canada sur les transformations de la communication savante, celui-ci a émis l'hypothèse que ce serait en raison de la popularité croissante des thèses par articles. Comme les publications scientifiques se font de plus en plus en anglais, ainsi que l'ont déjà montré ses travaux5, la tendance de réaliser une thèse par articles ferait en sorte que le phénomène de l'anglicisation de la diffusion des connaissances « percolerait » dans les études aux cycles supérieurs. Cette hypothèse est sans doute la plus plausible. On assisterait ainsi à une espèce de boucle de rétroaction positive selon laquelle l'anglicisation croissante de la publication scientifique pousse les étudiant-e-s à faire leur thèse en anglais, ce qui en retour les conduit à publier davantage en anglais au cours de leur carrière.

Pour vérifier cette hypothèse, il faudrait analyser la structure des dissertations de façon plus détaillée, ce que je n'ai pu réaliser dans le cadre du présent exercice. Cela dit, on peut d'ores et déjà constater que les expressions témoignant de thèses par articles – Two/Three/Four essays (en anglais et en français) – se retrouvent dans les titres de 228 mémoires et thèses accessibles dans les répertoires institutionnels du Québec.

Remarques méthodologiques

Afin de mettre à jour une analyse de la longueur des thèses et mémoires du Québec publiée en 2016, j'ai recueilli, au cours des premiers mois de 2021, des métadonnées sur près de 87 000 thèses et mémoires publiées entre 2000 et 2020 inclusivement et accessibles dans les répertoires institutionnels de 17 des 18 universités québécoises (Bishop's ne compte aucun de ces documents dans son répertoire). Aussi, le répertoire de Polytechnique Montréal ne contient aucun document pour les années 2000 à 2008; de ce côté, Vincent Larivière m'a aidé à combler cette lacune en me donnant accès au contenu de la section « Dissertations and Thesis Global » de la base de données Proquest. Pour cela, je le remercie vivement!

La langue du document n'est pas toujours indiquée dans les métadonnées. Et même dans les cas où elle est fournie, cette information n'est pas toujours fiable. Par exemple, les métadonnées de cette thèse en génie électrique complétée à l'Université Laval en 2019, par Mehdi Noormohammadi, indiquent qu'elle a été rédigée en français. Vérification faite, elle l'a été en anglais. Inversement, le répertoire Savoirs de l'Université de Sherbrooke nous dit que cette thèse en histoire publiée en 2010 par Marc-André Robert indique « eng » à la rubrique « langue » de sa description. En la téléchargeant, on constate qu'en réalité, on aurait dû lire « fra ».

J'ai donc d'abord soumis les titres de toutes les dissertations à une première vérification à l’aide d’un script en langage python. Chaque titre était analysé par trois modules gratuits de détection de la langue (langId, langDetect et Polyglot). Lorsque deux ou trois sur trois s'entendaient sur la langue dans laquelle il était rédigé, cette langue était attribuée au document.

Quand les métadonnées du document ne nous informaient pas de la langue, c'est la langue déterminée par mon script qui lui était attribuée. Si généralement la langue du titre correspond à la langue du document, ce n'est pas toujours le cas, comme pour ce mémoire en éducation réalisé à l'UQAC par Selma Dos Santos. Titre et résumé sont en français, mais le mémoire est en portugais du début à la fin. Lorsque des métadonnées nous informaient de la langue du document, mon algorithme se rendait généralement compte que la langue était la bonne, mais pas toujours. Dans plus de 1 300 cas (environ 1,5 %), il y avait un conflit.

Pour toutes ces raisons, j'ai donc effectué une seconde vérification, qui était de toute façon nécessaire pour un sujet aussi délicat. J'ai constitué un échantillon avec non seulement les 1 300 cas de conflit entre la langue du titre et celle des métadonnées, mais en incluant aussi tous les documents dont le titre était bilingue et séparé par le symbole égal (« = »), ainsi que tous ceux dont le titre était en anglais et qui avaient été diffusés après 2010, histoire de vérifier s'il y a effectivement une anglicisation dans la production des étudiant-e-s des cycles supérieurs ces dernières années.

L'échantillon qui a fait l'objet de cette seconde vérification comptait 5 799 thèses ou mémoires. J'ai rédigé un autre script qui effectuait le travail suivant : il ouvrait le PDF de chacune des dissertations, et il en découpait le texte en 20 parties égales. Ensuite la langue des 2 000 premiers caractères de 9 de ces 20 parties (la 2e, la 4e, et ainsi de suite jusqu'à la 18e) a été déterminée à l'aide de l'API Translator, des Services cognitifs de Microsoft. Il s'agit d'un service payant, normalement plus robuste que les trois modules gratuits utilisés dans ma première vérification. Si une langue se retrouvait dans cinq parties ou plus, elle était attribuée au document. Quand le PDF n'était pas « natif » et issu de la numérisation d'un document imprimé, mon script faisait alors une reconnaissance optique des caractères sur neuf pages prélevées à intervalles réguliers dans le document et en soumettait le texte à l'API Translator. Dans quelques centaines de cas où le document était trop volumineux ou impossible à lire programmatiquement (parce qu'inclus dans un fichier compressé), une vérification manuelle a été effectuée.

Un certain nombre de dissertations sont écrites dans les deux langues officielles. Dans tous les cas, c'est la langue la plus utilisée par le document qui lui était attribuée. Par exemple, ce mémoire du Centre Eau Terre Environnement de l'INRS, complété en 2014 par Russell Rogers, débute par un très long résumé en français de 40 pages! Il est suivi par plus de 100 pages en anglais. Il a donc été classé dans le groupe des documents rédigés en anglais. La vérification manuelle a permis de constater que plusieurs thèses et mémoires de l'INRS, même rédigés essentiellement en anglais, sont accompagnés de longs résumés en français comptant plusieurs pages. J'y vois une pratique inspirante dans la mesure où elle permet d'assurer tout de même la diffusion d'un savoir en langue française.

Un répertoire contenant le code et les données permettant à quiconque de reproduire cet exercice sera disponible dans le compte github de l'auteur à l'adresse https://www.github.com/jhroy/theses2021.

Références :

  • Rocher, F. et Stockemer, D. (2017). « Langue de publication des politologues francophones du Canada 1 », dans Canadian Journal of Political Science/Revue canadienne de science politique, 50(1), 97 120. doi: 10.1017/S0008423917000075
  • St-Onge, S., Forgues, É., Larivière, V., Riddles, A. et Volkanova, V. (2021, juin). Portrait et défis de la recherche en français en contexte minoritaire au Canada. Montréal : Acfas. Récupéré de https://www.acfas.ca/sites/default/files/documents_utiles/rapport_francophonie_final_0.pdf
  • Warren, J.-P. et Larivière, V. (2018). « La diffusion des connaissances en langue française en sciences humaines et sociales. Les défis du nouvel environnement international. Les revues savantes en sciences sociales et humanités », dans Recherches sociographiques, 59(3), 327-333. https://doi.org/10.7202/1058717ar
  • 1St-Onge et coll., 55
  • 2Rocher et Stockemer, 2017, p.108
  • 3Ibid., 116
  • 42021, p.44
  • 5Warren et Larivière, 2018

  • Jean-Hugues Roy
    Université du Québec à Montréal

    Jean-Hugues Roy est professeur au programme de journalisme de l’École des médias de l’UQAM et membre du Centre interuniversitaire de recherche sur la science et la technologie. Il a exercé́ la profession de journaliste pendant près de vingt-cinq ans. La science et la technologie ont été́ les deux thèmes principaux de sa carrière. Journaliste à la télévision de Radio-Canada de 1996 à 2011, il a travaillé́ dans la salle des nouvelles et à différentes émissions de vulgarisation scientifique et technique, comme Branché et Découverte.

Vous aimez cet article?

Soutenez l’importance de la recherche en devenant membre de l’Acfas.

Devenir membre Logo de l'Acfas stylisé

Commentaires

Patricia Bérubé
Très intéressant comme étude ! Il ne faut cependant pas oublier que le choix de la langue de diffusion (dans ce cas-ci l'anglais), dépend parfois d'autres facteurs. Je pense notamment aux différences radicales au niveau du financement interne disponible/garanti aux étudiants du troisième cycle, dépendamment qu'il s'agisse d'une université franco ou anglo. Parfois, le choix de l'anglais comme langue de diffusion est fait afin d'accéder à de meilleures conditions. Cette décision est non-négligeable lorsqu'on sait qu'un doctorat dure en moyenne entre 4 et 7 ans.