Wikidata : un outil pour vous, les chercheurs

Pascal Martinolli, Université de Montréal

Wikidata est de plus en plus utilisé par les moteurs de recherche du web et par les assistants personnels intelligents. En effet, en repérant un terme dans Wikidata les machines savent immédiatement sa nature, ses parties, ses constituants, ses propriétés, etc., car les données sont structurées. Ce qui fait que des requêtes sur des chercheurs seront améliorées. Par exemple, si je dis à mon assistant personnel intelligent « Nestor, quel est l’article le plus cité de Jeanne Gagnon? » Il saura mieux estimer que je ne parle pas de menu de restaurant ou de magasinage à la quincaillerie.

martinolli

Créée en 2012, Wikidata est une immense base de données contenant à ce jour environ 83 millions d’éléments notables, plus ou moins liés entre eux et dans tous les domaines (hamster, galaxie M102, science formelle, J.R.R. Tolkien, rouge, Aplysia punctata, siège de Bastogne, etc.). Comme les autres membres de la famille Wikimédia, elle est collaborative et en libre accès. Elle est moins connue que sa grande sœur Wikipédia, mais elle est complètement libre de droit (CC0). De plus, elle adhère aux principes FAIR, c’est-à-dire que ses données sont faciles à trouver, accessibles, interopérables et qu’elles peuvent être facilement exportées et réutilisées.

Comment ça marche?

Chaque élément (numéroté Q…) peut être défini dans toutes les langues et il est plus ou moins indexé avec des propriétés. Certains éléments sont très détaillés et d’autres beaucoup moins. D’abord, il y a des propriétés essentielles comme Nature de l’élément pour des choses existantes ou Sous-classe de… pour les concepts et les abstractions. Ensuite, il y a des propriétés courantes. Par exemple, un livre pourrait avoir des propriétés comme : auteur, année de publication, maison d’édition, etc. Enfin, il y a toute un ensemble de propriétés qui sont des liens vers le même élément mais dans d’autres bases de données ouvertes. Ces identifiants sont particulièrement intéressants car ils font de Wikidata une fédération universelle d’identifiants pérennes, un ingrédient essentiel de la science ouverte.

Wikidata peut être parcouru d’un élément à l’autre. Cependant, son utilisation la plus intéressante consiste à lancer des requêtes au format SPARQL pour en extraire des jeux de données sur mesure, dans des formats tabulés comme CSV ou hiérarchiques comme JSON. Par exemple, on pourrait extraire toute la descendance de Genghis Khan et l’afficher sous la forme de graphe en réseau.

Wikidata pour les chercheurs

Wikidata est intéressant pour un chercheur qui possède un élément à son nom et qui est correctement indexé. Wikidata est de plus en plus utilisé par les moteurs de recherche du web et par les assistants personnels intelligents. En effet, en repérant un terme dans Wikidata les machines savent immédiatement sa nature, ses parties, ses constituants, ses propriétés, etc., car les données sont structurées. Ce qui fait que des requêtes sur des chercheurs seront améliorées. Par exemple, si je dis à mon assistant personnel intelligent « Nestor, quel est l’article le plus cité de Jeanne Gagnon ? » Il saura mieux estimer que je ne parle pas de menu de restaurant ou de magasinage à la quincaillerie.

Actuellement, la plupart de ces éléments sont créés semi automatiquement par des robots qui parcourent Wikipédia en indexant les auteurs trouvés dans des sources universitaires mentionnées dans les pages de l’encyclopédie. Ainsi, vous ne serez peut-être pas surpris, si vous êtes chercheuse ou chercheur, de découvrir qu’il existe peut-être déjà un élément à votre nom. Pour être légitime d’en créer un manuellement, le consensus actuel sur Wikidata est qu’il faut que la personne ait publié au moins un article dans une revue révisée par les pairs ou un livre.

Le Comité pour la science ouverte a relevé que Wikidata, malgré une gouvernance et un modèle économique dont la robustesse pourrait être amélioré, était devenu le premier outil mondial fédérateur des identifiants pérennes de chercheurs. Il a même émis le souhait que chaque chercheur français vivant ou ayant vécu aient un élément Wikidata aligné avec tous ses autres identifiants (ORCID, idHAL, Researcher ID, etc.).

De plus en plus de références à des articles révisés par les pairs sont versés dans Wikidata. Si la tendance se maintient, il est possible que Wikidata, ou un nouveau membre de la famille Wikimédia comme le projet WikiCite, devienne un jour un acteur important en bibliométrie.

Wikidata pour votre recherche

Pour votre collecte de données

Toutes les données de Wikidata sont sous licence CC0 : elles peuvent être utilisées librement et sans limitation. Cela veut dire que vous pouvez compléter, corriger ou enrichir, vos propres bases de données avec des informations complémentaires récupérées sur Wikidata. Vous pouvez aussi découvrir des jeux de données de domaines connexes qui pourraient être incorporés à votre recherche, ou qui pourraient servir à élaborer de nouvelles hypothèses.

Toutes les données de Wikidata sont sous licence CC0 : elles peuvent être utilisées librement et sans limitation. Cela veut dire que vous pouvez compléter, corriger ou enrichir, vos propres bases de données avec des informations complémentaires récupérées sur Wikidata. Vous pouvez aussi découvrir des jeux de données de domaines connexes qui pourraient être incorporés à votre recherche, ou qui pourraient servir à élaborer de nouvelles hypothèses.

C’est idéal pour des petits projets en sciences humaines et sociales. Il manque parfois, dans un laboratoire ou dans un groupe de recherche, de compétences en gestion de base de données. Si les chercheurs sont prêts à externaliser une partie de la récolte des données de leurs études, Wikidata peut faire gagner du temps. Notez que cela ne vous dispensera pas du travail de vérification et de nettoyage des données. En effet, il est possible que des éléments soient lacunaires ou mal indexés. Cependant, les risques sont relativement minimes pour le moment. Même si tout le monde peut modifier le contenu de Wikidata, le vandalisme y est peu courant.

Pour partager vos données

Parfois, dans un projet de recherche, on constitue une base de données et elle disparaît ensuite dans un tiroir. Pourquoi ne pas partager à tous en versant son contenu, ou une partie? Vous pourriez ainsi faire profiter à d’autres du fruit de votre travail. Cela fera rayonner votre équipe, offrira des opportunités de collaboration et des justifications à une demande de financement pour votre projet. Vous pourriez aussi plus facilement demander à une communauté de contribuer à l’enrichissement de ces données (crowdsourced curation).

Exemple

Je souhaite faire une analyse des pratiques de citation dans les jeux de rôle sur table. Je remarque que 50% des éléments de ma sélection existe déjà dans Wikidata. J’améliore les éléments existants et je créé les 50 % restants. Je tisse ensuite des liens entre les éléments avec la propriété Cite le document (P2860). Si des propriétés n’existent pas dans Wikidata, ou que je ne veux pas verser dans Wikidata, je crée une autre base de données locale sur mon ordinateur (par exemple une variable indexant les épigraphes avec un « codage maison » de cette variable). Avec le logiciel R Studio, je crée ensuite une requête SPARQL qui récupère toutes les informations pertinentes depuis Wikidata, qui les fusionnent avec ma base de données locale et que je peux analyser dans ce logiciel à mon gré.

Et vous ?

Cela vous donne des idées pour gérer vos données de recherche ? Les bénévoles de Wikimédia et Wikidata peuvent vous conseiller. Sachez aussi que dans vos institutions, les bibliothécaires sont vos alliés. En effet, une de leur expertise principale est l’indexation, les ontologies et la taxonomie des données. Venez nous demander conseils, cela nous fera plaisir de vous accompagner dans vos projets !

Cela vous donne des idées pour gérer vos données de recherche ? Les bénévoles de Wikimédia et Wikidata peuvent vous conseiller. Sachez aussi que dans vos institutions, les bibliothécaires sont vos alliés. En effet, une de leur expertise principale est l’indexation, les ontologies et la taxonomie des données. Venez nous demander conseils, cela nous fera plaisir de vous accompagner dans vos projets !

Remerciements : Simon Villeneuve, héros wikidatien (plus de 10 millions de contributions) et professeur au cégep de Chicoutimi, qui m’a initié à Wikidata.

Références

ARL Task Force on Wikimedia and Linked Open Data. ARL White Paper on Wikidata: Opportunities and Recommendations. 60 (2019).
Collège Europe et international. Des identifiants ouverts pour la science ouverte : note d’orientation. (2019).
L’intérêt de Wikidata pour la recherche. Wikimedia (2016).
Waagmeester, A. et al. Wikidata as a knowledge graph for the life sciences. eLife 9, e52614 (2020).
Vrandečić, D. & Krötzsch, M. Wikidata: a free collaborative knowledgebase. Commun. ACM 57, 78–85 (2014).
Farda-Sarbas, M. & Müller-Birn, C. Wikidata from a Research Perspective – A Systematic Mapping Study of Wikidata. arXiv:1908.11153 [cs] (2019).

Pascal Martinolli
Université de Montréal

Pour améliorer les compétences informationnelles des étudiants, Pascal Martinolli développe l’offre de formation au sein de la Bibliothèque des lettres et sciences humaines de l’Université de Montréal. Actuellement, il travaille sur un MOOC et plusieurs projets pédagogiques utilisant les techniques des jeux de rôle. Ses recherches portent sur la pédagogie et les pratiques de citation.

Vous aimez cet article?

Soutenez l’importance de la recherche en devenant membre de l’Acfas.

Devenir membre