Aller au contenu principal
14 février 2016
Benoit Godin
INRS - Centre Urbanisation Culture Société
Dossier:

Depuis quelques années, Google a digitalisé des milliers de livres, qui remontent au 16e siècle, et l’entreprise n’est pas terminée. Des chercheurs en sciences sociales et humaines ont donc eu l’idée d’inventer un outil qui permet de consulter ces ouvrages afin de réaliser des études sur l’évolution culturelle des sociétés et le vocabulaire grâce auquel les sociétés se construisent et se définissent. Quand tel mot ou tel concept est-il apparu? Comment a évolué son usage au fil des siècles? Quels individus font une utilisation des concepts?

N-gram est cet outil qui permet d’interroger le corpus et de dresser des statistiques sur des milliards de milliards  de mots. On peut ainsi apprendre à quand remonte l’origine de tel mot, le cycle de vie de ce mot et sa diffusion au fil des siècles.

N-gram n’est pas sans limites. La reconnaissance optique à la base de la digitalisation a ses propres ratés. Il y a aussi le vocabulaire ancien que l’entreprise a des difficultés à bien considérer (en anglais, le s pour le f actuel, le u pour le v actuel). Il y a enfin les erreurs dans la datation des documents digitalisés, la source des documents et l’évolution du corpus au fil des ans, la diversité de la littérature considérée.

Néanmoins, on dispose tout de même d’un outil unique pour la recherche. En fait, la statistique qu’on tire de N-gram est secondaire. N-gram est une porte d’entrée à la recherche sémantique : l’outil permet d’identifier des documents originaux … qu’il faut ensuite lire (plutôt que d’en dresser de simples tableaux statistiques).

Auteur(e)

  • Benoit Godin
    INRS - Centre Urbanisation Culture Société

    Benoît Godin est professeur à l’INRS (UCS). Il réalise de la recherche sur l’histoire intellectuelle et conceptuelle de la science, de la technologie et de l’innovation. Il est auteur de Measurement of Science and Technology : 1920 to the Present (London, Routledge, 2005) et Innovation Contested: The Idea of Innovation over the Centuries (London, Routledge, 2015). Il a mis sur pied récemment un réseau de recherche international sur ces objets de recherche (CASTI). Pour plus d’informations, voir : www.csiic.ca et www.casti.org.

Commentaires