La recherche et le poids des données massives

François Laviolette, Université Laval

Au-delà du buzz du "big data", il y a cette réalité de la multiplication rapide et de l’accessibilité croissante des données numériques, dans la majorité des disciplines de recherche. Cela amène des questions et des possibilités nouvelles, mais aussi des exigences inédites en termes de "calculateurs", d’algorithmes.

Découvrir : Lancer un dossier sur les chiffres, sur le quantitatif en recherche et sur ses effets, c’est voir surgir allègrement au détour la question du big data, ou données massives. Car on ne peut pas, il me semble, passer sous silence cet impressionnant changement d’échelle qui a fait gonfler si rapidement le quantitatif du gig au yotta. Cela doit bien avoir quelques impacts sur les pratiques de recherche, non?

François Laviolette : En effet! Les méthodes quantitatives s’en trouvent définitivement transformées, et beaucoup de disciplines font face désormais à cette envolée des données numériques, menées par la continuelle avancée des moyens de stockage et de calcul. Les données arrivent de partout, tant pour les sciences sociales que pour les sciences naturelles : certaines issues de l’Internet et des médias sociaux, bien sûr, mais d’autres aussi du gouvernement et des entreprises, des textes que l’on numérise, du séquençage de génomes, de la modélisation des expériences de physique quantique, des banques de données de molécules de synthèse, etc.

Découvrir : L’ouverture à l’été 2015 du Centre de recherche en données massives, que vous dirigez, illustre bien le fait que ces problématiques traversent suffisamment l’univers universitaire...

François Laviolette : … et qu’il est plus que temps de réunir les forces, oui. Au-delà du buzz du big data, il y a cette réalité de la multiplication rapide et de l’accessibilité de plus en plus étendue des données numériques, dans la majorité des disciplines de recherche. D'où des questions et des possibilités nouvelles, mais aussi des exigences inédites en termes de « calculateurs », d’algorithmes. C’est aussi pour cela que notre centre se devait d’être d’esprit multidisciplinaire. On y trouve des chercheurs « disciplinaires », produisant les données, et croulant sous leur avalanche, et des chercheurs qui, comme moi, sont spécialisés dans les méthodes de traitement et d’analyse de données.

On trouve au Centre de recherche en données massives des chercheurs "disciplinaires" produisant les données et des chercheurs spécialisés dans les méthodes de traitement et d’analyse de données.

Déjà, le groupe réunit 36 chercheurs de l’Université Laval provenant de 11 départements, et quatre facultés sont impliquées : Sciences et génie, Médecine, Sciences de l’administration ainsi que Foresterie, géographie et géomatique. Agriculture et alimentation devrait nous rejoindre bientôt.

Découvrir : Pouvez-vous nous parler un peu des trois thématiques de recherche que vous avez retenues? La bio-informatique, par exemple. N’a-t-on pas là un domaine illustrant un des effets des données massives, soit la réorganisation de la carte disciplinaire?

François Laviolette : La bio-informatique se rapporte au traitement et à l’analyse de données provenant des sciences de la vie. Ajoutons à cela l’essor rapide des nouvelles technologies telles que les séquenceurs de nouvelles générations, la spectrométrie de masse, la transcriptomique à haut débit, etc., et on bascule ici dans un paradigme de données massives.

Dans ce domaine, on a accès à de nouvelles sources d’information qu’il faut savoir traiter efficacement, mais surtout, il faut apprendre à faire percoler les informations qui nous intéressent. Par exemple, on dit que le génome d’un individu est le « programme informatique » qui le définit, mais on commence à peine à savoir lire et interpréter ce code et c’est sans compter toutes les variables d’environnement qui ont elles aussi une grande influence. On peut de nos jours relativement facilement obtenir des données sur une foule d’aspects liés à la santé d’un individu. Le défi, c’est d’intégrer ces données en un tout cohérent et parlant. À titre d’exemple, dans le génome du microbiote, soit l’ADN de toutes les bactéries qui vous habitent, il y a là beaucoup, beaucoup d’informations concernant votre état de santé, mais cette information est très difficile à aller chercher.

Découvrir : Votre deuxième thématique, les « données non structurées »? C’est un aspect du big data qui ne vient pas tout de suite en tête pour le néophyte.

François Laviolette : Jongler avec des problématiques de données, ce n’est pas nouveau. Mais aujourd'hui, on se retrouve un peu avec un fouillis, avec des données non seulement massives, mais peu ou partiellement structurées, provenant de senseurs, de caméras, de photographies, de clics de souris lorsque vous naviguez sur un site, etc. Le problème, c’est d’arriver à extraire une information pertinente de ces données, afin, par exemple, d’aider un dirigeant à prendre les bonnes décisions pour son entreprise. C’est majeur comme enjeu.

On dit qu’une image vaut mille mots, et c’est vrai pour un être humain. Mais à la base, pour un ordinateur, ce n’est qu’un paquet de pixels. Il faut apprendre à l’ordinateur à le faire pour nous et à nous rapporter ce qu’il a trouvé de pertinent. Pour les analyses automatiques de textes et d’images, on y arrive de mieux en mieux. Cependant, il reste beaucoup de choses à faire dans le domaine… on aura pour ce thème amplement de quoi nous amuser! La bio-informatique, dont on a parlé plus tôt, fait face elle aussi à ce genre de problèmes.

Ce deuxième thème du Centre de recherche en données massives a pour objet non seulement d'analyser des données peu structurées, mais également d'intégrer des données de forme et de provenance diverses. Dans le cas des villes « intelligentes », imaginez le défi de coupler des informations géoréférencées avec des données de circulation obtenues grâce au téléphone cellulaire, des images de photo-caméras réparties sur tout le territoire, des senseurs installés sur les autobus, etc. Un projet de ce type est en train de prendre forme dans la ville de Québec...

Dans le cas des villes "intelligentes", imaginez le défi de coupler des informations géoréférencées avec des données de circulation obtenues grâce au téléphone cellulaire, des images de photo-caméras réparties sur tout le territoire, des senseurs installés sur les autobus, etc.

Le troisième thème se rapporte à la sécurité et à la confidentialité des données. « Mais vous avez juste à enlever le nom des personnes », se fait-on souvent recommander pour régler cette question. Non, non et non! Il ne faut surtout pas être naïf, car compte tenu de toute la puissance de calcul permettant de croiser les bases de données, l’anonymat ne suffit plus à garantir la confidentialité. Il y a d’autres méthodes assurant une meilleure confidentialité, et c’est ce type de méthodes que nous souhaitons améliorer dans ce troisième thème.Entre temps, il y aura un certain compromis à faire pour maximiser la confidentialité tout en favorisant l’avancement de la connaissance, de la science, des solutions médicales, etc. – des questions sur lesquelles doit se pencher le politique. Aux États-Unis, depuis une dizaine d’années, toute recherche scientifique basée sur des fonds publics doit rendre accessibles ses bases de données. Les chercheurs ont désormais une immense base reliée au cancer. Elle cumule le génome des patients, leurs données cliniques, la séquence des cellules cancéreuses, le diagnostic, le traitement, la réaction aux traitements, etc.

L’Internet des objets est un bon exemple pour illustrer le risque. Pensez simplement à ce petit senseur de 25 $ qui règle la température dans votre maison « intelligente ». Est-il aussi bien protégé que l'ordinateur auquel il sera connecté?

Découvrir : Jusqu’à quel point sont-elles « big », ces données massives?

François Laviolette : Le volume est imposant, il est vrai, mais ce n’est qu’un des quatre V, comme on dit, dont le croisement sert souvent à caractériser le big data : le volume, la vélocité, la variété et la véracité.

D’abord le volume, bien sûr, car tout part de là. Il est exprimé en « octets », une séquence de huit chiffres en binaire. Un mégaoctet vaut un million de séquences de huit chiffres. Un gigaoctet — vos disques durs —, c’est 1 000 fois un million, soit un milliard. Mais ce n’est pas exactement 1 000 fois plus, c’est 1 024 fois plus, parce qu’on travaille en base deux – donc il faut que ce soit un multiple, ce qu’on appelle une puissance de deux. Les puristes diront « c’est 1 024 fois plus ».

Pour la recherche scientifique, pour les activités quotidiennes de Facebook, on augmente encore d’un facteur de 1 000 la quantité de données à traiter, soit le téraoctet. On n’est pas encore dans les données massives au sens du premier V, mais c’est quand même assez volumineux : Facebook doit gérer plus de 500 téraoctets par jour.

Ajoutez encore 1 000 fois plus, on entre dans le pétaoctet… là, on est dans l’univers du grand volume. Le CERN, dont l’accélérateur fait rouler les particules à des vitesses proches de celle de la lumière, réalise des prises de données d’un pétaoctet par seconde… Facebook, Google, Amazon, la plupart des compagnies nagent dans des problématiques de données de l’ordre du exaoctet et du zettaoctet. Je vous rappelle qu’on multiplie par 1000 chaque fois. En 2016, on estime que le trafic Internet sera de l’ordre du zettaoctet.

Quand je suis arrivé à Québec, en 2002, mon voisin, qui travaillait à la Régie de l’assurance maladie du Québec, me racontait, grosse nouvelle (!), que la RAMQ venait de se doter d’un disque dur de 1 téraoctet. Toute l’information sur un téra! Aujourd’hui, pour mes collègues qui font du séquençage de génomes, c’est là une journée de travail, tout au plus!

Quand on parle de péta, tout le monde s’entend pour dire que là, on a une problématique de données. On peut encore les centraliser en un seul endroit. Mais si on monte encore – exa, zetta et yotta –, les données sont assignées à demeure. Transférer ces données congestionnerait Internet pour les millénaires à venir! Google navigue dans ces eaux. On change alors de paradigme pour l’analyse. Le scientifique de données envoie des logiciels sur les différents lieux où les données se trouvent. Ces petits robots virtuels analysent sur place, sélectionnent l’information pertinente et retournent uniquement l’information voulue. C’est le processus qu’on appelle MapReduce, aussi connu sous le nom de Hadoop. Il est à la base de la naissance de Google.

Quand on parle de péta, tout le monde s’entend pour dire que là, on a une problématique de données. Mais si on monte encore – exa, zetta et yotta –, les données sont assignées à demeure. Transférer ces données congestionnerait Internet pour les millénaires à venir!

Découvrir : Et les autres V?

François Laviolette : Il y a la vélocité, l’arrivage en continu. Considérons, par exemple, les courriels que reçoit une compagnie, les données de senseurs notamment prises par dles téléphones intelligents, les fils de presse, les données provenant des réseaux sociaux, bientôt les données issues de ce qu’on appelle l’Internet des objets, etc. Il faut colliger ces données brutes, les loger sur un serveur, mais également en extraire une information pertinente pour l’utilisateur qui les exploite. Le traitement est nécessairement automatisé. On utilise, entre autres, des méthodes de machine learning, d’apprentissage automatique, dont je vous parlerai plus tard.

Troisième V, la variété. Il y une petite compagnie que j’aime bien, Geovoxel, qui illustre cet enjeu. Ce sont des Québécois, des ingénieurs formés en géomatique ici à l’Université Laval, qui ont fondé cette compagnie au Brésil, zone connue pour ses tremblements de terre, mais aussi ses glissements de terrain dus aux pluies abondantes. L’idée est de ramasser un maximum de données pour prédire ces évènements – pour informer les travailleurs d’un chantier, par exemple, de partir de là parce qu'un écoulement de boue, un tremblement de terre, un effondrement risque de se produire. Pour y arriver, ils ont disposé des senseurs dans le sol, dans toute la région du Brésil couverte par leur projet; ces senseurs reliés automatiquement à leur centrale détectent très précisément les mouvements de sol. Mais ça ne suffisait pas. Ils sont allés chercher des données météo, des données satellitaires en temps réel, qu’ils ont combinées aux senseurs du sol. Pas suffisant… Ils sont alors allés sur les réseaux sociaux parce que juste avant une catastrophe, il y a une certaine activité quand les gens perçoivent les premiers signes, ce sont les senseurs humains... Ils ont fusionné toutes ces informations et ainsi façonné un système de prédiction de catastrophes qui fonctionne très bien.

Et enfin, la véracité. C’est la question de la validité des données, la problématique du bruit. Ce n’est pas tout le monde qui ajoute ce V, mais il me semble de plus en plus important. On ne reçoit plus toujours les données d’une source sûre. Les sondages par Internet, par exemple, comparativement aux sondages téléphoniques contrôlés par des êtres humains, créent une certaine forme de distorsion. Les statisticiens, quand ils font des sondages par Internet, ne donnent pas ce qu’on appelle l’intervalle de confiance, parce que les hypothèses statistiques qui permettent de conclure ne sont pas présentes; il y a trop de biais qui peuvent induire des erreurs non contrôlées. Il ne faut pas jeter à la poubelle des données simplement parce qu’elles ne sont pas suffisamment fiables, car elle contiennent quand même des informations pertinentes; il faut juste être prudent quand on les analyse.

Découvrir : Pouvez-vous nous donner quelques exemples de problématiques qui peuvent profiter de cette mer de données?

François Laviolette : Il y a un projet canadien en foresterie où For@c, un groupe de recherche de chez nous, joue un rôle important avec une approche plus durable de la forêt, qui partirait d’une connaissance à l’échelle de l’arbre. Des drones survoleraient les arbres et des robots rouleraient au sol. Des numérisations 3D permettraient de voir par en haut, par en bas.

Découvrir : Une lecture très fine, à l’échelle des agents, si l'on veut.

François Laviolette : Oui, un changement de paradigme. Au lieu d’avoir une information sur les populations en forêt, on aurait les données arbre par arbre. On pourrait alors automatiser la sélection des arbres à couper pour optimiser effectivement le rendement des foresteries, mais aussi le renouvellement de la forêt. Les personnes concernées y réfléchissent.

Découvrir : Et qu’en est-il de votre domaine, le machine learning, ces calculateurs qui font « parler » les données?

François Laviolette : L’apprentissage automatique ou machine learning est une branche de l’intelligence artificielle en plein développement. En gros, on apprend à un ordinateur à exécuter une tâche sans qu’on ait à explicitement le programmer pour ce faire. Il apprend à partir d’exemples qu’on lui « fournit ». Dans la problématique des données massives, on a besoin, entre autres, de méthodes pour savoir où se trouvent les données et surtout ce qu’elles contiennent comme information pertinente pour nous. Ce n’est pas facile, mais on obtient de plus en plus de succès.

L’apprentissage automatique, c'est d'apprendre à un ordinateur à exécuter une tâche sans qu’on ait à explicitement le programmer pour ce faire.

Prenons l’exemple des critiques de films, où l’on désire que l’ordinateur apprenne à reconnaître une critique positive d’une négative. On demande à un expert non pas de nous expliquer comment il prend sa décision, mais de coter le film. Il met un +1 si c’est positif, un -1 si c’est négatif. L’algorithme d’apprentissage intègre ces exemples et construit une fonction appelée classificateur qui, pour une entrée nouvelle, sera capable – avec généralement une forte probabilité de ne pas se tromper – de trouver la bonne classe. C’est beaucoup plus léger du point de vue de la programmation; un après-midi peut suffire à un expert humain pour générer un ensemble de solutions. On passe le « truc « à l’algorithme, puis boum!, on a notre solution. Pour un million de films à étiqueter, 1 000 seraient étiquetés par un expert humain et toute la balance se ferait de façon automatique.

Un autre exemple : les diagnostics de cancer du côlon secondés par Watson, un ordinateur doté « d'intelligence artificielle » conçu par IBM. D’un côté, on a des radiographies prises sur 30 ans, numérisées, et pour chacune de ces radiographies, on fournit à Watson le diagnostic posé par le spécialiste. Parallèlement, Watson cherche de l’information par mots-clés dans la littérature scientifique. Il rapatrie, « analyse », etc. Le radiologue est alors aidé par Watson quand vient le temps de décider : l’ordinateur lui fait remarquer que cette petite tache pourrait être un indicateur, il met de l’avant les articles scientifiques récents pouvant orienter le chercheur ou le clinicien. Watson « comprend », entre guillemets, ce qu’il lit. En tout cas, il est capable d’inférer suffisamment d’information pour pouvoir l'utiliser après, dans une situation particulière.

Découvrir : Et quels sont les écueils quand on traite autant d’informations?

François Laviolette : Il y a de l’information dans les données, mais si vous creusez trop, vous allez peut-être passer au-delà du réel... Prenons, par exemple, 1 000 patients à qui vous faites subir un million de tests, à qui vous posez beaucoup, beaucoup de questions. Vous obtenez au bout du compte un million de données. Il pourrait arriver que vous trouviez deux paramètres qui semblent corrélés statistiquement. Mais ce serait un hasard. Si vous n’avez pas beaucoup de « colonnes », c’est-à-dire si vous n’avez pas posé beaucoup de questions à vos 1000 patients, la probabilité que cela se produise est relativement faible; mais avec une masse de questions, la probabilité que vous arriviez à une conclusion qui semble statistiquement correcte augmente.

Il faut accepter un certain niveau de données bruitées, accepter que l’expert humain se soit trompé en réalisant le classement. Il faut être prudent face aux risques de sur-apprentissage.

Il faut accepter un certain niveau de données bruitées, accepter que l’expert humain se soit trompé en réalisant le classement. Il faut être prudent face aux risques de sur-apprentissage. On ne doit pas essayer de « coincer » toute la réalité uniquement dans les données que nous avons, car elles ne représentent qu’un échantillon provenant d’une population bien plus vaste. Vaut mieux accepter, lorsqu’on essaie de trouver une certaine « logique » dans nos données, accepter que cette logique souffre de quelques erreurs possiblement dues justement au fait que nos données sont bruitées. Une logique simple qui fonctionne la majorité du temps avec l’échantillon d’analyse que représentent nos données aurait de meilleures chances de bien se généraliser à la population en général qu’une logique alambiquée ne faisant aucune erreur avec nos données.

Ainsi, toute la problématique de l’apprentissage automatique, c’est de trouver le bon compromis entre sous et sur-apprentissage. Il y a des mathématiques en arrière de tout ça, des fonctions de régulation.

Découvrir : Concluons par un peu de prospective, même si, dans un tel domaine, il y a passablement de risques. Où voyez-vous votre centre dans cinq ans?

François Laviolette : Je pense que la problématique des données restera un défi pour encore bien des années. Notre centre devrait jouer un rôle important pour toutes les initiatives de recherche qui ont une problématique de données massives, et il y en aura de plus en plus. Du côté de l’industrie, nous aurons également un rôle à jouer. Jusqu’à tout récemment, les données massives étaient l’apanage de quelques compagnies telles Google et Amazone, mais on assiste à un virage important en ce sens, à une « démocratisation » du big data au sein des entreprises. Je vous encourage à lire le tout dernier rapport de Montréal International et de Québec International sur ce sujet, rapport auquel nous avons contribué : Profil du big data au Québec.

François Laviolette
Université Laval

Présentation de l’auteurFrançois Laviolette est professeur titulaire au département d’informatique et de génie logiciel de l’Université Laval. Il a obtenu son doctorat en théorie des graphes à l’Université de Montréal en 1995. Sa thèse résolvait un problème vieux de 60 ans qui avait entre autre été étudié par le mathématicien Paul Erdos. Depuis plus de 12 ans, son principal axe de recherche est l’apprentissage automatique (Machine Learning) et la bioinformatique. Plus spécialement, il développe de algorithmes d’apprentissage permettant de résoudre de nouveaux types de problèmes d’apprentissage, notamment des problèmes liés à la génomique et à la protéomique. Il est actuellement le directeur du tout nouveau Centre de recherche en données massives de l’Université Laval, le CRDM_UL.

Vous aimez cet article?

Soutenez l’importance de la recherche en devenant membre de l’Acfas.

Devenir membre