Imprimer

Lauréat

Dany Vohl

Université de Melbourne

Mes données astronomiques à l’ère du pétaoctet : tout mon espace et tout mon temps!

Dany Vohl - Concours de vulgarisation - 2015
Swinburne Astronomy Productions/SKA Program Development Office
Modèle du SKA
Un infini… de données

Comme pour tant d’autres branches des sciences, l’astronomie est désormais confrontée, sur une base quotidienne, aux problématiques du Big Data,prenant plusieurs formes. Un projet contenant un très grand nombre de fichiers de petite taille est l’une d’elles. Par exemple, plusieurs catalogues d’observations enregistrent plusieurs milliers d’images où chaque image ne nécessite que quelques centaines de mégaoctets (Mo). À titre indicatif, une tablette iPad de base possède un espace de stockage de 16 gigaoctets (Go), soit 16 000 Mo.

Une seconde forme survient lorsqu'un nombre restreint de fichiers de grandes tailles sont nécessaires pour représenter un projet. Par exemple, la « Simulation du Millénaire » qui reproduit visuellement l’histoire de l’Univers depuis le Big Bang jusqu’à la formation des premières étoiles, des galaxies et autres macrostructures a été enregistrée en 64 scènes de 300 Go chacune, l’équivalent de 1200 iPad!

Finalement, certains projets comportent un grand nombre de fichiers de grande taille. Ce sera le cas du Réseau d’un kilomètre carré (SKA, voir image en haut de page) qui devrait entrer en activité en 2020, une collaboration internationale de onze pays incluant le Canada. Il s’agit d’un réseau de 3000 radiotélescopes qui seront situés en Australie et en Afrique du Sud. Un tel réseau est ce qu’on appelle un interféromètre : toutes les antennes peuvent être utilisées conjointement pour former un immense télescope. Le SKA devrait collecter environ 14 exaoctets chaque jour – soit environ 30 millions de iPad quotidiennement! Si on empilait tous ces iPad, on obtiendrait une tour environ 19 fois plus haute que le mont Everest!

Des défis de taille

D’une part, toutes ces données permettent la réalisation de projets de plus en plus ambitieux. Par exemple, parmi les différents objectifs scientifiques du SKA, les chercheurs comptent observer avec grande précision l’époque à laquelle l’Univers devint transparent, connue sous le nom de l’époque de la ré-ionisation, quelques 400 millions d’années après le Big Bang!

D’autre part, l’énorme quantité de données représente une contrainte sérieuse pour la méthodologie de travail des astronomes. De tels volumes de données ne peuvent pas être enregistrés en entier sur un ordinateur personnel et parfois même sur un superordinateur.

De plus, le temps requis pour les transmettre d’un point A à un point B peut être considérable. Les méthodes de travail doivent donc être revues. C’est ici que mes recherches entrent en jeu.

Comprimer pour « couper dans le gras »

Je travaille sur la compression de données. Comme son nom l’indique, il s’agit d’une pratique qui consiste à réduire l’espace nécessaire pour enregistrer les données. Elle se base sur une théorie mathématique de l’information. Cette théorie stipule qu’un fichier peut être compressé jusqu’à une taille limite de sorte qu’aucune information ne soit perdue dans le processus. C’est ce que l’on appelle la compression « sans perte ». Une fois cette limite dépassée, le résultat sera une approximation du fichier original : c’est la compression « avec pertes ». Il peut sembler contre-productif de perdre des informations, mais il s’agit d’une pratique courante. Par exemple, elle est fréquemment utilisée dans les systèmes de communications numériques (téléphones mobiles et télévisions). L’œil et l’oreille humaine ne perçoivent pas nécessairement ces manques!

Pour l’astronomie à l’ère du pétaoctet, la compression avec pertes permet une importante économie d’espace et de temps. Toutefois, il y a des risques importants à introduire des pertes : obtenir des analyses scientifiques incorrectes. Avant d’utiliser de telles techniques, il importe donc d’évaluer l’effet de ces pertes pour savoir jusqu’où elles peuvent être tolérées sans compromettre la science.

Mes recherches de maîtrise effectuées à l’Université Laval de 2011 à 2013 ont porté sur la compression des données générées par un nouvel instrument installé à l’Observatoire du Mont-Mégantic : le spectro-imageur à transformée de Fourier de l’Observatoire du Mont-Mégantic (SpIOMM, prononcé « espion » ). Cet espion est en fait le prototype derrière SITELLE, le spectro-imageur maintenant installé au Télescope Canada-France-Hawaii, situé au sommet du volcan endormi, Mauna Kea, sur l’île d'Hawaii. Ces instruments permettent à la fois de photographier une portion du ciel et d’y obtenir la décomposition de la lumière visible en arc-en-ciel. On peut alors observer le ciel par tranche de couleurs et y extraire une foule d’informations sur la physique observée. SpIOMM et SITELLE génèrent de gros fichiers (environ 400 Mo par fichier pour SpIOMM et quelques Go pour SITELLE), et plusieurs fichiers sont générés chaque scéance d’observation. On veut donc réduire leur taille, tant pour l’archivage que pour la transmission lors de télé-observations.

Mes recherches ont indiqué qu’il est possible de compresser ces fichiers et d’occuper 45 fois moins d’espace que les originaux, et ce, sans compromettre les analyses futures. Il s’agit d’une économie d’espace et de temps de transmission non négligeable!

Récemment, j’ai testé ce type de compression afin d’accélérer une scéance de télé-observations. De nos locaux à Hawthorn en banlieue de Melbourne, nous avons effectué des observations à l’aide du télescope CTIO et de la caméra DECam au Chili. DECam enregistre plusieurs images d’environ un Go chacune en quelques minutes seulement. Transmettre de tels fichiers depuis le Chili jusqu’en Australie requiert environ 20 minutes par fichier. Une fois compressé, un fichier ne nécessitait environ qu’une minute pour nous arriver, nous permettant alors d’évaluer la qualité des données collectées et de réagir rapidement en cas de problème. Le catalogue complet non compressé des deux nuits d’observations est finalement arrivé en Australie une semaine plus tard!

Ainsi, que ce soit pour avoir accès rapidement aux données télécollectées ou pour éviter de les mettre aux oubliettes, la compression de données apparaît très clairement comme une avenue utile, voire incontournable, pour le futur de l’astronomie à l’ère du pétaoctet!