recherche et big data, un cercle vertueux de progrès technique

L’explosion du nombre de données produites et la capacité de traitement qui l’accompagne ouvre des perspectives autrefois insoupçonnées pour tous les domaines de recherche. Pour comprendre le changement d’échelle de la production de données, Eric Shmidt, patron de Google a déclaré « « tous les deux jours, nous produisons autant d’informations que nous en avons générées depuis l’aube de la civilisation jusqu’en 2003 ».

 IDC estime que le volume de l’univers numérique va doubler tous les ans et passer de 4400 milliards de gigaoctets à 44 000 milliards en 2020. Il aura fallu 10 ans pour parvenir au premier séquençage de l’ADN humain. Aujourd’hui les entreprises spécialisées y parviennent en cinq jours.

La plupart des états ont saisi l’importance du sujet et se donnent les moyens d’entrer dans la course au big data. Les programmes de recherche publique sont financés de manière conséquente. Les États-Unis ont doté le Big Data Research and Development Initiative d’un budget de 200 millions de dollars. La France a débloqué 25 millions d’euros pour la recherche Big data. Les big data font partie des priorités du 7ème programme-cadre de R&D de l’Union Européenne.

Les projets scientifiques constituent un formidable booster de la recherche en traitement des données. Les programmes d’astrophysiques en sont un bon exemple. A titre de comparaison, au cours des huit années qu’a duré le Sloan Digital Sky (200-2008), 140 téraoctets d’images ont été récoltés. Une fois mis en place en 2020, il faudra cinq jours au Large Synoptic Survey Telescop (LSST) pour parvenir au même résultat. D’après les astronomes du LSST, les technologies actuelles mettraient plus de 10 ans à analyser les images et données produites par le programme. Les principaux axes de recherche concerneront le stockage, l’exploitation et le partage de ces informations, ainsi que la collaboration des entités impliquées.

En France, c’est le projet Mastodons du CNRS qui a entamé le chantier en 2012. Il soutient les projets interdisciplinaires qui étudieront les algorithmes, les méthodologies et les infrastructures nécessaires pour stocker, traiter, analyser, visualiser mais aussi protéger les méga données.

 

Le CASD, une solution française de partage des données entre acteurs privés et chercheurs

Porté par Kamel Gadouche, ce projet de partage des données à des fins de recherche est né en 2010. Son objectif était d’ouvrir l’accès aux données de l’INSEE de façon plus large aux chercheurs, mais aussi celles de certains ministères ainsi que les données d’acteurs, notamment dans les domaines de la banque, l’assurance et l’énergie. Utilisant des données sensibles et confidentielles, il devait répondre à des contraintes de sécurité très élevées. Deux défis se sont également posés à son porteur : convaincre d’une part les entreprises privées productrices de données de les partager grâce à une sécurisation maximum, et de l’autre les chercheurs d’utiliser ce programme grâce à une ergonomie et une simplicité d’utilisation. Deux défis relevés puisque RTE, Generali et La Poste ont rapidement fait partie des contributeurs. Conçu avant la déferlante Big data, CASD a acquis depuis 2013 la capacité de traiter les mégas données grâce à l’ajout d’outils comme Hadoop ou Spark.
Concrètement, le CASD est un espace sécurisé de consultation et de traitement de données. La publication des résultats est soumise à des règles strictes et des accords mutuels entre les producteurs de données (qui décident des conditions de publication) et leurs utilisateurs. La CNIL est également impliquée dans la démarche.
CASD est accessible par un boîtier couplé à une carte à puce bimétrique personnalisée pour chaque utilisateur. « Son installation doit remplir des conditions strictes de sécurité et une infrastructure exigeante, engageant contractuellement chaque partie prenante. Un système de « bulle » crée une isolation totale du boiter et de son utilisateur, fonctionnant en circuit fermé, sans contact avec l’extérieur à partir du moment où l’utilisateur est entré sur la plateforme. » (source : annuaire big data 2015-2016) Ce choix technique a été motivé par un calcul des coûts de maintenance : une solution logicielle présentait trop de risques et de coûts indirects. La solution retenue garantit un niveau de sécurité très élevé, les 350 boîtiers (pour 1000 utilisateurs) ne nécessitent que 4 techniciens dédiés à leur maintenance.

Le CASD est donc une belle réussite française qui s’exporte : il travaille avec l’Union Européenne à la création d’une infrastructure commune de partage des données.

Plus d'articles