Une Data Library au service de la valorisation des données externes

Open data issues des secteurs privé comme public, données des réseaux sociaux, plateformes de données privées, le web est une source infinie de données externes. Tous types de formats sont diffusés : tables de données, données géolocalisées, API, images ou encore textes. Comment tirer profit de toute cette valeur dans le cadre de processus Big Data ?

Open data issues des secteurs privé comme public, données des réseaux sociaux, plateformes de données privées, le web est une source infinie de données externes. Tous types de formats sont diffusés : tables de données, données géolocalisées, API, images ou encore textes. Comment tirer profit de toute cette valeur dans le cadre de processus Big Data ?

Avant de vous présenter la solution qui a été développée par nam.R, il est important de mieux en comprendre les activités. nam.R est un producteur de données qui a pour particularité de ne mobiliser dans ses processus Data Science que des données externes. Ce principe fondateur a pour avantage de ne pas faire dépendre nam.R des données de partenaires qui pourraient fixer des exclusivités quant à l’usage de leurs données. nam.R a développé une expertise dans les données concernant tous les secteurs de la transition écologique : développement des énergies renouvelables, opérations d’efficacité énergétique, smart grids, circuits courts… Ses équipes de Data Science exploitent des données géolocalisées mais aussi des images ou des données textuelles afin de construire à la maille la plus fine une information actionnable par une grande variété d’acteurs.

Dans la mesure où la donnée externe constitue l’unique source de données exploitée par nam.R, il est nécessaire d’en exploiter toute la richesse. C’est pourquoi la start up a entrepris de construire une base de connaissance structurée la plus vaste possible.

La première exigence de cette base était qu’elle soit exhaustive de toutes les sources de données structurées en France. Pour cela un travail important de recensement des sources open data et de données fermées a été crucial et suscite une veille permanente. A partir de cette liste, nam.R a pu développer des scrapers qui parcourent quotidiennement les pages de ces sites web. Ces scrapers téléchargent tous les datasets et en récupèrent de manière structurée toutes les métadonnées disponibles.

La seconde exigence était d’harmoniser l’information disponible sur chacune des bases de données afin de pouvoir les requêter de manière équitable. Pour cela, le développement de miners a été nécessaire. Les miners complètent les scrapers car ils parcourent les fichiers téléchargés en eux-mêmes. Ils tirent de nombreuses informations sur chacun des fichiers comme le nombre d’enregistrements, le nombre de variables, l’en-tête et le type de chacune des colonnes et (prochainement) même une thématique ou plusieurs à partir d’un traitement à base de Natural Language Processing.

Enfin, la troisième exigence est de parvenir à mettre en place un pipeline fluide d’intégration de la donnée externe au sein de processus de traitement en Machine Learning. La robustesse du pipeline repose sur sa capacité à s’adapter à la mise à jour de la donnée source. Alerté par les scrapers, le Data Scientist peut mettre à jour les bases de données qu’il traite en amont du flow. A court termes la Data Library sera en capacité de scorer les évolutions issues de la mise à jour du dataset. Si le schéma reste cohérent et que le nombre d’enregistrements n’est pas décuplé, le dataset peut automatiquement être mis à jour.

Les opportunités qu’ouvrent l’open data ou la multiplication des marketplaces de data doivent être saisis avec de nouveaux outils. La Data Library de nam.R cherche à être à la hauteur de ces enjeux. Toujours en phase de développement, cette Data Library a déjà de nombreux usages en interne. De premières exploitations ouvertes au public se feront en février dans le cadre de l’observatoire de l’open data que nam.R développe en partenariat avec l’association OpenData France, Etalab et la Cour des Comptes.

Plus d'articles