a data library to strengthen external data value

Private and public open data, social network data, private data platforms... The web is an infinite source of external data. It comes in a variety of formats: data tables, geolocated data, APIs, images and text. How can organisations take advantage of all the value to be gained from big data processing?

Private and public open data, social network data, private data platforms… The web is an infinite source of external data. It comes in a variety of formats: data tables, geolocated data, APIs, images and text. How can organisations take advantage of all the value to be gained from big data processing?

Before you hear about nam.R’s solutions, it’s important to understand a bit about what they do. nam.R is a data producer that uses only external data in its data science processes. This unique founding principle has one important advantage — no reliance on data from partners who enforce data exclusivity/protections preventing data use. nam.R has extensive expertise with data in every sector of the ecological transition: renewable energy development, energy efficiency operations, smart grids, short circuits . . . Its data science teams exploit not only geolocalised data, but also images and textual corpora to build an incredibly fine mesh of actionable information for a wide variety of actors.

Given that external data is nam.R’s only source of data, they focus on exploitation to the fullest extent. This is why the start-up has tasked itself with building the widest possible structured knowledge base.

The first requirement of this database was that it be comprehensive, drawing from every structured data source in France. Exhaustive research into open and closed data sources was crucial, and monitoring efforts are ongoing. nam.R developed scrapers that browse the pages of these sources on a daily basis. The scrapers download available datasets and retrieve the metadata in a structured way.

data library nam.R

The second requirement was to harmonize the information available on each of the databases so that queries would be evenly distributed. This meant developing data mining tools that complete the work of the scrapers by browsing the downloaded files. The scrapers extract a vast array of information from each of the files: number of records, number of variables, column headers and types, and very soon they will reveal single or multiple themes thanks to an algorithm of Natural Language Processing.

Finally, the third requirement was to set up a fluid pipeline integrating external data into machine learning processes. The robustness of the pipeline is based on its ability to adapt to source data updates. Upon receiving an alert form the scrapers, the data scientist can update the databases upstream of the flow. In the short term, the Data Library will be able to score evolutions resulting from dataset updates. If the schema remains consistent and the number of records is not increased tenfold, the dataset will be automatically updated.

The open data movement and the multiplication of data marketplaces both present opportunities that can only be seized with new tools. The nam.R Data Library is equal to the challenge. Although the library is still in development, it already fulfils several internal functions. Its first public trial run will be in February as part of the open data observatory co-developed by nam.R, OpenData France, Etalab and the Cour des Comptes.

data library an external value nam.R

 

Plus d'articles

  • Une semaine à la Data Science Summer School 

    Une semaine à la Data Science Summer School  Après le succès des deux premières éditions de la Data Science Summer School (DS3), l’École Polytechnique a accueilli, du 24 au 28 juin, sa 3ème édition sur son campus à Palaiseau.  Cet […]


    LIRE LA SUITE
  • Ecole Polytechnique : un anniversaire sous le signe de la transition écologique

    Pour son 225e anniversaire, l’Ecole polytechnique a organisé le 7 juin 2019, le colloque scientifique international : réflexions, chercher, former et agir pour le développement durable, avec le soutien de nam.R. À cette occasion, les élèves de l’Ecole Polytechnique ont […]


    LIRE LA SUITE
  • nam.R était présent aux GeoData Days 2019

    L’équipe Data Stratégie représente nam.R aux GeoData Days Le 2 et 3 juillet derniers, nam.R était présent aux GeoDataDays ! Nicolas Berthelot, Alexis Camberlyn et Charles Hutin-Persillon de l’équipe Data Stratégie ont pu participer à la deuxième édition de l’événement […]


    LIRE LA SUITE
  • Ce que nam.R a retenu des GeoDataDays 2018

    La première rencontre des acteurs de la Geodata s’est tenue au Havre les 3 et 4 juillet 2018. Après avoir lancé chacun de leur côté les Rencontres Dynamiques Régionales en information géographique et les Rencontres DécryptaGéo, l’Afigéo et DécryptaGé ont […]


    LIRE LA SUITE
  • Data Science Summer School 2018

    Initiative d‘Emmanuel Bacry, co-fondateur de nam.R, directeur de recherche au CNRS à l’Université Paris Dauphine et professeur à l’Ecole Polytechnique, la Data Science Summer School a réuni cette année un nouveau panel d’experts haut en couleur. Parmi eux, Cédric Villani, […]


    LIRE LA SUITE
  • Data Science Summer School 2017 – 1ère Edition

    Avant même de commencer, le programme international organisé par Emmanuel Bacry (co-fondateur de nam.R, directeur de recherche au CNRS à l’Université Paris Dauphine et professeur à l’Ecole Polytechnique), est un succès : 700 candidatures dont 400 retenues, 30 nationalités différentes […]


    LIRE LA SUITE
  • european ai night

    Un clin d’oeil spécial à Emmanuel Bacry co-fondateur de nam.R à Florian Douetteau Founder de notre partenaire Dataiku. Bravo à tous ces acteurs pour faire de la France une référence mondiale en intelligence artificielle Cedric O, Mohammed Adnène Trojette Bertrand […]


    LIRE LA SUITE
  • Cedric Villani vient prendre des nouvelles de nam.R au WebSummit

    Lors de la rédaction de son rapport AI for Humanity, donner un sens à l’intelligence artificielle, Cédric Villani avait auditionné nam.R et reçu une contribution qui a été intégrée dans la quatrième partie : “L’intelligence artificielle au service de la […]


    LIRE LA SUITE
  • World Efficiency Paris : les solutions pour une économie sobre en ressources et carbone

    Du 12 au 14 décembre 2017 , nam.R était au World Efficiency Paris, le premier rendez-vous international de l’économie sobre en ressources et carbone à Paris Expo Porte de Versailles, sous le haut patronage de Monsieur Emmanuel MACRON, Président de […]


    LIRE LA SUITE
  • Web Summit 2017 : intelligence artificielle & transition écologique

    Stephen Hawking ouvre le Web Summit 2017 L’édition 2017 du Web Summit débute en beauté : pour la cérémonie d’ouverture, le public de l’Altice Arena a eu la surprise et le privilège d’assister par vidéoconférence au discours du scientifique britannique […]


    LIRE LA SUITE