a data library to strengthen external data value

Private and public open data, social network data, private data platforms... The web is an infinite source of external data. It comes in a variety of formats: data tables, geolocated data, APIs, images and text. How can organisations take advantage of all the value to be gained from big data processing?

Private and public open data, social network data, private data platforms… The web is an infinite source of external data. It comes in a variety of formats: data tables, geolocated data, APIs, images and text. How can organisations take advantage of all the value to be gained from big data processing?

Before you hear about nam.R’s solutions, it’s important to understand a bit about what they do. nam.R is a data producer that uses only external data in its data science processes. This unique founding principle has one important advantage — no reliance on data from partners who enforce data exclusivity/protections preventing data use. nam.R has extensive expertise with data in every sector of the ecological transition: renewable energy development, energy efficiency operations, smart grids, short circuits . . . Its data science teams exploit not only geolocalised data, but also images and textual corpora to build an incredibly fine mesh of actionable information for a wide variety of actors.

Given that external data is nam.R’s only source of data, they focus on exploitation to the fullest extent. This is why the start-up has tasked itself with building the widest possible structured knowledge base.

The first requirement of this database was that it be comprehensive, drawing from every structured data source in France. Exhaustive research into open and closed data sources was crucial, and monitoring efforts are ongoing. nam.R developed scrapers that browse the pages of these sources on a daily basis. The scrapers download available datasets and retrieve the metadata in a structured way.

data library nam.R

The second requirement was to harmonize the information available on each of the databases so that queries would be evenly distributed. This meant developing data mining tools that complete the work of the scrapers by browsing the downloaded files. The scrapers extract a vast array of information from each of the files: number of records, number of variables, column headers and types, and very soon they will reveal single or multiple themes thanks to an algorithm of Natural Language Processing.

Finally, the third requirement was to set up a fluid pipeline integrating external data into machine learning processes. The robustness of the pipeline is based on its ability to adapt to source data updates. Upon receiving an alert form the scrapers, the data scientist can update the databases upstream of the flow. In the short term, the Data Library will be able to score evolutions resulting from dataset updates. If the schema remains consistent and the number of records is not increased tenfold, the dataset will be automatically updated.

The open data movement and the multiplication of data marketplaces both present opportunities that can only be seized with new tools. The nam.R Data Library is equal to the challenge. Although the library is still in development, it already fulfils several internal functions. Its first public trial run will be in February as part of the open data observatory co-developed by nam.R, OpenData France, Etalab and the Cour des Comptes.

data library an external value nam.R

 

Plus d'articles

  • European AI for Finance

    Le mardi 3 septembre 2019, Startup Inside, l’agence référence de la transformation digitale, rassemblait les experts de l’intelligence artificielle dans l’industrie de la finance européenne, startups, grands groupes, laboratoires de recherche, universitaires et amateurs d’IA lors de son évènement European AI for […]


    LIRE LA SUITE
  • nam.R à Impact AI : rendez-vous fort du développement d’une IA responsable et éthique.

    Laurence Lafont, COO de Microsoft France et Présidente d’Impact AI, a annoncé la sortie du Manifeste « Un engagement collectif pour un usage responsable de l’Intelligence Artificielle » . Le 8 Juillet dernier, nam.R était à Impact AI lors d’une conférence […]


    LIRE LA SUITE
  • Une semaine à la Data Science Summer School 

    Une semaine à la Data Science Summer School  Après le succès des deux premières éditions de la Data Science Summer School (DS3), l’École Polytechnique a accueilli, du 24 au 28 juin, sa 3ème édition sur son campus à Palaiseau.  Cet […]


    LIRE LA SUITE
  • Anniversaire École polytechnique : un anniversaire sous le signe de la transition écologique

    Pour son 225ème anniversaire, l’Ecole polytechnique a organisé le 7 juin 2019, le colloque scientifique international : réflexions, chercher, former et agir pour le développement durable, avec le soutien de nam.R. À cette occasion, les élèves de l’Ecole Polytechnique ont […]


    LIRE LA SUITE
  • nam.R était présent aux GeoData Days 2019

    L’équipe Data Stratégie représente nam.R aux GeoData Days 2019 Le 2 et 3 juillet derniers, nam.R était présent aux GeoDataDays 2019 ! Nicolas Berthelot, Alexis Camberlyn et Charles Hutin-Persillon de l’équipe Data Stratégie ont pu participer à la deuxième édition […]


    LIRE LA SUITE
  • Ce que nam.R a retenu des GeoDataDays 2018

    La première rencontre des acteurs de la Geodata s’est tenue au Havre les 3 et 4 juillet 2018. Après avoir lancé chacun de leur côté les Rencontres Dynamiques Régionales en information géographique et les Rencontres DécryptaGéo, l’Afigéo et DécryptaGé ont […]


    LIRE LA SUITE
  • Data Science Summer School 2018

    Initiative d‘Emmanuel Bacry, co-fondateur de nam.R, directeur de recherche au CNRS à l’Université Paris Dauphine et professeur à l’Ecole Polytechnique, la Data Science Summer School a réuni cette année un nouveau panel d’experts haut en couleur. Parmi eux, Cédric Villani, […]


    LIRE LA SUITE
  • Data Science Summer School 2017 – 1ère Edition

    Avant même de commencer, le programme international organisé par Emmanuel Bacry (co-fondateur de nam.R, directeur de recherche au CNRS à l’Université Paris Dauphine et professeur à l’Ecole Polytechnique), est un succès : 700 candidatures dont 400 retenues, 30 nationalités différentes […]


    LIRE LA SUITE
  • GreenTech Verte 2019 : la tech française s’engage face à l’urgence climatique

    Le 4 juin 2019, à l’issue de la Semaine Européenne du Développement Durable, Station F réunissait à l’initiative du Ministère de la Transition écologique et solidaire, plus de 130 startup, une quarantaines d’investisseurs, des grands comptes, responsables RSE, experts et journalistes […]


    LIRE LA SUITE
  • Retour sur le salon Viva Technology 2019

    Rendez-vous annuel immanquable des start-up et grandes entreprises de la tech, le salon Viva Technology, co-organisé par Publicis Groupe et le Groupe Les Echos se tenait ce printemps au Parc des exposition de Versailles. Du 16 au 18 mai 2019, […]


    LIRE LA SUITE
  • Séminai.R interne nam.R

    Nous avons profité d’une belle journée du mois de mai pour organiser le second séminaire interne de namR, 6 mois après notre premier événement sur les berges de Seine. Au programme : conférences et ateliers mais aussi moments de partage et […]


    LIRE LA SUITE
  • nam.R à l’Élysée pour « Tech for good » 2019

    Le 16 mai dernier, à la veille du grand rassemblement Viva Tech, le Président de la République Emmanuel Macron a reçu les dirigeants de grandes entreprises, start-up, associations et acteurs de l’écosystème numérique mondial à l’Elysée à l’occasion du sommet […]


    LIRE LA SUITE