Retour sur le Hackathon Big Data d’EurostatL’équipe Insee classée 2e sur 22 équipes

L'Insee et la statistique publique
Dernière mise à jour le : 30/03/2017

Le 15 mars, l’équipe Insee qui participait au Hackathon Big Data organisé à Bruxelles par Eurostat est arrivée dans le trio gagnant. Classée entre l’équipe croate et l’équipe estonienne, elle a obtenu la 2e place, dans cette compétition qui rassemblait 22 équipes représentant chacune différents instituts nationaux de statistiques européens.

Statistiques et Big Data pour lutter contre le chômage en Europe ?

Du 13 au 15 mars, les participants au Hackathon européen Big Data ont du combiner l’exploitation de nouveaux types de données comme celles scrapées sur internet avec des sources statistiques traditionnelles telles que, par exemple, les données issues des enquêtes statistiques européennes sur l'emploi (Labor Force Survey), les ressources et conditions de vie (SILC) et sur l'usage de l'information par les adultes (PIAAC).

Objectif : proposer en deux jours des prototypes qui répondraient à la question « Comment utiliser les données pour aider les décideurs de l'Union européenne à réduire l'inadéquation entre les emplois proposés et les compétences disponibles ? ». Dans certaines régions, des postes requérant certains types de compétences ne trouvent pas preneurs, alors que dans d'autres, les personnes qui ont ces compétences recherchent du travail. Le concours visait à développer des prototypes mobilisant différentes sources de données et permettant de mieux comprendre le problème notamment à travers des outils de visualisation des données.

Pari tenu pour l’équipe française de l’Insee composée de Yves-Laurent Bénichou, informaticien, chef de projet innovation et Stéphanie Combes et Benjamin Sakarovitch, tous deux data scientists au sein du département des méthodes statistiques.

En deux jours, en utilisant les données issues du site Eures regroupant au niveau européen des CV et des offres d’emplois, l’enquête emploi, le référentiel de compétences ESCO et des données scrapées d’offre d’emploi, grâce à leurs expertises en machine learning, data visualisation et data-architecture, l’équipe française a su proposer un prototype intéressant et prometteur. Intitulé « M&M’s » pour « Migrations & Mismatch of Skills », il permet de visualiser de nombreux phénomènes comme « Quelles compétences sont sous-exploitées dans telle région avec des personnes qualifiées qui demeurent sans emploi ? ».

Les projets ont été évalués par un panel de 20 membres composé de décideurs de plusieurs directions et divisions et de représentants de l'industrie d'Oracle, d'Amazon, de Microsoft, d'IBM, de SAP, de SAS, d'Accenture, etc.

Marianne Thyssen, Commissaire européenne pour l'emploi, les affaires sociales, les compétences et la mobilité des travailleurs, s’est félicitée du résultat de cette expérimentation.

Les données issues du Big Data : un autre champ de possibles pour l’Insee et la statistique publique

« Ce hackathon Big Data proposé par Eurostat illustre la mobilisation des différents instituts de statistiques européens pour tirer parti des données massives ou Big Data que ne cesse de générer notre société numérique mais aussi des techniques de traitement statistique associées. Je suis très fière du travail réalisé par notre équipe à cette occasion. Il s’inscrit dans le cadre de la démarche continue d’amélioration de nos méthodes pour mobiliser intelligemment, donner du sens et intégrer de nouvelles sources de données à notre production statistique ». affirme Sylvie Lagarde, directrice de la méthodologie et de la coordination statistique et internationale.

Si le travail mené par l’Insee lors de cet événement débouche sur un prototype qui n’a pas vocation à être directement utilisé sur le plan opérationnel, il répond et teste différents défis techniques (machine learning, exploitation de données scrapées sur internet, datavisualisation) qui participeront au développement des travaux et des compétences des équipes dédiées à l’innovation et aux méthodes statistiques à l’Insee.

Parmi les conditions de succès de mise en œuvre d’un tel outil figure notamment la qualité des données à traiter. L’équipe française a notamment exploité le contenu d’offres d’emploi postées sur internet mais hétérogénéité de celles-ci pose certaines limites pour produire des résultats d’analyse probants.

Pour en savoir plus

Dossier « Comment prévoir l’emploi en lisant le journal ? », Note de conjoncture, mars 2017

Résumé et interventions du séminaire de méthodologie statistique « Big Data et statistiques publiques : questions de méthodes », 30 novembre 2016

Calendrier des colloques, séminaires et salons