Big Data et Statistiques publiques : questions de méthodes Séminaire de Méthodologie Statistique du département des méthodes statistiques du 30 novembre 2016
La prolifération exceptionnelle de données, souvent désignées sous le terme de « Big Data », est parfois considérée comme une opportunité pour améliorer et enrichir la production d'information. En parallèle, les technologies permettant de traiter des données très volumineuses ou de format complexe se sont développées à un rythme rapide sur la période récente et fournissent de nouveaux outils aux statisticiens. L'utilisation de ces nouvelles données représente cependant un enjeu technique et statistique dont le praticien doit avoir une bonne compréhension pour faire des choix méthodologiques raisonnés.
Ce séminaire a été l'occasion de présenter un aperçu des expérimentations menées sur ces thèmes au sein du département des méthodes statistiques. Après une introduction générale présentant le contexte, notamment européen, de l'exploitation de nouvelles sources pour la statistique publique, les exposés ont abordé des bilans pratiques de ces expérimentations. Tout d'abord, un premier exposé a présenté les solutions techniques et logicielles qui peuvent s'avérer nécessaires pour traiter de très grands volumes de données. Un deuxième exposé a proposé une introduction aux méthodes d'apprentissage automatique (« machine learning »), au travers en particulier d'une exploitation de données de téléphonie mobile. Enfin, un dernier exposé a fourni une présentation pratique des outils qui peuvent être mobilisés pour traiter des données de formats moins standards (texte ou réseau).
Résumés des interventions (pdf, 76 Ko )
Pauline Givord – Division Méthodes appliquées de l'économétrie et de l'évaluation, Insee
Les outils du Big Data vu par un statisticien (pdf, 2 Mo )
Benjamin Sakarovitch – Division Méthodes appliquées de l'économétrie et de l'évaluation, Insee
Stéphanie Combes – Division Méthodes appliquées de l'économétrie et de l'évaluation, Insee