La méthodologie des appariements Séminaire de Méthodologie statistique et de sciences des données du 12 avril 2021
Les statisticiens sont souvent amenés à coupler des bases de données d'origine distincte
et contenant des informations différentes sur les mêmes unités statistiques. Ce processus
d'appariement présente de multiples enjeux : la construction de répertoires, l'enrichissement
de données d'enquête ou encore le repérage de doublons. La tâche est aisée si les
deux bases disposent d'un identifiant direct commun pour tous les enregistrements.
En l'absence d'un tel identifiant ou lorsque celui-ci n'est pas de bonne qualité,
l'appariement se fait alors sur une combinaison d'autres champs (état civil, adresse,
etc.) qui eux-mêmes peuvent présenter des défauts. Il s'agit ainsi d'utiliser une
méthode permettant de répérer, parmi toutes les paires possibles du produit cartésien
des deux bases, lesquelles correspondent à un seul et même individu ; et ce malgré
des informations plus ou moins erronnées sur les champs servant à l'identification.
Dans une approche de partage méthodologique, ce séminaire sera l'occasion de présenter
une rapide revue des méthodes d'appariement et des principaux concepts (identification
versus appariement flou) guidant le choix et la mise en place d'un processus d'appariement
ainsi que de témoigner de quelques exemples de traitement mis en oeuvre récemment
en termes d'appariement : le projet InserJeunes, l'outil RELAIS développé par l'Institut
national de statistique italien (Istat) et l'outil Rapsodie du pôle Revenus Fiscaux
et Sociaux de la Direction régionale de Rennes. Les leçons pratiques et généralisables
accompagnant la mise en place de telles techniques feront enfin l'objet d'une table
ronde de partages d'expérience et de conseils qui viendront alimenter les réflexions
en cours du programme REpertoire Statistique Individus Logements à la Direction des
Statistiques démographiques et sociales. Ces réflexions s'inscrivent plus largement
dans le cadre de l'investissement de l'Insee sur l'exploitation généralisée des sources
administratives.
Introduction aux appariements, vocabulaire et notions clés (pdf, 246 Ko )
Lucas, Malherbe, SSP Lab, DMCSI, Insee
RELAIS – Record Linkage At Istat (pdf, 952 Ko )
Mauro Scanu, Istat
Jean-François Portier et Pierre-Eric Treyens, Pôle Revenus Fiscaux et Sociaux, DR Bretagne, Insee
Le projet InserJeunes (pdf, 385 Ko )
Loïc Midy, Depp