Statistiques fondées sur des données administratives : esquisse d’un cadre général
La mobilisation de données administratives pour la production de statistiques et les
questions qui l'accompagnent ne sont pas nouvelles dans les statistiques officielles,
mais elles ne donnent pas lieu à un cadre méthodologique équivalent à ce qui existe
pour les enquêtes. Cet usage peut parfois être perçu à tort comme immédiat, puisque
les données « existent » déjà, et qu'elles ne nécessitent pas la mise en œuvre par
le statisticien d'un processus de collecte pour les obtenir.
Cependant, cette absence de collecte n'est qu’une illusion de simplicité : elle est
aussi le signe d'une perte de maîtrise sur les modalités d’obtention des données,
leur temporalité, la définition des variables, des nomenclatures, les possibilités
de vérification … Au total, pour ces nouvelles sources de données, c'est tout un pan
du processus de production statistique qu'il faut repenser, pour tenir compte des
nouvelles questions qu’elles soulèvent.
Les données administratives sont liées, par leur nature même, à un univers particulier,
avec ses objectifs, son langage, ses catégories, ses dynamiques. Sous-produits de
l’activité de l’administration, elles ne sont en aucun cas « données », et peuvent
se révéler très éloignées de l’univers de l’utilisateur. Leur utilisation à des fins
statistiques soulève des problématiques de qualité particulières, le concept de qualité
étant subordonné à l’usage. Elle requiert une transition du monde administratif au
monde statistique, un détachement de l’un pour se réattacher à l’autre. Cela ne peut
se faire sans difficultés, sans frottements : c'est la notion de data friction.
Pour effectuer cette transition rigoureusement et dans de bonnes conditions, une grille
d’analyse est nécessaire. Elle se présente sous la forme de 5 axes : objet (ou unité
statistique), population et champ, variable, domaine (ou catégorisation), temporalités.
On propose ici une démarche fondée sur cette grille, et qui se décompose en 3 phases
: acquisition, transformation, traitement statistique.
- La phase d’acquisition part des données du SI administratif, non conçu pour les statistiques, car hétérogène, épars, mouvant, lié à un usage métier. Elle vise à rassembler, documenter, filtrer mais aussi figer, pour arriver à une « source administrative » utilisable.
- La phase de transformation vise à passer de l’univers administratif à l’univers statistique.
- La phase de traitement statistique correspond à une étape classique, que l’on retrouve aussi dans les enquêtes.
Pour chacune des phases, on met en évidence l’importance de « boucles de rétroaction
», dans l’esprit du data tracking : pour assurer la qualité des données, donc des statistiques produites, il faut effectuer
des retours arrière. C’est d’autant plus difficile que, contrairement aux enquêtes,
on n’a pas la pleine maîtrise des concepts. Il en découle de nombreuses vérifications,
à plusieurs niveaux : en cas d’anomalie, cela conduit à remonter en amont dans le
processus, y compris jusqu’à la source. Ces boucles sont de natures très différentes
selon les phases. Au total, en raison du besoin de qualité et d’explicabilité des
résultats, l’enchaînement des phases n’a rien de linéaire.
Si le document propose un cadre général, sa mise en pratique peut nécessiter certains
ajustements en lien avec des contraintes pratiques (de volume, ou de temps, par exemple).
Adapté à une situation de mono-source administrative, il peut s’étendre : les principes
proposés s’appliquent aussi en bonne partie aux données privées, avec des difficultés
supplémentaires (champ, confidentialité, conventions, coût, ...). Ils peuvent aussi
être replacés dans un contexte multi-sources, en associant données administratives
et enquêtes, ce qui pose là aussi de nouvelles questions.