Statistiques fondées sur des données administratives : esquisse d’un cadre général

Heidi KOUMARIANOS et Pascal RIVIERE (Insee)

Documents de travail
No M2025/03
Paru le :Paru le23/06/2025
Heidi KOUMARIANOS et Pascal RIVIERE (Insee)
Documents de travail No M2025/03- Juin 2025

La mobilisation de données administratives pour la production de statistiques et les questions qui l'accompagnent ne sont pas nouvelles dans les statistiques officielles, mais elles ne donnent pas lieu à un cadre méthodologique équivalent à ce qui existe pour les enquêtes. Cet usage peut parfois être perçu à tort comme immédiat, puisque les données « existent » déjà, et qu'elles ne nécessitent pas la mise en œuvre par le statisticien d'un processus de collecte pour les obtenir.
Cependant, cette absence de collecte n'est qu’une illusion de simplicité : elle est aussi le signe d'une perte de maîtrise sur les modalités d’obtention des données, leur temporalité, la définition des variables, des nomenclatures, les possibilités de vérification … Au total, pour ces nouvelles sources de données, c'est tout un pan du processus de production statistique qu'il faut repenser, pour tenir compte des nouvelles questions qu’elles soulèvent.
Les données administratives sont liées, par leur nature même, à un univers particulier, avec ses objectifs, son langage, ses catégories, ses dynamiques. Sous-produits de l’activité de l’administration, elles ne sont en aucun cas « données », et peuvent se révéler très éloignées de l’univers de l’utilisateur. Leur utilisation à des fins statistiques soulève des problématiques de qualité particulières, le concept de qualité étant subordonné à l’usage. Elle requiert une transition du monde administratif au monde statistique, un détachement de l’un pour se réattacher à l’autre. Cela ne peut se faire sans difficultés, sans frottements : c'est la notion de data friction.
Pour effectuer cette transition rigoureusement et dans de bonnes conditions, une grille d’analyse est nécessaire. Elle se présente sous la forme de 5 axes : objet (ou unité statistique), population et champ, variable, domaine (ou catégorisation), temporalités.
On propose ici une démarche fondée sur cette grille, et qui se décompose en 3 phases : acquisition, transformation, traitement statistique.

  • La phase d’acquisition part des données du SI administratif, non conçu pour les statistiques, car hétérogène, épars, mouvant, lié à un usage métier. Elle vise à rassembler, documenter, filtrer mais aussi figer, pour arriver à une « source administrative » utilisable.
  • La phase de transformation vise à passer de l’univers administratif à l’univers statistique.
  • La phase de traitement statistique correspond à une étape classique, que l’on retrouve aussi dans les enquêtes.

Pour chacune des phases, on met en évidence l’importance de « boucles de rétroaction », dans l’esprit du data tracking : pour assurer la qualité des données, donc des statistiques produites, il faut effectuer des retours arrière. C’est d’autant plus difficile que, contrairement aux enquêtes, on n’a pas la pleine maîtrise des concepts. Il en découle de nombreuses vérifications, à plusieurs niveaux : en cas d’anomalie, cela conduit à remonter en amont dans le processus, y compris jusqu’à la source. Ces boucles sont de natures très différentes selon les phases. Au total, en raison du besoin de qualité et d’explicabilité des résultats, l’enchaînement des phases n’a rien de linéaire.
Si le document propose un cadre général, sa mise en pratique peut nécessiter certains ajustements en lien avec des contraintes pratiques (de volume, ou de temps, par exemple). Adapté à une situation de mono-source administrative, il peut s’étendre : les principes proposés s’appliquent aussi en bonne partie aux données privées, avec des difficultés supplémentaires (champ, confidentialité, conventions, coût, ...). Ils peuvent aussi être replacés dans un contexte multi-sources, en associant données administratives et enquêtes, ce qui pose là aussi de nouvelles questions.