L’usage des fichiers administratifs pour l’établissement de statistiques est ancien. Depuis 1950, l'Insee exploite les documents que les employeurs doivent remplir chaque année et qui retracent les périodes d'emploi et les salaires de leurs salariés. De même, depuis les années soixante, les fichiers des Bénéfices industriels et commerciaux et des Bénéfices non commerciaux sont une des sources principales pour l’élaboration des comptes nationaux ; et depuis les années soixante-dix, les déclarations de TVA servent à l’établissement des indices de chiffres d’affaires, eux-mêmes servant de guide pour l’analyse de la conjoncture, en particulier dans le commerce et les services.
Déclarations annuelles des données sociales
1,8 million de déclarations reçues
28,3 millions de salariés
42,3 millions de périodes d’emploi
15 gestionnaires mobilisés de mai à décembre pour le traitement des données
L’usage des fichiers administratifs présente un avantage évident quand il évite d’avoir à recueillir les mêmes informations par des enquêtes, consommatrices de temps et d’argent, pour les enquêtés comme pour les services enquêteurs. L’un des indicateurs du Code des bonnes pratiques de la statistique européenne indique ainsi que : « Dans un souci d'éviter des enquêtes directes coûteuses, tout est mis en œuvre pour améliorer l'exploitation statistique des fichiers administratifs ». Le Comité du label du Conseil national de l'information statistique (Cnis) veille ainsi à rejeter toute proposition d'enquête nouvelle qui pourrait être remplacée par l'utilisation de données administratives existantes. Dans le même esprit, les administrations sont désormais légalement tenues de transmettre des données individuelles aux services statistiques publics si ces derniers les leur demandent.
Les fichiers administratifs ont un autre avantage. De par leur caractère exhaustif, ou quasi-exhaustif, ils permettent l’établissement de statistiques à un niveau de nomenclature beaucoup plus détaillé que les enquêtes par sondage. De même, eux seuls peuvent fournir des données à un niveau géographique fin, le cas échéant.
Ainsi, le dispositif Epure fournit des indicateurs trimestriels d'évolution sur l'emploi aux niveaux national, régional, départemental, et des zones d'emploi. Ce dispositif repose principalement sur l'exploitation trimestrielle des bordereaux que les établissements employant des salariés envoient aux Urssaf, chaque mois ou chaque trimestre suivant leur taille, pour le paiement de leurs cotisations sociales. Ces bordereaux donnent les effectifs en fin de période, ainsi que le nombre de salariés rémunérés et la masse salariale versée au cours de la période.
Les Données annuelles de données sociales (DADS) constituent une autre source sur l’emploi et les salaires. Elles sont remplies par les établissements employant des salariés, et comportent notamment la masse des salaires versés, les effectifs employés, et pour chaque salarié la nature de l'emploi et la qualification, les dates de début et de fin de période de paie, le nombre d'heures travaillées, les salaires versés.
En ce qui concerne les statistiques structurelles d’entreprises, un nouveau dispositif, Esane, a été mis en place depuis 2008. Il repose principalement sur l’exploitation des Bénéfices industriels et commerciaux pour les informations comptables sur l'entreprise, et des DADS pour les effectifs et les rémunérations. La disponibilité plus précoce de ces fichiers et la mise en place de contrôles plus systématiques ont permis de mettre un terme à l’ancien dispositif, qui reposait en grande partie sur les Enquêtes annuelles d’entreprise. Ces enquêtes ont pu ainsi être remplacées par des enquêtes beaucoup plus légères.
L’enquête sur les Revenus fiscaux et sociaux utilise le fichier des déclarations de revenus. Ce fichier est couplé avec celui de l’enquête Emploi. L’enquête intègre les prestations sociales réellement perçues et les revenus des produits financiers non déclarés. Elle permet ainsi de calculer avec précision un certain nombre d’indicateurs sur les inégalités, ainsi que le seuil et le taux de pauvreté.
De nombreux autres fichiers administratifs sont également utilisés par les Services statistiques ministériels, dans leur domaine de compétence.
L’usage des fichiers administratifs exige cependant la mobilisation de moyens importants. Pour que les statistiques qu’ils permettent d’obtenir soient d’une qualité satisfaisante, des traitements longs et complexes sont indispensables. La cohérence interne et intertemporelle des données doit être vérifiée. Il faut procéder à des redressements pour les unités manquantes, et pour les données manquantes pour certaines unités, ainsi qu’à des redressements de cohérence ou des opérations de codification à partir de libellés déclarés en clair, comme pour la profession et la catégorie socioprofessionnelle. Ces traitements sont en partie automatisés, mais ils peuvent également nécessiter une intervention humaine.
Par ailleurs, les fichiers administratifs sont tributaires de définitions et de catégories réglementaires qui peuvent différer de celles dont les utilisateurs des statistiques ont besoin. En outre, les évolutions mesurées risquent de perdre une grande partie de leur validité quand les règles de gestion changent pour des raisons administratives. Il importe donc de veiller à ces évolutions dans les instances de pilotage des sources administratives, ou à défaut de modifier les chaînes de traitement pour les prendre en compte. Pour la diffusion des résultats, le respect des règles de confidentialité exige par ailleurs la mise en œuvre de mesures de précautions spécifiques et contraignantes mais indispensables.
Le secret statistique
Les règles strictes du secret statistique s’appliquent à toutes les données provenant de l’exploitation d’un fichier administratif ou recueillies lors d’une enquête. Elles ne peuvent être communiquées qu’après un délai de 75 ans si elles concernent la vie privée et de 25 ans s’il s’agit de données économiques et comptables. C’est pourquoi toutes les précautions sont prises pour que les statistiques publiées à partir de ces sources ne puissent en aucun cas permettre une identification des répondants et de leur réponse par croisement de critères. Par ailleurs, après un avis favorable du comité du secret statistique, des chercheurs peuvent avoir accès à des données individuelles, en étant alors soumis aux obligations du secret statistique.