Le data editing : Définition et principes généraux

Nathalie CARON

Documents de travail
No M2025/06
Paru le :Paru le20/10/2025
Nathalie CARON
Documents de travail No M2025/06- Octobre 2025

La traduction littérale de « data editing » donne « édition de données », expression peu parlante pour un statisticien français. Une traduction plus significative serait « vérification des données », mais elle resterait néanmoins imparfaite. En effet, le data editing correspond à l’ensemble des activités liées à la vérification des données individuelles qui visent à leur assurer la qualité requise en vue de leur exploitation en repérant et corrigeant les données individuelles tout au long du processus de production statistique. À vocation pédagogique, ce document de travail permet une première approche des principes généraux de mise en oeuvre du data editing qui existent dans la littérature et qui reposent sur une succession de différents types de contrôles : les micro-contrôles et les macro-contrôles. Il est important de définir une stratégie globale de « nettoyage » des données qui commence dès la collecte avec l’utilisation mesurée de contrôles présents pendant le remplissage du questionnaire, puis se poursuit par des vérifications automatiques ou par des gestionnaires et se termine par des contrôles post-collecte. Cette stratégie à définir dépend de la qualité des données recueillies à la collecte et de la qualité des données attendue pour la diffusion en termes de précision, celle-ci devant idéalement être définie préalablement. Enfin, une fois le processus de production terminé, il est essentiel de conserver des informations détaillées sur la phase de data editing ainsi que sur le cycle de vie des données - depuis les données brutes renseignées par le répondant jusqu’aux données finales destinées pour la diffusion -. Cela permet d’évaluer a posteriori l’impact de cette phase et d’optimiser le processus de production concerné. Dans ce document, les méthodes de correction des données ou d’imputation de masse pour corriger les erreurs ne sont pas abordées, car les techniques utilisées pour imputer une valeur plausible sont les mêmes pour une valeur renseignée détectée inexacte et donc à modifier ou pour une valeur manquante en cas de non-réponse. Les références citées en bibliographie permettront au lecteur d’approfondir ses connaissances sur le data editing.