Système d'information sur les nouvelles entreprises 2018
Sine 2018
Sine 2018
Précision et fiabilité
Précision globale
Des calculs de précision sont effectués sur les variables.
Erreur aléatoire
Avec 40 000 unités dans l’échantillon, il a été possible d’obtenir comme paramètres :
-
des coefficients de variation de 0,09 (taux de survie réel) et 0,11 (taux de survie au pire cas) pour les créateurs classiques ;
-
des coefficients de variation de 0,12 (taux de survie réel) et 0,07 (taux de survie au pire cas) pour les auto-entrepreneurs.
Erreur non aléatoire
Les estimateurs peuvent comporter une part d’erreurs non-aléatoires liées à un défaut de couverture (cf. infra), aux erreurs de mesure, à la non-réponse, aux erreurs de traitement (saisie) et/ou de modélisation.
Erreur de couverture
L’échantillon est tiré en septembre 2018 à partir des créations d’entreprises au premier semestre 2018 renseignées dans Sirene à la date du tirage. Les créations d’entreprise qui ne sont pas remontées à Sirene à cette date ne sont pas échantillonnées (de l’ordre de 2% du nombre total de créations).
A l’inverse, une partie des unités enquêtées est mise hors champ à l’occasion du traitement des données collectées en première vague à l’aide des données Sirene révisées. Cela concerne en particulier les entreprises dont la durée de vie est inférieure à 30 jours.
Erreur de non-réponse
La non-réponse partielle fait l’objet d’imputations :
correction des données par cold-deck (sur l’emploi à partir de la source EPURE, sur les chiffres d’affaire à partir de la source ESANE) ou hot-deck (imputation des autres réponses au questionnaire par donneur/receveur).
La non-réponse totale est redressée par imputation, en deux temps :imputation du statut d'activité (active ou cessée) à l'aide d'un modèle du statut d'activité, puis imputation à l'aide d'un modèle de la non-réponse. Des repondérations successives conduiraient à l'issue des trois interrogations de la cohorte à avoir trois jeux de poids dans le fichier final, un pour chaque interrogation. Ceci poserait alors des problèmes difficiles à résoudre pour le croisement de plusieurs variables de vagues différentes.