Système d'information sur les nouvelles entreprises 2014
Sine 2014
Sine 2014
Précision et fiabilité
Précision globale
Des calculs de précision sont effectués sur les variables
Erreur aléatoire
Avec 40 000 unités dans l’échantillon, il a été possible d’obtenir comme paramètres :
-
un coefficient de variation de 0,1 pour les créateurs classiques ;
-
un coefficient de variation de 0,08 pour les auto-entrepreneurs.
Erreur non aléatoire
Les estimateurs peuvent comporter une part d’erreurs non-aléatoires liées à un défaut de-couverture (cf.
infra), aux erreurs de mesure, à la non-réponse, aux erreurs de traitement (saisie) et/ou de modélisation.
Erreur de couverture
L’échantillon est tiré en septembre 2014 à partir des créations d’entreprises au premier semestre 2014 renseignées dans Sirene à la date du tirage. Les
créations d’entreprise qui ne sont pas remontées à Sirene à cette date ne sont pas échantillonnées (de l’ordre de 2% du nombre total de créations).
A l’inverse, une partie des unités enquêtées est mise hors champ à l’occasion du traitement des données collectées en première vague à l’aide des données
Sirene révisées. Cela concerne en particulier les entreprises dont la durée de vie est inférieure à 30 jours.
Pour la cohorte 2014, cela représente de l’ordre de 1 500 unités pour le volet « auto-entrepreneurs » à la fin de la seconde vague et 1800 pour le volet Sine classique.
Erreur de non-réponse
La non-réponse partielle fait l’objet d’imputations : correction des données par cold-deck (sur l’emploi à partir de la source EPURE, sur les chiffres d’affaire à partir de la source ESANE) ou hot-deck (imputation des autres réponses au questionnaire par donneur/receveur).
La non-réponse totale est redressée par imputation, en deux temps : imputation du statut d'activité (active ou cessée) à l'aide d'un modèle du statut d'activité, puis imputation à l'aide d'un modèle de la non-réponse. Des
repondérations successives conduiraient à l'issue des trois interrogations de la cohorte à avoir trois jeux de poids dans le fichier final, un pour chaque interrogation. Ceci poserait alors des problèmes difficiles à résoudre pour le croisement de plusieurs variables de vagues
différentes.