Aller au contenu

Aller au menu principal

Aller à la recherche

Liens transversaux haut

La production de données infra-communales

La localisation des données infra-communales

La production de données infra-communales à l'INSEE répond à des besoins spécifiques apparus ces dernières années :

  • dans le cadre de la décentralisation des missions de l'Etat, besoin d'indicateurs actualisés à des niveaux géographiques fins
  • dans le cadre de la " loi d'orientation et de programmation pour la ville et la rénovation urbaine ", besoin d'indicateurs pour les Zones Urbaines Sensibles (ZUS) et les Contrats Urbains de Cohésion Sociale (CUCS)

Les fichiers de gestion détenus par les différentes administrations sont des sources privilégiées pour l'actualisation des données, or les fichiers sources n'ont pas été conçus pour une utilisation à l'échelle infra-communale et ne sont pas exploitables en tant que tels. Ainsi, les sources administratives sont exhaustives mais ne comprennent que les zonages nécessaires à leur gestion (Agence Locale pour l'Emploi pour Pôle Emploi, parcelles pour la taxe d'habitation). Au niveau infra-communal, la localisation de données statistiques est donc complexe.

L'exploitation des données sur des zonages d'intérêt nécessite la transformation des libellés d'adresses en code de zone : le géocodage. Il s'agit d'utiliser l'adresse de l'individu ou de l'entreprise comprise dans le fichier pour " zoner " les individus statistiques.

Le géocodage

Le géocodage est l'affectation d'un code de zone à une adresse figurant dans un fichier source. Cette affectation se fait à l'aide de tables de passage entre l'ensemble des adresses et les zonages : les référentiels géographiques.

Dans le cadre de ce site, seules les données pour les IRIS, les ZUS et les CUCS sont disponibles mais d'autres données géolocalisées sont réalisées sur les Zones Franches Urbaines ou sur d'autres quartiers dans le cadre de partenariats locaux.

Les étapes du géocodage

Le géocodage implique des traitements automatiques, des compléments de traitement réalisés à la main et l'utilisation de données de référence sur la géographie (les " référentiels " de communes, de voies) :

  1. Reconnaissance de la commune : certains fichiers ne contiennent pas de codification de la commune telle que présente dans le Code Officiel Géographique, une interprétation du nom en clair de la commune est nécessaire
  2. Reconnaissance de la voie : le libellé présent est confronté à la liste des libellés connus contenus dans le référentiel d'adresses. Or, les libellés des voies et des adresses peuvent varier selon la source considérée ou se trouver sous des formes différentes dans le même fichier. Par exemple, pour une même voie on trouvera " Rue du Général de Gaulle ", " Rue du Gal de Gaulle "...
  3. Ces imperfections impliquent une préparation des fichiers en amont : normalisation des libellés et toilettage éventuel des adresses
  4. Localisation de l'adresse : le numéro dans la voie est analysé pour positionner l'adresse soit en vis à vis d'une adresse connue du référentiel d'adresses soit à l'intérieur d'une façade (un coté d'une voie entre deux carrefours). A l'issue de cette étape une table de correspondance façade - zonage permet de coder la zone d'appartenance de l'adresse.

Pour un fichier de gestion " moyen ", les processus automatiques réalisent environ 95 % du travail. Néanmoins les 5 % d'adresses non géocodées sont rarement réparties de façon totalement aléatoire : il s'agit souvent d'adresses non normalisées qui peuvent assez naturellement former des points d'accumulation géographiques autour de lieux dits, de résidences, d'ensembles de HLM. Un traitement manuel complémentaire est donc absolument nécessaire et plus particulièrement sur les Zones Urbaines Sensibles (ZUS).

Toutes ces étapes impliquent des délais de traitement assez longs, ce qui explique que les données proposées sur ce site sont issues de millésimes plus anciens que les données disponibles aux niveaux communal et supra-communal.

Les référentiels géographiques

  1. Pour les communes de plus de 10 000 habitants, les référentiels sont constitués d'une table de façades (CAZU) et d'une table d'adresses. La table d'adresses sert à la gestion du recensement. Les référentiels sont mis à jour chaque année.
  2. Pour les autres communes, on dispose uniquement de tables de façades ce qui implique que les zonages doivent avoir des contours appropriés. Les zonages doivent en effet correspondre à un ensemble de façades entières (zonages dont les contours suivent des voies). Les ZUS et Zones Franches Urbaines (ZFU), n'ayant pas ces caractéristiques, on utilise pour ces quartiers des approximations géographiques.

Les spécificités des sources

En plus des contraintes techniques décrites ci-dessus, la localisation des données statistiques est rendue complexe par les spécificités de chaque source.

Le recensement de la population

Le fichier du recensement de la population, de par sa nature, est le seul fichier à ne faire l'objet d'aucun traitement. Néanmoins, les statistiques issues du recensement sont constituées par agrégation de mailles de collecte qui sont des pâtés de maisons. Ceci ne pose pas de problème pour les IRIS qui sont eux-mêmes des pâtés de maisons mais les données pour les ZUS doivent passer par une approximation de ces territoires (arrondi à l'îlot entier).

Revenus Fiscaux

Les revenus fiscaux localisés sont établis à partir des fichiers exhaustifs des déclarations de revenus des personnes physiques et de la Taxe d'Habitation (TH) fournis par la Direction Générale des Impôts.

L'Insee procède au rapprochement de ces deux fichiers afin d'estimer le revenu fiscal à des niveaux géographiques finement localisés, tout en préservant la confidentialité des données.

A partir de 2006, l'INSEE procède également au rapprochement avec des données d'Etat Civil (mariage, décès, séparation) pour corriger le revenu avec un coefficient dépendant de la date de l'événement. En raison du décalage de production entre les données communales et infra-communales, il est possible que les totaux infra-communaux 2006 présentent quelques différences avec les données communales 2006 qui n'ont pas été corrigées suivant ce nouveau processus.

Le fichier de la TH sur lequel tout repose contient également la section et la parcelle cadastrale (deux zonages infra-communaux) qui ne correspondent ni à la ZUS ni à l'IRIS. L'INSEE utilise une table de correspondance approximative entre ces zonages pour réduire le nombre de reprises manuelles.

Pôle Emploi (ZUS)

Un redressement statistique final a été effectué pour tenir compte des observations impossibles à localiser. Celles ci sont quand même comptabilisées dans les diverses parties de la commune : ses différentes ZUS et son espace hors ZUS. Le principe est de partager ces observations conformément à la distribution spatiale des demandeurs d'emploi dont l'adresse a été localisée manuellement.

Les DADS, la CNAM et Pôle Emploi (IRIS)

L'idée de base est identique à celle de Pôle Emploi par ZUS : comptabiliser les observations non localisées en leur attribuant une localisation déterminée de façon statistique. Cependant, au lieu de faire un redressement global on procède par attribution d'une localisation individu par individu.

Pour la Réunion cependant, les données des DADS et de Pôle Emploi affichées sont des données brutes, c'est-à-dire en l'absence des non localisables, très nombreux pour les DADS.

SIRENE

Le répertoire ne fait l'objet d'aucun redressement. Une partie des établissements n'est pas diffusée car elle n'a pu être localisée et n'a pas été imputée géographiquement.

Pour les stocks d'établissements au 01-01-2006, cela touche 1% des établissements des communes concernées par une ZUS et 1,8% des établissements des communes concernées par un quartier IRIS. Pour les créations et transferts d'établissements en 2006, cela touche 1,7% des établissements des communes concernées par une ZUS et 3,2% des établissements des communes concernées par un quartier IRIS.

Les naissances

Le géocodage des fichiers des naissances n'a été réalisée qu'à l'échelon de l'IRIS. Les données n'ont fait l'objet d'aucun redressement.

Les spécificités géographiques

Le champ géographique couvert est celui permis par les référentiels disponibles. Pour les ZUS, cela porte sur l'ensemble des communes à ZUS au sens des contours arrondis à l'îlot.

Pour certaines ZUS, on constate des difficultés de géocodages :

  • la ZUS 9301030 qui se situe sur les communes de Nice et Saint André de la Roche : on ne dispose que des données de Nice, Saint André de la Roche n'étant pas à ce jour géolocalisable
  • la ZUS 8210030 qui se situe sur Pont-Evèque (38) : les données ne sont disponibles que pour les millésimes les plus récents, du fait d'adresses essentiellement non normalisées (noms de résidence)
  • le géocodage utilise le complément d'adresse pour résoudre les ambiguités. Ces compléments d'adresse ne sont pas présents dans toutes les sources. C'est pourquoi nous rencontrons des difficultés en Corse pour les revenus fiscaux localisés et à Lille pour les naissances

Les diverses difficultés de géocodage peuvent conduire à une impossibilité de produire une donnée fiable sur certaines zones géographiques. Les lignes correspondantes des tableaux de données sont annotées (variable 'note') de la façon suivante :

  • Note = 0 : Aucun problème particulier
  • Note = 1 : Zone ou le géocodage est impossible du fait des référentiels (nouvel IRIS par exemple)
  • Note = 2 : Données non diffusables (zone de taille insuffisante)
  • Note = 3 : Données non fiables (problème de géocodage)
  • Note = 4 : Données impossibles à valider (quartier en cours de restructuration par exemple)

La géolocalisation

La géolocalisation est l'affectation de coordonnées géographiques (x,y) à une adresse qu'on résume ainsi à un point. La géolocalisation présente l'avantage de s'affranchir des zonages pré-existants, elle permet des études plus fines avec des données indépendantes de ces zonages.

Actuellement, la géolocalisation repose sur les informations contenues dans le répertoire d'adresses utilisé par le recensement actuel (RIL) pour les communes de plus de 10 000 habitants.

Néanmoins l'appariemment avec le RIL n'est pas possible pour toutes les adresses et la géolocalisation s'effectue en plusieurs étapes : utilisation des coordonnées présentes dans le RIL (éventuellement aprés interventions manuelles), utulisation des coordonnées moyennes des zonages obtenus en géocodage, imputation statistique pour le reliquat. Pour les données de Pôle Emploi, dans environ 80% des cas le processus automatique a abouti et les individus possèdent des coordonnées. Dans 10% des cas, il a produit un code îlot 1999, dans 5% des cas un code d'IRIS ou de ZUS. Il reste 5% de cas où l'on a aucune indication de la localisation.

Ce site ne propose pas de diffusion de données géolocalisées car les adresses précises permettent d'identifier les individus. Des cartes carroyées (utilisant un découpage en carreaux) exploitant des données géolocalisées peuvent néanmoins être réalisées, certaines sont proposées sur ce site à titre d'exemple. Ces prestations sont mobilisables dans le cadre du service spécifique.

Les données présentes sur les quartiers des Contrats Urbains de Cohésion Sociale (CUCS) sont indirectement issues de la géolocalisation. Elles ont été constituées par rapprochement des contours des zones avec les localisations précises (en x,y) des observations d'un certain nombre de sources. Cette démarche qui semble naturelle ne conduit néanmoins qu'à des données approchées à la fois en raison de l'imprécision relative aux coordonnées géographiques issues de la géolocalisation et de l'imprecision des contours disponibles pour les quartiers.