Courrier des statistiques N8 - 2022

Avec cette nouvelle édition, le Courrier des statistiques livre son huitième numéro. La revue se donne une fois de plus pour ambition d’aborder, avec une tonalité qui se veut pédagogique quelques grandes problématiques auxquelles se confronte la statistique publique.
Le Courrier s’arrête en ouverture de ce numéro 8 sur l’enquête TeO qui explore de manière singulière comment les origines des immigrés ou des enfants d’immigrés influent sur leurs trajectoires et conditions de vie. Le second article propose d’analyser l’univers des statistiques dédiées aux collectivités locales.
Les répertoires sont à l’honneur dans les cinq articles qui suivent. Après avoir défini les répertoires, ces « référentiels indispensables et pourtant méconnus » comme des systèmes d’information normalisés et vivants, les deux articles suivants nous font pénétrer dans les constellations mêlées du Répertoire national d’identification des personnes physiques (RNIPP) et du système national de gestion des identifiants (SNGI). Puis on quitte le domaine des individus pour s’intéresser aux entreprises, avec le répertoire d’unités statistiques Sirus, outil indispensable au statisticien d’entreprises. Enfin, le dernier article nous plonge dans une singularité de l’appareil statistique français à travers la présentation de la base permanente des équipements (BPE).

Courrier des statistiques
Paru le :Paru le29/11/2022
Joseph Préveraud de Vaumas, Responsable du pôle Étude et Transformation du SI, Cnav, Joseph.Preveraud-de-Vaumas@cnav.fr
Courrier des statistiques- Novembre 2022
Consulter

Un référentiel des identités pour les besoins de la sphère sociale Le système national de gestion des identifiants (SNGI)

Joseph Préveraud de Vaumas, Responsable du pôle Étude et Transformation du SI, Cnav, Joseph.Preveraud-de-Vaumas@cnav.fr

Le système national de gestion des identifiants (SNGI) est le référentiel des identités, pour les besoins des organismes de la protection sociale. Créé en 1988 par la Caisse nationale d’assurance vieillesse (Cnav), le SNGI traite les états civils et le NIR (numéro d’inscription au répertoire, plus connu sous le nom de numéro de sécurité sociale) des ayants droit de la sécurité sociale. Au fil du temps, il s’est imposé comme référentiel socle notamment parce qu’il permet l’attribution d’un NIR aux individus nés hors de France.

Construit à partir des fichiers des assurés du régime général de retraite de la Cnav, il a progressivement été synchronisé avec le répertoire national d’identification des personnes physiques (RNIPP) de l’Insee, et continue de s’enrichir en permanence. Outre les données nécessaires à l’identification d’une personne, il contient des informations liées à l’instruction des demandes d’immatriculation. Le système intègre des fonctionnalités de consultation et de recherche d’identité ainsi que de diffusion d’information. Il s’appuie sur un moteur d’identification performant pour retrouver une identité à partir d’informations imprécises voire inexactes. Compte-tenu des enjeux importants pour ses utilisateurs et du caractère sensible des données qu’il contient, le SNGI est très encadré sur le plan juridique.

Au commencement, connaître les identités pour gérer les retraites

La Caisse nationale d’assurance vieillesse (Cnav) est l’organisme de sécurité sociale qui gère les retraites des salariés du régime général et des travailleurs indépendants. Son activité concerne près de 80 millions de Français ou d’étrangers travaillant ou ayant travaillé en France (Ouvrir dans un nouvel ongletCnav, 2021).

Au début du processus de gestion du système de retraites, l’employeur . La Cnav réalise ensuite un premier traitement pour regrouper ces données par individu et reconstituer la carrière d’une personne qui travaille ou a travaillé dans différentes entreprises (Sureau et Merlen, 2021). Il est alors possible de calculer le droit à la retraite. Pour passer du « salarié » à l’« individu », il faut pouvoir reconnaître une personne à travers les déclarations sociales des différents employeurs.

La déclaration sociale contient des données d’identité (nom, prénom, date et lieu de naissance) ainsi que le numéro de sécurité sociale de chaque salarié. C’est à partir de ces informations que les rapprochements vont pouvoir se faire.

Il faut alors un système de référence fiable qui contienne les données d’identité de chaque individu et qui soit indépendant de l’employeur : un référentiel des identités (encadré 1). Ce référentiel constitue un enjeu majeur non seulement pour le calcul des retraites, mais aussi pour toutes les branches de la Sécurité sociale (maladie, famille, etc.) et pour tous les régimes qui rencontrent des besoins similaires.

Encadré 1. Le référentiel d’identité en questions

Le SNGI identifie, mais il n’authentifie pas ?

Le SNGI permet de retrouver une identité certifiée à partir des éléments fournis (nom, prénoms, date et lieu de naissance, etc.). Cela ne signifie pas que ces éléments correspondent bien à la bonne personne physique. Pour « authentifier » ce lien, il faudrait par exemple utiliser une photo, une empreinte digitale ou un code secret. Ce n’est pas la fonction du référentiel d’identités.

Mais alors à quoi sert le SNGI ?

Le SNGI associe des données d’identités déclarées provenant de sources incertaines (formulaire papier ou numérique) avec des identités de référence et certifiées. Cela permet ensuite de regrouper efficacement différentes sources d’information relatives à un même individu (par exemple pour reconstituer sa carrière à partir des déclarations de différents employeurs). L’identifiant, le NIR, vient alors en complément de l’identité pour fiabiliser le dispositif.

Pourquoi recourir à un système d’identification alors que l’on dispose de l’identité ?

Trois principales sources d’erreurs peuvent rendre difficile l’identification d’une personne à partir de ses traits d’identités :

  • quand le salarié ou l’assuré déclare son identité en remplissant à la main un formulaire, celui- ci peut être ensuite photocopié ou numérisé  : l’identité est ainsi recopiée ou saisie dans un système informatique, avec un risque d’erreur accru ;
  • les traits d’identité eux-mêmes peuvent varier, par exemple quand le nom marital est renseigné à la place du nom de naissance ou lorsque la liste des prénoms est plus ou moins complète ;
  • enfin, la déclaration se fait parfois à partir d’une fausse identité (fraude).

L’enjeu pour le système d’information est à la fois de construire une référence fiable des identités et de pouvoir rapprocher les éléments déclarés et l’identité de référence.

La Sécurité sociale s’est donc dotée du système national de gestion des identifiants (SNGI), un référentiel informatique, mis en œuvre par la Cnav et utilisé par l’ensemble des organismes de la protection sociale française, en commençant par les régimes de retraite.

Dix ans pour passer des fichiers régionaux au référentiel national

Dans les années 70, la masse d’information issue des déclarations sociales était si importante que les capacités informatiques ne permettaient pas de les traiter à un échelon national. Chaque disposait alors d’un Fichier Régional d’Identification (FRI), dont la Cnav pilotait la coordination. Cette organisation a vu ses limites quand les mouvements d’individus d’une région à l’autre se sont multipliés, et qu’il devenait de plus en plus difficile d’assurer la cohérence entre ces référentiels d’identités régionaux.

En 1988, l’amélioration des performances des ordinateurs a permis à la Cnav de centraliser les fichiers d’identification dans une base nationale : c’était la naissance du système national de gestion des identifiants (SNGI) (encadré 2). La convergence des fichiers régionaux vers le système national n’a pas été un simple transfert ou regroupement de fichiers : il a fallu plusieurs années pour progressivement analyser et résoudre les écarts qu’il pouvait y avoir entre les fichiers régionaux.

Encadré 2. Cadre et gouvernance du SNGI

Des textes...

Le SNGI est encadré par un ensemble de décrets, en premier lieu le décret n° 2018-390 du 24 mai 2018* qui précise :

  • le rôle de la Cnav comme opérateur du référentiel, c’est-à-dire l’organisme qui met en œuvre le système d’information pour le compte de la sphère sociale ;
  • les finalités de ce système ainsi que ses données et leurs règles de conservation ;
  • les accès et les destinataires autorisés ;
  • et certains aspects liés au règlement général sur la protection des données* ; ainsi, le droit d’opposition, qui permet à une personne de s’opposer à ce que ses données personnelles soient utilisées par un organisme pour un objectif précis, ne s’applique pas au SNGI.

Le décret SNGI régule ses usages en raison du caractère particulièrement sensible du référentiel, puisqu’il permet de croiser les informations personnelles venant de différentes sources.

Le cadre juridique est aussi complété par le décret « NIR » n° 2019-341 du 19 avril 2019*, et par d’autres décrets comme ceux relatifs aux systèmes adossés, tels que le RNIAM et le RNCPS.

... des directives...

Pour encadrer ce processus d’immatriculation, le ministère des Affaires sociales édite notamment un guide de l’Identification à destination des organismes de la protection sociale. Le ministère de l’Intérieur et celui des Affaires étrangères contribuent également à la définition des directives pour le contrôle des pièces justificatives.

... des instances...

La CNIL porte une attention particulière au SNGI, elle veille notamment au respect de la confidentialité des données et à leur usage dans un cadre strictement maîtrisé.

Au sein du ministère des Affaires sociales et de la Santé, la direction de la Sécurité sociale (DSS) anime le comité opérationnel de suivi de l’identification (COSI), lequel regroupe les principaux organismes de protection sociale en charge de l’identification et de l’immatriculation des individus, et l’Insee. Le COSI veille à la qualité du processus d’identification et d’immatriculation des individus, et gère le suivi des évolutions du référentiel. Il décide des actions à mener, par exemple quand des fraudes importantes sont détectées dans certains pays étrangers. Il facilite la coordination des différents organismes et apporte des précisions sur des cas particuliers d’identification.

Enfin, l’extension des usages du SNGI attire régulièrement l ’attention des organes de contrôles tels que l’Inspection générale des affaires sociales, la Cour des comptes ou encore certaines enquêtes parlementaires.

... et des cadres techniques

Le schéma stratégique des systèmes d’information (SSSI) de la Sécurité sociale encadre les grands travaux informatiques. Il est complété par la Convention d’objectifs et de gestion et le schéma directeur des systèmes d’information (SDSI) de la Cnav, qui précisent les objectifs pluriannuels de l’opérateur du SNGI.


* Voir les références juridiques en fin d’article et (Ouvrir dans un nouvel ongletOuvrir dans un nouvel ongletCNIL, 2020).

En parallèle, il devenait essentiel de renforcer la qualité des données qui enrichissent le référentiel national.

La Cnav a constitué en 1988 un service d’experts, appelé , qui assure la certification d’identité des personnes nées hors de France et ayant droit à une prestation sociale. Par ailleurs, l’Insee gérait un autre référentiel des identités : le . Alimenté directement à partir des états civils des mairies, le répertoire national d’identification des personnes physiques est une source très fiable d’information pour les personnes nées en France. C’est donc par intérêt mutuel que la Cnav et l’Insee ont mis en place des échanges informatiques dès les années soixante-dix. À l’occasion de la mise en œuvre du SNGI, l’Insee . Le partage d’information entre la Cnav et l’Insee a commencé par les nouvelles identités (dont les naissances) qui ont enrichi simultanément les deux référentiels. Puis l’échange s’est progressivement étendu à l’ensemble des identités, notamment celles issues des fichiers régionaux de la Cnav, et a ainsi abouti à une synchronisation totale des deux référentiels en 1998. Aujourd’hui les données du SNGI proviennent d’une part du RNIPP géré par l’Insee pour toutes les personnes nées en France et d’autre part du processus de certification géré par le Sandia pour toutes les personnes nées hors de France (voir infra).

Au sein de la sphère sociale, un déploiement progressif et mutuellement profitable

Si au départ le SNGI servait principalement à la gestion des retraites du régime général, les actions mises en œuvre pour garantir la qualité de ses données en ont fait un référentiel fiable, ce qui a permis de lui donner un nouvel essor.

Ainsi, en 1998, lorsque le gouvernement a décidé de déployer les cartes d’assurance maladie (appelées cartes Vitale), il fallait s’assurer que chaque individu éligible recevrait bien une carte et une seule. Un référentiel unique et partagé pour l’ensemble des caisses des différents régimes d’assurance maladie permettait de garantir le rattachement unique d’un individu à l’une de ces caisses. C’est ainsi qu’un nouveau référentiel, le , a été mis en œuvre. Il a été adossé au SNGI pour la gestion des identités des individus qui le composent.

Près d’une décennie plus tard, afin de lutter contre le non-recours aux droits et contre la fraude, le gouvernement a souhaité mettre en place un nouvel outil pour faciliter le partage d’informations entre les organismes de la sécurité sociale. Le répertoire nommé déployé en 2009 est lui aussi adossé au SNGI.

Cette extension de l’usage du SNGI est autant liée à sa qualité qu’elle y contribue. En effet, le partage d’informations issues des organismes partenaires a permis à chaque fois de détecter puis de corriger des anomalies sur certaines identités.

Désormais, le SNGI est incontournable pour la plupart des systèmes d’information de la sphère sociale. Il intervient ainsi dans la mise en œuvre de dispositifs comme la déclaration sociale nominative, le dossier médical partagé ou le calcul des allocations logements.

Il sert également à partager les informations d’identité avec d’autres administrations, par exemple pour le ou le .

SNGI et RNIPP, deux systèmes étroitement liés et complémentaires

Le SNGI et le RNIPP ont en commun de « gérer » l’identité, mais ils ont chacun des objectifs et des usages distincts qui expliquent leur coexistence.

Le RNIPP est alimenté en partie par le SNGI mais surtout par l’ensemble des mairies de France ce qui implique beaucoup de flux en entrée. Le SNGI est alimenté par le RNIPP, par quelques organismes de protection sociale et par le Sandia (figure 1), ce qui est sans commune mesure avec la masse des flux gérés par l’Insee.

Figure 1 - Le SNGI au cœur de la sphère sociale

 


En termes de restitutions, le rapport est inverse : le SNGI est très utilisé en consultation (encadré 3) pour vérifier une identité ou identifier une personne en tenant compte du NIR, alors que le RNIPP n’offre cette fonctionnalité qu’à partir des traits d’identité.

Encadré 3. Le SNGI en chiffres

 


* Il y a environ 2 millions d’identité en plus au SNGI qu’au RNIPP, car le SNGI contient des identités non certifiées qui ne sont pas transmises au RNIPP.

** Le nombre important de consultations vient principalement du flux DSN et RGCU : chaque déclaration mensuelle de chaque salarié nécessite au moins un passage au SNGI. Voir (Humbert-Bottin, 2018) et (Sureau et Merlen, 2021).

Pour la gestion des identités, le RNIPP s’appuie sur les actes de naissance délivrés par les officiers d’état civil des mairies (pour les personnes nées en France) alors que c’est le Sandia qui certifie les identités des personnes nées à l’étranger. Cette différence de gestion, spécifique à la Sécurité sociale, permet de verser des prestations sociales aux personnes qui ne sont pas nées en France.

Selon le lieu de naissance, deux démarches et deux circuits différents

Le SNGI contient des données d’état civil (nom, prénom, date et lieu de naissance, etc.) associées à un identifiant : le numéro d’inscription au répertoire (NIR) plus connu sous l’appellation de « numéro de sécurité sociale ». Le référentiel est alimenté par deux flux principaux de données (figure 2) :

  •  ;
  • un flux provenant du Sandia pour les personnes nées hors de France.

Figure 2 - Deux circuits d’immatriculation pour deux répertoires complémentaires

 


Pour ajouter une nouvelle identité au SNGI, il faut commencer par lui attribuer un NIR (encadré 4). Cette opération s’appelle l’immatriculation.

Encadré 4. Le NIR au cœur du SNGI

Le numéro d’inscription au répertoire est un identifiant unique dont la genèse est bien antérieure au SNGI (Ouvrir dans un nouvel ongletCNIL, 2000). C’est un élément central, associé à chaque identité du SNGI. Il permet entre autres de référencer chaque identité de manière unique, d’indexer les données, de partager facilement avec d’autres systèmes.

Le NIR est constitué de 13 caractères :

 

 
2 57 04 35555 261
        S
code sexe
      AA
 année de
naissance
     MM
  mois de
naissance
     LLLLL
code lieu de
  naissance
        OOO
numéro d’ordre

Chacune des composantes du NIR traduit la complexité de la gestion des identités. Ainsi, le mois de naissance va de 1 à 12 mais peut aussi prendre d’autres valeurs (de 20 à 99) qui indiquent que le mois de naissance de l’individu n’est pas connu (cela peut arriver pour des personnes nées à l’étranger).

Pour une commune de métropole, le code lieu de naissance est composé des deux chiffres du code de département (ou 2A / 2B pour la Corse) puis des 3 chiffres du code de la commune. Pour un pays étranger, le code commence par 99 puis est suivi par le code à 3 chiffres de ce pays.

. Mais pour les autres, l’immatriculation résulte d’une démarche volontaire : elles doivent au préalable avoir effectué une demande, soit pour pouvoir bénéficier d’une prestation sociale (allocation familiale, couverture maladie, etc.), soit pour que leur employeur puisse renseigner la déclaration sociale nominative. La demande d’immatriculation s’effectue auprès d’un organisme de sécurité sociale (caisse primaire d’assurance maladie, caisse d’allocation familiale, etc.). Elle doit être accompagnée de deux pièces justificatives de l’identité (pièce d’état civil et pièce d’identité) qui permettent d’une part de vérifier la cohérence des pièces entre elles et d’autre part d’avoir les données de filiation (nom et prénom des parents). Ces dernières permettent de distinguer des personnes aux identités semblables (mêmes nom, prénom, date et lieu de naissance). Le risque de confusion est d’autant plus grand que pour une naissance à l’étranger, le lieu retenu est le pays et non pas la commune comme pour les naissances en France. La demande d’immatriculation et les pièces justificatives sont enfin transmises par l’organisme de sécurité sociale au Sandia, lequel réalise les contrôles nécessaires à la certification de l’identité.

La suite du processus se fait en deux temps : un numéro provisoire (numéro identifiant d’attente ou NIA) est d’abord attribué à la personne sur la base d’au moins une pièce justificative, puis le numéro définitif (qui peut être le même) est attribué quand l’identité est certifiée par le Sandia.

L’attribution d’un numéro provisoire ou définitif n’ouvre pas en tant que tel des droits aux prestations sociales (l’attribution d’une prestation est gérée à part), mais il permet aux organismes de les verser. À l’inverse, si le processus de certification n’aboutit pas dans un délai de neuf mois (par exemple si la personne ne fournit pas la seconde pièce justificative), alors les organismes de sécurité sociale doivent interrompre le versement des prestations. Dans ce cas, l’identité est conservée au SNGI, pour des besoins de suivi et de traçabilité. De ce fait, le SNGI contient mécaniquement plus d’identités qu’il n’y a de personnes percevant réellement une prestation.

Une mise à jour permanente et largement automatisée

Le SNGI est un référentiel, mais c’est aussi un système d’information dont les fonctionnalités se regroupent dans trois types de service (au sens informatique du terme) : l’alimentation, l’accès aux données et la diffusion des informations pour les partenaires de la sphère sociale.

Pour une bonne alimentation du référentiel, le SNGI s’appuie essentiellement sur des échanges automatisés.

Les échanges quotidiens entre le SNGI et le RNIPP permettent de synchroniser les mises à jour réalisées de part et d’autre. Ainsi le SNGI reçoit les informations sur les personnes nées en France et transmet celles sur les personnes nées hors de France. Certaines spécificités, telles que les identités en cours de certification au SNGI, ne sont toutefois pas incluses dans cette synchronisation.

L’immatriculation et la certification sont deux services phares du SNGI. Ils permettent d’enregistrer les demandes d’immatriculation, d’attribuer un NIR ou un NIA (voir supra), de gérer le processus de certification par le Sandia, d’informer les partenaires du traitement de leur demande.

Un circuit d’alimentation spécifique du SNGI existe pour les Français nés hors de France, via le Service central d’état civil, service du ministère de l’Europe et des Affaires étrangères (basé à Nantes). Cette source de données permet une immatriculation automatique, sans mobiliser le processus de certification de l’identité du Sandia.

Le SNGI gère l’actualisation des informations de décès (date et lieu). Comme pour les naissances, il existe plusieurs circuits en fonction du lieu de décès. Pour une personne décédée en France, le certificat arrive en mairie qui remonte l’information à l’Insee et c’est ensuite le mécanisme de synchronisation avec le RNIPP qui fait le lien avec le SNGI. Pour une personne décédée à l’étranger, c’est le plus souvent un proche de l’assuré qui transmet l’information à l’organisme de sécurité sociale concerné, lequel la transmet ensuite directement au SNGI. Le système mémorise l’information avec un indice de certification permettant de savoir si l’information est déclarative ou fondée sur une pièce justificative. Quand c’est un Français qui décède à l’étranger, l’information peut également parvenir via un circuit allant des ambassades ou des consulats vers les mairies de résidence en France, puis vers le RNIPP. L’enjeu est important, notamment pour le paiement des retraites des personnes résidant à l’étranger. Sans l’information de décès, les régimes de retraite concernés continueraient à verser des pensions à tort. Pour éviter ces situations, le SNGI dispose d’un service d’échange d’informations avec certains pays, selon des conventions signées entre états. Ce dispositif permet d’avoir une information plus fiable. Un dispositif complémentaire de « contrôle d’existence » permet aux organismes d’interroger les bénéficiaires de prestations qui résident à l’étranger pour s’assurer qu’ils sont toujours en vie. .

Le SNGI intègre également des services pour mettre à jour une identité. Une mise à jour est nécessaire soit lorsqu’une identité est mal enregistrée dans le système (il s’agit donc d’une correction), soit lorsque les traits d’identité évoluent. C’est par exemple le cas lors d’une adoption (le nom de famille change), lors de l’ajout ou du changement d’un nom d’usage (mariage, divorce, etc.), lors de l’ajout d’un accent pour les identités accentuées (historiquement, les accents n’étaient pas gérés au SNGI).

Deux modes d’accès aux données : vérification ou identification

Outre les services d’alimentation ou de mise à jour, le système prévoit des fonctionnalités permettant un accès contrôlé aux données. Ces services sont utilisés par les organismes de la sphère sociale soit via des échanges automatisés entre systèmes d’information, soit par des agents de ces organismes. Les assurés (le grand public) ne peuvent pas accéder directement au SNGI. La vérification s’effectue à partir du NIR et du nom de l’individu, et donne alors accès à l’ensemble des autres données d’état civil (prénoms, date et lieu de naissance, information « décès », etc.). Avec cette double clé de consultation, le système vérifie la cohérence des informations avant de fournir les éléments d’identité. Ce contrôle permet à la fois d’éviter de renvoyer une mauvaise identité à la suite d’une erreur de saisie et d’assurer une protection des données personnelles en limitant l’accès aux seules personnes disposant de ces deux informations. Ce service permet ainsi de vérifier que le NIR connu du demandeur est correct et d’obtenir l’identité certifiée par le SNGI.

L’identification permet quant à elle d’effectuer une recherche d’identité. Elle sert notamment lorsque le NIR n’est pas connu ou que les traits d’identité sont incomplets ou inexacts. Cette fonction recherche dans le référentiel les individus ayant les traits d’identité les plus proches (voir infra la description du moteur d’identification). Elle implique donc de contrôler a posteriori que le résultat correspond bien à l’identité recherchée. Pour limiter les risques d’erreur, le SNGI ne renvoie un résultat que s’il est jugé suffisamment proche de la demande et qu’il n’y a pas d’autres identités approchantes. Cette opération est très utilisée dans le traitement des déclarations sociales qui peuvent contenir des fautes de frappe ou des imprécisions (par exemple le salarié donne un prénom qui n’est pas son premier prénom à l’état civil ou un nom d’usage à la place d’un nom de naissance).

Un traitement central : le moteur d’identification

Le service d’identification permet de retrouver une identité à partir d’éléments plus ou moins complets et plus ou moins exacts. Il est au cœur des traitements du SNGI. Il intervient par exemple quand un opérateur saisit une identité au clavier et fait une faute de frappe. Il est très utile pour retrouver une identité parmi plusieurs qui seraient très proches, ou quand le lieu mentionné correspond à un ancien libellé. Il peut rectifier le cas d’une personne qui communiquerait son propre NIR en l’associant à l’identité de son enfant. Ce service s’appuie sur un composant technique essentiel : le moteur d’identification.

Ce « moteur » intègre l’ensemble des règles spécifiques à l’identification d’une personne à partir d’informations de son état civil (par exemple un nom marital communiqué à la place du nom de naissance, une liste incomplète de prénoms, etc). Cela permet de reconnaître au mieux une identité parmi celles connues du SNGI tout en tenant compte des imprécisions ou erreurs possibles dans la demande.

Le moteur intègre un autre ensemble de règles pour ne pas retourner d’identités s’il y a trop de risque d’erreur sur le résultat, soit parce que l’identité trouvée est trop éloignée de la demande, soit parce que trop d’identités pourraient correspondre à la demande (auquel cas il faudra préciser celle-ci).

Le moteur d’identification procède en quatre étapes (figure 3) :

  • tout d’abord il génère des clés de recherche pour chaque élément disponible pour la recherche (nom, prénom, etc.), en s’appuyant notamment sur des règles phonétiques qui permettent de retrouver une identité même lorsqu’elle est mal orthographiée ;
  • puis le moteur sélectionne toutes les identités du SNGI correspondantes aux clés constituées à l’étape précédente. Celles-ci permettent de cibler la recherche et contribuent donc à l’optimisation du traitement ;
  • chaque identité sélectionnée est ensuite évaluée : une note est d’abord attribuée pour chacun des critères renseignés dans la demande. Ces notes sont pondérées en fonction de leur importance pour calculer une note globale associée à chaque identité trouvée. Les résultats sont ainsi classés en fonction de leur pertinence par rapport aux éléments fournis dans la recherche ;
  • enfin, les notations sont étalonnées selon différents seuils pour ne sélectionner que l’identité la plus pertinente ou aucune (s’il n’y a pas de correspondance trouvée ou au contraire s’il en existe plusieurs mais sans possibilité de discerner la bonne).

Figure 3 - Le moteur d’identification en 4 étapes

 


La qualité de l’identification dépend de plusieurs facteurs  : la qualité des données du SNGI, la présence de l’identité recherchée dans le référentiel, la complétude et l’exactitude des éléments fournis dans la recherche. Si une identité est recherchée au SNGI alors qu’elle n’existe pas, le moteur pourrait tout de même renvoyer un résultat approchant. Des contrôles automatiques permettent de limiter ces situations, mais in fine seul un contrôle manuel peut permettre de conclure.

La qualité des données de la demande joue un rôle fondamental. On peut comparer le moteur d’identification à un moteur de recherche internet : plus les critères sont inexacts ou imprécis, plus le risque d’obtenir un résultat non pertinent est élevé.

Les caractéristiques de l’identité recherchée influent aussi fortement : le risque de se tromper est plus important si on recherche une identité très répandue (« Monsieur Dupont né à Paris ») que si on recherche une identité rare (« Monsieur DubateauKiflotte né dans un petit village »).

Dans la DSN, l’employeur renseigne le NIR et l’état civil de ses salariés. Quand l’une des informations est manquante ou inexacte, c’est le moteur d’identification qui permet de retrouver la bonne identité avec les données d’état civil certifiées. Là encore, des contrôles automatiques ou manuels sont lancés si les informations déclarées diffèrent de celles connues du SNGI. Par exemple, un « bilan d’identification des salariés » est transmis à l’employeur, ce qui lui permet, le cas échéant, de réinterroger ceux dont l’identité est mal libellée.

Le service est régulièrement éprouvé pour couvrir certaines situations particulières. Il est par exemple arrivé de devoir identifier des triplées (donc avec même nom, même date et lieu de naissance) ayant des prénoms très proches. L’exemple de l’encadré 5 illustre la complexité de l’exercice. Si un organisme concerné dispose de peu d’éléments, alors le moteur d’identification trouvera plusieurs identités susceptibles de correspondre à ces éléments. L’analyse des divergences par un expert de l’identification permet de sélectionner l’identité la plus vraisemblable pour mener ensuite les actions nécessaires à la certification de l’identité.

Encadré 5. Un exemple (fictif) pour illustrer la complexité de l’identification

 

La diffusion d’information vers les partenaires

Les organismes qui utilisent le SNGI gèrent eux-mêmes une grande quantité d’identités ; ils possèdent leur propre référentiel d’identité : auquel des référentiels « secondaires » sont adossés.

Pour leur éviter de réinterroger en permanence le SNGI, le système offre à ses partenaires un service d’« abonnement » qui les notifie quand un changement survient sur une identité. Comme il s’agit d’informations sensibles, seuls les organismes qui « connaissent » un individu reçoivent les mises à jour le concernant. Pour cela, chaque organisme doit « s’abonner » aux seuls individus qui l’intéressent.

Les notifications concernent tous les types d’actualisation : ajout d’un nom d’usage, d’une information « décès », correction d’une donnée, etc. Certaines mises à jour sont plus délicates, notamment quand elles impactent le NIR de l’individu. C’est par exemple le cas quand on corrige le mois ou l’année de naissance qui font partie intégrante de l’identifiant. Il arrive aussi (rarement) qu’une personne soit connue sous plusieurs NIR au SNGI et, . Ce type de correction d’anomalie implique également des traitements spécifiques au niveau de chaque organisme partenaire, pour revoir les éléments associés à chacune des deux identités fusionnées.

Le SNGI offre également un service de notification spécifique pour le compte personnel de formation (voir supra). Un compte est créé automatiquement par la Caisse des dépôts et consignations pour toute personne âgée de 16 ans ou plus. Le SNGI envoie donc à ce partenaire des notifications automatiques basées sur un critère d’âge et non plus sur un critère d’abonnement individuel.

Le volume d’échanges et le nombre important de partenaires imposent de normaliser les échanges : c’est le rôle de la . Elle offre une grande flexibilité tout en permettant une optimisation des traitements. . Cette norme sert à la fois pour les échanges par fichiers pour les traitements de masse et elle est aussi le socle des échanges par Web Service pour les traitements unitaires.

Pour pouvoir fournir les données, il faut... d’autres données

Pour rendre tous ses services, le SNGI s’appuie sur des informations que l’on peut regrouper en différentes catégories :

  • les données d’identification qui définissent une identité (nom, prénoms, etc.) et l’identifiant, le NIR ; ces données sont elles-mêmes réparties en deux types : celles qui font l’objet d’une et celles qui peuvent compléter l’identité sans pour autant être  ;
  • les données du dossier d’instruction nécessaires à l’immatriculation d’un individu et à la certification de son identité (état du dossier, pièces justificatives, etc.). Elles sont conservées au SNGI, car elles servent de preuves et garantissent la traçabilité des traitements ;
  • les données pour la diffusion, notamment les abonnements des organismes aux notifications sur les identités ;
  • la nomenclature des lieux qui permet d’identifier un lieu de naissance ou de décès ;
  • les données de gestion interne nécessaires au bon fonctionnement du référentiel (historique et suivi des mises à jour, gestion des incohérences, données de paramétrages, données techniques, données pour l’optimisation des traitements d’identification, etc.).

Le SNGI en tant que référentiel des identités ne contient que les données nécessaires à ses services et ne contient pas de données connexes sur un individu telles que son adresse, ses coordonnées de contact, etc.

Alors que l’immatriculation se base sur une connaissance de l’identité à un instant donné, l’identification est d’autant plus performante qu’elle peut rapprocher d’anciennes informations (un ancien nom marital, un ancien nom de commune ou de pays de naissance, un ancien NIR quand celui-ci a été corrigé) avec une identité actuelle. Ainsi, au SNGI, les données sont conservées jusqu’à l’extinction des prestations des ayants droit. Du fait de l’usage possible des données post-mortem notamment pour attribuer une pension de réversion, les données ne sont actuellement pas purgées.

L’indispensable nomenclature des lieux et la question de leur codification

L’identité comprend notamment le lieu de naissance et éventuellement le lieu de décès de l’individu. Pour que tous les partenaires du SNGI utilisent la même manière de décrire ces lieux, il faut pouvoir s’appuyer sur une norme qui fait référence. Par ailleurs, il faut aussi définir des conventions sur son usage. Par exemple, pour une personne née avant 1992 en URSS et qui voudrait se faire immatriculer de nos jours, quel pays de naissance utilisera-t-on ? L’URSS ou l’une des républiques actuelles issues de son éclatement ? Dans ce genre de situation, c’est le nom de lieu valide à la date d’immatriculation qui est utilisé.

Pour gérer les lieux, le SNGI s’appuie sur le code officiel géographique établi par l’Insee. Ce code suit les évolutions de la géographie française et mondiale et tient compte par exemple des changements de nom de pays, de fusion ou d’éclatement de territoire, etc. Il traite aussi les évolutions du type d’un lieu : par exemple pour les anciens départements français qui sont devenus des pays au moment de la décolonisation, ou les fusions de communes, les transformations des collectivités en département (Mayotte), etc.

Ainsi, le SNGI dispose des données permettant de faire le lien entre un ancien lieu et sa correspondance actuelle. Il dispose des noms officiels et des noms « admis » pour les différents lieux. Cela permet de faciliter l’identification en retrouvant un individu soit à partir d’un nom de lieu actuel soit à partir du nom de lieu valide au moment de sa naissance.

Le code officiel géographique permet, au-delà de la normalisation des lieux, de leur associer un identifiant unique qui sert entre autres à la définition du NIR.

L’omniprésence des cas particuliers

Quand on parle de données d’identité, on n’imagine pas tous les cas particuliers que cela peut recouvrir ! Par exemple, le nom de naissance, aussi appelé nom patronymique, répond classiquement à des règles précises notamment sur les caractères admis, sur la présence possible d’espace, d’apostrophe, de tiret ou de signes diacritiques, mais dans la pratique, il peut présenter des spécificités peu connues. Ainsi il existe des individus sans nom, dont l’état civil ne contient qu’un ou plusieurs prénoms. Ce cas particulier (et même rare) a pour conséquence que le nom de naissance n’est pas une donnée obligatoire lorsque l’on recherche une identité au SNGI !

Comme dans tout système informatique, des contrôles ont été spécifiés pour éviter les erreurs de saisie, mais certains ne sont tout simplement pas possibles. Par exemple, on pourrait vouloir contrôler que le nom ne contient pas les termes de civilité « Madame » ou « Monsieur » ; mais comme le SNGI gère des identités étrangères, « Madame » pourrait très bien se dire « Madamé » et être un nom tout à fait valide dans certains pays. Il existe même quelques identités contenant des titres honorifiques comme « Son Altesse Sérénissime »...

, etc. Chaque spécificité nécessite un traitement particulier.

Les enjeux de la qualité des données renforcent les exigences de contrôle

L’usage du SNGI par un nombre croissant de systèmes informatiques de la sphère sociale et son implication dans une grande variété de dispositifs (prélèvement à la source, compte personnel de formation, répertoire électoral unique, FranceConnect, etc.) renforce sensiblement l’exigence sur la qualité des données et des traitements.

Une erreur sur une identité (une mauvaise orthographe par exemple) peut entraîner des conséquences bien plus graves qu’un nom mal écrit sur un courrier. Un individu qui serait victime d’une telle erreur pourrait être confondu avec un autre, être à tort considéré comme mort ou encore voir ses prestations sociales attribuées à un autre. La qualité des données est aussi un élément indispensable à la lutte contre la fraude puisqu’elle permet de limiter les fausses identités et de renforcer les contrôles via un meilleur .

Cet enjeu fort a conduit à concevoir différents mécanismes de contrôle qui portent sur divers aspects du référentiel :

Tout d’abord, les circuits de contrôle et de certification des identités via les mairies, l’Insee, le Sandia et plus largement tous les organismes de la sphère sociale, contribuent par essence à éviter les erreurs sur les données d’état civil. La qualité passe aussi par des contrôles de cohérence en continu sur les flux d’alimentation du SNGI (par exemple, un individu ne peut avoir une date de décès antérieure à sa date de naissance, le code lieu de naissance ou de décès doit correspondre au libellé associé, etc.). D’autres contrôles sur les flux assurent que les mises à jour ne sont effectuées que par des personnes ou organismes habilités. A posteriori, des analyses statistiques et des outils de Data mining permettent de surveiller plus finement la qualité des données (encadré 6). Dans le cadre du , des informations les concernant et deviennent ainsi acteurs du contrôle de la qualité des données. Enfin, à l’occasion de croisements avec les fichiers des organismes partenaires, la détection et la correction des écarts contribuent aussi à l’amélioration continue de la qualité des informations.

Encadré 6. Un exemple d’analyse de la qualité des données

 

Ce contrôle de la qualité a permis de repérer des causes fréquentes d’anomalie sur l’identité. Ainsi, la non-qualité des données est souvent constatée sur des identités « anciennes » : moins contrôlées en amont de leur intégration dans le référentiel, celles-ci sont issues pour beaucoup de saisies manuelles et donc avec un risque d’erreur accru. Le dispositif rencontre aussi parfois des difficultés pour récupérer des informations ou des justificatifs fiables pour corriger les erreurs. C’est notamment le cas lorsque l’assuré est très âgé ou lorsqu’il vient d’un pays instable ou ne disposant pas d’un registre d’état civil fiable. Les personnes qui viennent provisoirement travailler en France et qui quittent le territoire avant que leur identité ne soit certifiée posent encore un autre type de difficulté.

Dans ce contexte, il est nécessaire d’assurer une surveillance et un suivi permanent de la qualité des données du SNGI. Cette activité qui vient compléter les contrôles automatisés est aussi appelée « administration du référentiel ».

Ce rôle majeur dans les démarches de qualité est assuré par de nombreux acteurs : l’Insee et le Sandia qui surveillent les flux d’immatriculations, mais également les équipes informatiques de la Cnav qui surveillent tous les flux entrants ou sortants du SNGI et qui réalisent, via des outils dédiés, des analyses statistiques des données.

Comme les contrôles en entrée du dispositif, les analyses a posteriori sont régulièrement confrontées à la diversité même des états civils dans la population. On pourrait par exemple vouloir détecter des erreurs de code sexe en s’appuyant sur le prénom d’une personne. Mais un prénom considéré comme féminin en France peut être utilisé également au masculin pour une identité étrangère : par exemple « Rose » qui est parfois utilisé avec la prononciation « Rosé ».

Différents systèmes pour différents usages : une explication s’impose

On l’a vu à plusieurs reprises : le SNGI n’est pas le seul référentiel qui traite de l’identité et chaque système a ses spécificités et des objectifs qui lui sont propres. Il faut faire preuve d’une certaine expertise pour bien comprendre les nuances et être prudent quant à l’interprétation des statistiques issues de ces systèmes.

On peut par exemple constater des écarts de plusieurs millions d’individus entre le nombre de cartes Vitale émises (58 millions de cartes actives comptabilisées fin 2019), la population recensée en France par l’Insee (67,8 millions au 1er janvier 2022) et la population connue du SNGI (115 millions d’identités fin 2020, dont 86 millions « présumés vivants »). Si ces écarts peuvent paraître a priori étonnants, ils s’expliquent simplement et ne sont pas le reflet de dysfonctionnements : le recensement de l’Insee compte le nombre de personnes résidant en France, alors qu’une carte Vitale peut être attribuée à une personne qui a ensuite quitté le pays. Pour le SNGI, comme expliqué précédemment, la présence d’une identité même sans information de décès ne signifie pas que la personne est toujours vivante, ni qu’elle vit en France ou qu’elle bénéficie d’une prestation sociale.

Une autre source de confusion fréquente concerne la nationalité : le SNGI détient des informations sur le lieu de naissance, ce qui n’est pas nécessairement la même chose que la nationalité.

Ces exemples illustrent l’importance de comprendre le rôle de chaque référentiel, de leurs données et de leur positionnement vis-à-vis d’autres sources de données pour les comparer de manière pertinente.

Les perspectives sur une extension du SNGI sont nombreuses. Tout d’abord pour l’intégrer directement ou indirectement dans les chaînes de traitements de plus en plus d’organismes de la sphère sociale ou pour d’autres partenaires comme les collectivités territoriales. De nouveaux usages et services se profilent également notamment pour fiabiliser les données, améliorer la lutte contre la fraude, et peut-être envisager des extensions au niveau européen.

Fondements juridiques

La déclaration sociale nominative (DSN) est réalisée chaque mois par tous les employeurs. Elle est centralisée puis diffusée aux organismes de protection sociale et sert à calculer le droit aux différentes prestations (assurance maladie, retraite, etc.). Voir (Humbert-Bottin, 2018).

Les CRAM (caisses régionales d’assurance maladie), devenues au 1er juillet 2010 Carsat (caisses d’assurance retraite et de la santé au travail).

Le service administratif national d’identification des assurés (Sandia) est un service de la Cnav dont les équipes sont basées à Tours.

Le répertoire national d’identification des personnes physiques (RNIPP). Voir l’article de Lionel Espinasse et Valérie Roux dans ce même numéro.

La délégation est en vigueur depuis la signature d’un protocole le 25 juin 1987. Elle est régie par une convention cadre régulièrement mise à jour. La délégation concerne toutes les personnes nées à l’étranger, qu’elles soient françaises ou pas, et les personnes nées dans certaines collectivités territoriales (Nouvelle-Calédonie, etc.).

Le répertoire national inter-régime de l’assurance maladie (RNIAM) contient pour chaque individu, le régime et la caisse d’assurance maladie à laquelle il est rattaché. Il sert au dispositif de délivrance des cartes Vitale. (Ouvrir dans un nouvel ongletCNIL, 2009).

Le répertoire national commun de la protection sociale (RNCPS) contient les rattachements d’un individu à chaque organisme de protection sociale qui lui attribue une prestation ; il permet d’avoir les informations sur ces prestations perçues et les adresses déclarées pour les percevoir.

Le compte personnel de formation est un dispositif de financement de la formation continue ; il est géré par la Caisse des dépôts et consignations (CDC) (Ouvrir dans un nouvel ongletDGEFP, 2022).

Le prélèvement à la source concerne les salaires mais aussi d’autres sources de revenus dont les prestations sociales imposables. Le SNGI participe à cette partie du dispositif appelée PASRAU (prélèvement à la source des revenus autres).

Et ce, quelle que soit la nationalité de ces personnes. Plus précisément, le flux concerne les personnes nées en métropole, dans les départements d’outre-mer, et dans quelques collectivités territoriales (Saint-Pierre et Miquelon, Saint-Martin, Saint-Barthélémy et la Polynésie Française). Le flux « Sandia » est le complément à ce flux.

Dans la sphère sociale, on parle de personnes « présumées » vivantes puisque l’absence d’information sur le décès ne signifie pas toujours que la personne est en vie. Dans les statistiques tirées du SNGI, on considère en général qu’un individu est présumé vivant quand il n’y a pas d’information sur un décès et que l’âge est inférieur à 110 ans.

Sur ces notions, voir l’article de Pascal Rivière dans ce même numéro.

Il y a environ 10 000 recompositions de NIR par an et autant de fusions d’identités.

Cette norme décrit différents types de messages : les messages « Aller » pour interroger le SNGI, les messages « Retour » pour obtenir la réponse du SNGI, et les messages « Notifications » qui sont émis par le SNGI.

On retrouve ainsi dans la norme A, une structuration par blocs, sous blocs et données, la notion d’élément obligatoire ou facultatif, des mécanismes de contrôles de conformité, etc.

Les informations d’état civil « certifiables » sont : le nom patronymique et la liste des prénoms, la date et le lieu de naissance, les données de filiation (nom et prénoms des parents), la date et le lieu de décès (certifiés par l’Insee).

Les informations « non certifiables » sont par exemple les date et lieu de décès reportés par un partenaire de la sphère sociale ou les identités secondaires (noms maritaux, noms d’usage).

Voir l’article de Lionel Espinasse et Valérie Roux dans ce même numéro.

Le croisement d’informations entre organismes de la sphère sociale est autorisé et encadré par les différents textes juridiques qui régissent les systèmes d’information concernés.

Règlement général sur la protection des données, voir les fondements juridiques en fin d’article.

En revanche ils ne peuvent pas demander la suppression des informations les concernant, car ils ne peuvent pas exercer de droit d’opposition au traitement.

Pour en savoir plus

CNAV, 2021. Ouvrir dans un nouvel ongletL’Assurance retraite - Missions et chiffres clés 2020. [en ligne]. Édition juillet 2021. [Consulté le 17 mai 2022].

CNIL, 2000. Ouvrir dans un nouvel ongletLe NIR, un numéro pas comme les autres. In : 20e rapport d’activité 1999. [en ligne]. Édition 2000. La Documentation française. Chapitre 2, pp. 61-98. [Consulté le 17 mai 2022].

CNIL, 2009. Ouvrir dans un nouvel ongletRNIAM : Répertoire national interrégimes des bénéficiaires de l’assurance maladie. In : site de la CNIL. [en ligne]. 22 juin 2009. [Consulté le 17 mai 2022].

CNIL, 2020. Ouvrir dans un nouvel ongletTout savoir sur le décret « cadre NIR » dans le champ de la protection sociale. In : site de la CNIL. [en ligne]. 14 mai 2020. Commission nationale de l’Informatique et des Libertés. [Consulté le 17 mai 2022].

DGEFP, 2022. Ouvrir dans un nouvel ongletMon compte formation. [en ligne]. Délégation Générale à l’Emploi et à la Formation Professionnelle du Ministère du Travail, de l’emploi, de la formation professionnelle et du dialogue social. [Consulté le 17 mai 2022].

HUMBERT-BOTTIN, Élisabeth, 2018. La déclaration sociale nominative. Nouvelle référence pour les échanges de données sociales des entreprises vers les administrations. In : Courrier des statistiques. [en ligne]. 6 décembre 2018. Insee. n° N1, pp. 25-34. [Consulté le 17 mai 2022].

SUREAU, Christian et MERLEN, Richard, 2021. Le Répertoire de gestion des carrières unique (RGCU). Un nouveau référentiel ouvrant des perspectives pour l’analyse sociale. In : Courrier des statistiques. [en ligne]. 8 juillet 2021. Insee. n° N6, pp. 64-81. [Consulté le 17 mai 2022].