Nouvelles approches pour coder dans une nomenclature : machine learning et autocomplétion Séminaire de Méthodologie statistique du Département des Méthodes statistiques du 14 janvier 2020

L'Insee et la statistique publique
Dernière mise à jour le : 20/04/2021

Que ce soit l'activité d'une entreprise ou d'une association, la PCS, la famille professionnelle d'un métier, la catégorie d'un produit de la grande distribution, les codes géographiques, en tant que statisticiens officiels nous sommes souvent amenés à classer nos objets d'intérêt dans les rubriques de nomenclature. Ces rubriques sont utilisées ensuite dans nos productions et analyses statistiques. L'objet de ce séminaire est de témoigner d'expériences pratiques récentes mobilisant des outils d'analyse textuelle et d'apprentissage statistique supervisé pour réaliser ces tâches de classification. Comment déterminer l'activité d'une association à partir de 10 lignes de texte la définissant dans le répertoire national des associations ? Comment déterminer la catégorie d'un produit alimentaire à partir du libellé du ticket de caisse ?... Une démarche complémentaire consiste à adapter le mode de collecte de l'information pour améliorer directement le codage dans la nomenclature d'intérêt. C'est l'approche pronée dans la rénovation des PCS et bientôt mise en œuvre dans la nouvelle enquête emploi, à partir de l'autocomplétion du libellé d'emploi. Enfin, quelles expériences nos homologues de Statistique Canada peuvent-t ils partager avec nous sur ces questions/démarches ?

  Florian Lécrivain, Division Enquêtes thématiques et études transversales, DSE, Insee

  Jérémy L’hour, SSP Lab, DMCSI, Insee

  Olivier Chardon, Division Emploi, DSDS, Insee

  Alexis Eidelman et Claire de Maricourt, Département Analyse des métiers et emploi des travailleurs handicapés, Dares

  Yanick Beaucage et Sevgui Erman, Division de la Science des données, Statistique Canada