Retour sur le Hackathon #OpenSirene des utilisations prometteuses de la base Sirene

L'Insee et la statistique publique
Dernière mise à jour le : 09/01/2017

Le 15 novembre 2016, l'Insee a organisé en collaboration avec Ouvrir dans un nouvel ongletEtalab, le hackathon #OpenSirene au SenseSpace à Paris.

La diffusion de la base Sirene sera libre et gratuite au 1er janvier 2017, conformément à la loi pour une République numérique.

Dans cette perspective, les 80 participants, spécialistes de la donnée, programmeurs, acteurs de l'information d'entreprises, mais aussi représentants de différentes administrations étaient invités à travailler en petits groupes autour de projets innovants, valorisant les données Sirene. Ils se sont engagés à ne pas rediffuser ces données, ni à en faire une utilisation commerciale, avant l’ouverture effective de la base en open data.

L'Insee était également intéressé à obtenir un retour d'utilisateurs sur les fichiers mis à disposition pendant cette journée, afin d'affiner l'offre de diffusion Sirene au 1er janvier 2017.

Deux grandes familles de réutilisations ressortent des 10 projets proposés par les participants

Structuration de l'information sur les entreprises et les établissements

Avec ses informations d'identification et de natures économique et juridique sur 9 millions d'entreprises et 10 millions d'établissements, la base Sirene ouvre un champ très important d'agrégations avec des bases de données tierces. Ainsi, parmi les projets présentés figurent :

  • Un annuaire multisource des données sur les entreprises : un groupe a réalisé un prototype fonctionnel d'annuaire des entreprises agrégeant autour des données Sirene celles d'autres bases de données en open data (marques, brevets, annonces légales…) et offrant des facilités de recherche avec filtres.
  • Un annuaire de l'administration enrichi : un autre groupe s'est attaché à rapprocher les données Sirene et celles de l'annuaire de l'administration de la DILA (Direction de l'Information Légale et Administrative). Les différences de champ et les difficultés d'identification des unités rendent l'exercice difficile. Un mécanisme de remontée automatique par API dans Sirene, des mises à jour de l'annuaire de la Dila a été imaginé. Ces travaux sont disponibles sur Ouvrir dans un nouvel onglet GitHub.
  • Des comparaisons avec les données de géolocalisation de la base d'OpenStreetMap : une équipe a identifié les différences de localisation des entreprises entre Sirene et la base libre d'OpenStreetMap dans certains secteurs d'activité pour proposer des corrections. La base Sirene avait été géolocalisée préalablement par Etalab à partir de la Base Adresse Nationale.
  • WikiData : le groupe a observé que seules 4000 entreprises françaises étaient présentes sur Wikidata, d'où un potentiel d'enrichissement limité.

Usages des données Sirene au service de problématiques d'intérêt général

En permettant notamment de localiser les établissements par activité, la base Sirene offre, en association avec d'autres données, des perspectives multiples d'applications interactives et d'études faisant appel à l'implantation territoriale des entreprises.

  • Stratégies locales de développement économique : en croisant Sirene avec d'autres données, un groupe a éclairé la dynamique de création d'entreprise et mis en regard l'offre et la demande d'emplois sur des territoires.
  • Aide à la recherche d'emploi : en utilisant les codes APE des entreprises et de nombreuses données disponibles sur la formation et l'emploi, le projet « Boost Emploi » visait à créer une application d'aide à la recherche d'emploi et à la formation de reconversion pour les chômeurs.
  • Gestion des calamités agricoles : une équipe du ministère de l'Agriculture a présenté une application cartographique de géolocalisation des exploitations potentiellement touchées par une calamité. Les données Sirene couplées à d'autres sur la fragilité des entreprises (redressements judiciaires passés, autres sinistres...) permettraient d'orienter prioritairement le dispositif d'indemnisation vers ceux dont la situation est la plus critique.
  • Connaissance du tissu industriel tout en s'amusant : un groupe a conçu un jeu de cartes à partir de Sirene. Le principe ? des joueurs dans des villes différentes s'affrontent dans des challenges impliquant la connaissance des principales variables Sirene et des entreprises et commerces de leur ville.

Les enjeux de l'ouverture en open data de la base Sirene

Au travers de ces différents projets, proposés dans un temps très court, ce hackathon a donc permis de mettre en avant quelques-unes des potentialités de l'ouverture en open data de la base Sirene. Ce que n'ont pas manqué de souligner les intervenants qui ont conclu la journée.

La directrice d’Etalab, Laure Lucchesi, a insisté sur le potentiel économique de l’ouverture de la base, sans égale dans le monde.

Après avoir félicité les participants pour la qualité de leurs travaux, Jean-Luc Tavernier, directeur général de l'Insee, s'est réjoui de voir comment de nouveaux acteurs s'étaient approprié si rapidement la base Sirene. Il a souligné que la porte de l’Insee est grande ouverte aux réutilisateurs de données. Tout en rappelant la stratégie de diffusion résolument open data de l’Insee, il a précisé que la mise à disposition gratuite des données Sirene était préparée en veillant au maintien d'un haut niveau de qualité. La base faisant l'objet de 10 000 modifications chaque jour, les utilisateurs pourront en effet télécharger des mises à jour à rythme quotidien.

Enfin, Axelle Lemaire, secrétaire d’Etat chargée du Numérique et de l’Innovation qui clôturait la rencontre a rappelé les enjeux de l'open data et reconnu dans cet événement un « vrai » hackathon. Elle a salué le rôle de l’Insee comme animateur d’une communauté d’innovateurs de la data.