Les formats de mise à disposition des données

Méthodes
Dernière mise à jour le : 18/10/2024

Les données téléchargeables

Les données disponibles sur le site de l’Insee sont proposées, selon les sources, sous différents formats facilitant leur réutilisation :

  • Le format CSV (valeurs séparées par des virgules) : la majorité des données produites par l’Insee est disponible dans ce format rendant possible la manipulation des données aux travers de nombreux outils ;
  • Le format Open Office XML (XLSX) : les données diffusées sous forme tabulaire sont très généralement proposées dans ce format permettant une utilisation directe dans des outils bureautiques de type tableur ;
  • Le format SDMX (XML) : L'initiative Ouvrir dans un nouvel ongletSDMX établit des normes pour faciliter l'échange de données statistiques et de métadonnées. Plusieurs versions des spécifications techniques ont été publiées depuis 2004. SDMX a également été publié en tant que norme internationale ISO (Ouvrir dans un nouvel ongletISO 17369). Un guide d’utilisation de notre service web SDMX est disponible dans la rubrique consacrée à la diffusion des indices et séries chronologiques.
  • Le format Parquet : ce format open-source permet de solliciter de manière très naturelle la donnée de façon parallélisée, c’est‑à‑dire en la scindant, en la distribuant très rapidement à plusieurs unités de traitement et en la traitant de cette manière en parallèle. Il convient parfaitement à la mise à disposition de données volumineuses. Quelques sources de données, telles que les fichiers détail anonymisés du recensement de la population sont d’ores et déjà mis à disposition dans ce format. L’exploitation « à la volée » des fichiers Parquet mis à disposition sur le site internet de l’Insee n’est pas possible, vous devez télécharger le fichier avant traitement.

Afin d'assurer la continuité de la diffusion, certaines données sont fournies dans des formats plus anciens tels que dBase ou Beyond 20/20.

Données au format RDF

L'Insee publie des données modélisées selon le Ouvrir dans un nouvel ongletstandard RDF du web sémantique. Cette formalisation facilite l'utilisation automatique des données par les applications compatibles. Pour plus d'information sur le web sémantique, on pourra consulter le site du Ouvrir dans un nouvel ongletW3C.

Les données suivantes sont disponibles :

  • Les données géographiques : données issues du Code officiel géographique (COG) concernant les régions, les départements, les arrondissements, les cantons et les communes.
  • Les codes et nomenclatures : nomenclature d'activités française (NAF), nomenclature des professions et catégories professionnelles (PCS).

Toutes les données RDF peuvent être interrogées dynamiquement grâce au langage d'interrogation Ouvrir dans un nouvel ongletSPARQL.

Pour en savoir plus