L’apport des technologies cloud pour industrialiser le processus d’innovation statistique
Le développement des méthodes de data science présente une opportunité importante pour la statistique publique. Elles permettent de traiter des sources de données non conventionnelles, que ce soit du fait de leur volumétrie ou de leur structure, et donc de produire de l'information statistique nouvelle et/ou à des résolutions spatiales et temporelles beaucoup plus fines. De même, les méthodes d'apprentissage statistique s'intègrent comme des outils supplémentaires dans la palette des statisticiens publics, leur permettant à la fois d'appréhender des domaines classiques de la statistique sous un jour nouveau — comme la codification automatique ou l'imputation de données manquantes — et de tirer parti de sources jusqu'ici peu utilisées — par exemple, l'exploitation des données satellites grâce à des modèles d'apprentissage profond.
L'intégration de ces nouveaux objets dans un processus de production statistique pose des défis qui se situent au confluent de la méthodologie statistique et de la technique informatique. Sur le plan méthodologique, de nombreux travaux réalisés aussi bien au sein du SSP que dans le cadre de projets européens ont exploré les opportunités et les implications de ces nouveaux objets pour la statistique publique. En revanche, la dimension informatique de leur exploitation a été peu documentée.
Ce document de travail vise à montrer l'opportunité des technologies cloud pour favoriser l'innovation dans la production statistique. Nous montrons en particulier comment certaines technologies centrales de cet écosystème — la conteneurisation et le stockage objet — permettent de mettre à disposition des environnements qui favorisent à la fois l’autonomie, le passage à l'échelle et la reproductibilité des traitements. Nous détaillons comment le projet Onyxia, développé à l'Insee, permet aux statisticiens de s'approprier ces technologies à travers une interface simple d'utilisation et un catalogue de services de data science prêts à l’emploi. Enfin, nous illustrons l'intérêt pratique de ces technologies en montrant comment elles ont permis d'industrialiser le processus de codification automatique des domaines d'activité des entreprises françaises en facilitant la mise en production d'un modèle de machine learning selon les principes du MLOps.