Place du machine learning dans les processus de production statistique

Romain Lesur
Responsable du SSP Lab

2023-11-16

Plan

  • Vue d’ensemble
  • MLOps : Déployer en production et maintenir des modèles de machine learning

Vue d’ensemble

Les différents types de données

Les données structurées

  • elles ont un schéma et s’appuient sur des référentiels
  • le plus souvent au format “rectangulaire” (CSV, Parquet, BDD-R…)
  • mais qui peuvent être sérialisées différemment (XML, JSON…)
  • notre principal patrimoine

Les différents types de données

Les données structurées

Les données non structurées

  • texte (documents…)
  • image (satellites…)
  • son
  • vidéo
  • traces…

Les différents types de données

Les données structurées

Les données non structurées

Les données semi-structurées

  • exemple : un schéma mais certaines variables n’ont pas de référentiel
    (champ textuel libre…)

Les différents types de données

Les données structurées

Les données non structurées

Les données semi-structurées

Le machine learning peut s’appliquer à l’ensemble de ces données

Les différentes disciplines

Les différentes disciplines

L’écosystème machine learning/deep learning est en Python

Les différentes disciplines

L’écosystème machine learning/deep learning est en Python

Big data et deep learning ont besoin d’infrastructures spécifiques

Machine learning et production statistique

source : Beck, Dumpert, et Feuerhake (2018)

Quelques exemples

  • Exploitation d’images satellitaires
  • Extraction d’information dans des textes
  • Imputation du code APE pour les associations du RNA
  • Codification automatique de textes courts
    • NAF (Sirene…) NA2008 aujourd’hui et NAF2025 en préparation
    • PCS (RP, TCEM…) cf. campagne d’annotation de 2021
    • COICOP (données de caisse)
  • Détection d’anomalies pour data editing (ICA)
  • Etudes/Modélisation (estimation du patrimoine immobilier des ménages au prix de marché)
  • Moteurs de recherche sémantique …

Intérêt du machine learning
Prendre en compte du mieux possible les non linéarités

Limite
“Boîte noire” : défaut d’explicabilité, mais en progrès (LIME, SHAP…)

Plusieurs schémas organisationnels

  • Spécificités de l’Insee
    • La compétence data science est une compétence “métier”
      dans la plupart des administrations, les data scientists sont dans la direction numérique
    • Les environnements métiers et informatique sont séparés (le “self”)
  • Deux cas de figure
    • Le machine learning est mobilisé en self (ex : aval d’enquêtes) : 1 seul acteur
    • Le machine learning est mobilisé dans un projet : 3 acteurs

La suite de la présentation va se concentrer sur le cas, plus complexe, des projets

MLOps : Déployer en production et maintenir des modèles de machine learning

MLOps : pourquoi ?

MLOps : pourquoi ?

MLOps : pourquoi ?

Les data scientists ne connaissent pas le développement applicatif (mais en cours d’évolution)

Les Devs et les Ops ne connaissent pas le machine learning

Le mur de la confusion

MLOps : définition

Le MLOps est un ensemble de pratiques combinant le machine learning, le DevOps et le Data Engineering, qui vise à déployer et maintenir des modèles de machine learning en production de manière fiable et efficace (Breuel 2020)

Qu’est-ce que le machine learning ?

Qu’est-ce que le machine learning ?

source : xkcd

Spécificités du machine learning

Spécificités du machine learning

source : Interpretable ML

Spécificités du machine learning

source : Interpretable ML

Les modèles de machine learning sont souvent non déterministes (probabilistes) (Steidl, Felderer, et Ramler 2023)

Exemple : codification de l’APE dans Sirene

Activité

Utilisation de variables annexes en production

Spécificités du machine learning

source : Interpretable ML

Problème : les données rencontrées en production peuvent différer des données d’entrainement (data drift). Le modèle de ML est le composant applicatif qui devient le plus rapidement legacy.

Exemple sur classifieur APE Sirene

Spécificités du machine learning

source : Interpretable ML

Problème : les données rencontrées en production peuvent différer des données d’entrainement (data drift). Le modèle de ML est le composant applicatif qui devient le plus rapidement legacy.

Spécificités du machine learning

source : Interpretable ML

Problème : les données rencontrées en production peuvent différer des données d’entrainement (data drift). Le modèle de ML est le composant applicatif qui devient le plus rapidement legacy.

Solution :

  • ré-annoter humainement des données (ML supervisé)
  • ré-entrainer le modèle
  • redéployer en production

Caractéristiques du MLOps

  • Entrainement des modèles :
    • de nombreux essais nécessaires
    • chaque essai est coûteux
  • Une fois déployé :
    • Quel est le modèle qui est en production ?
    • Quelles sont ses caractéristiques ?

Traquer les expérimentations et les métadonnées du modèle dans un model store

Caractéristiques du MLOps

  • Besoin de surveiller ce qui se passe en production : observabilité (Samiullah 2020)
  • Besoin d’itérer efficacement pour maintenir le système en état
    Avoir de nouvelles données d’entrainement
  • Inférence nécessite parfois d’être optimisée

Des collaborations à établir

Des collaborations à établir

Des collaborations à établir

Accompagnement interne

  • Aujourd’hui, les projets concernés sont
    • Sirene (classifieur APE)
    • RP, enquête ménages (classifieur PCS)
  • Ces projets sont accompagnés par le SSP Lab et la DIIT
  • Une formation élaborée par la DMCSI et la DSI (en voie de finalisation)
  • Un groupe méthodologique sur la codification, voir ici
  • Le centre de ressources européen en IA/ML pour la statistique publique

Une évolution du DevOps

source : Kreuzberger, Kühl, et Hirschl (2022), figure 3

Pour en savoir plus

Asay, Matt. 2017. « 85% of big data projects fail, but your developers can help yours succeed ». TechRepublic. https://www.techrepublic.com/article/85-of-big-data-projects-fail-but-your-developers-can-help-yours-succeed/.
Beck, Martin, Florian Dumpert, et Joerg Feuerhake. 2018. « Machine Learning in Official Statistics ». https://doi.org/10.48550/ARXIV.1812.10422.
Breuel, Cristiano. 2020. « ML Ops: Machine Learning as an Engineering Discipline ». Medium. https://towardsdatascience.com/ml-ops-machine-learning-as-an-engineering-discipline-b86ca4874a3f.
Google. s. d. « MLOps: Continuous delivery and automation pipelines in machine learning ». Google Cloud. Consulté le 1 mai 2023. https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning.
Kreuzberger, Dominik, Niklas Kühl, et Sebastian Hirschl. 2022. « Machine Learning Operations (MLOps): Overview, Definition, and Architecture ». https://doi.org/10.48550/ARXIV.2205.02302.
Samiullah, Christopher. 2020. « Monitoring Machine Learning Models in Production ». christophergs.com. https://christophergs.com/machine%20learning/2020/03/14/how-to-monitor-machine-learning-models/.
Steidl, Monika, Michael Felderer, et Rudolf Ramler. 2023. « The pipeline for the continuous development of artificial intelligence models—Current state of research and practice ». Journal of Systems and Software 199: 111615. https://doi.org/10.1016/j.jss.2023.111615.