IA : du mythe à la réalité

Romain Lesur
Responsable du SSP Lab

2023-07-05

Une brève histoire de l’IA

La période 1950-1970

  • Souvent appelée l’âge d’or de l’IA
  • Un foisonnement d’idées et d’espoirs
    • reconnaissance de l’écriture
    • traduction
  • Les fondements de l’IA ont été inventés à cette époque (réseaux de neurones)
  • Mais puissance de calcul très limitée
  • Résultats décevants, coupe des budgets en 1974
  • De 1974 à 1980 : le premier hiver de l’IA

La période 1980-1987

  • Systèmes experts
  • IA symbolique : moteurs de règles
  • De puissantes machines dépassées par les ordinateurs individuels à la fin des années 80
  • A l’Insee :
  • Un second (deuxième ?) hiver de l’IA

A partir de 1993

  • De nouveaux supercalculateurs
  • Deep Blue (IBM) bat Kasparov en 1997
  • La loi de Moore : postulat d’un doublement tous les 2 ans du nombre de transistors présents sur un microprocesseur
  • Essor du machine learning
  • 2015 : modèles de diffusion
  • 2017 : transformers, une architecture spécifique fondés sur le mécanisme d’attention
  • Depuis 2018 : BERT, GPT2/3
  • 2022-2023 : IA génératives grand public (DALL-E, ChatGPT, Midjourney…)

Et maintenant ?

  • IA génératives : un buzz énorme
  • Des IA généralistes ?
  • Des modèles de plus en plus gourmands, l’entraînement des LLM notamment
    • Falcon-40B : 2000 GPU A100 pendant 2 mois
    • GPT-3 : 175 milliards de paramètres (~$ 4,6M)
  • Fee-shot et zero-shot à partir de modèles pré-entrainés

La trajectoire est-elle soutenable ?

  • Effet rebond
  • Quel avenir ? des modèles de plus en plus gros ? ou de plus en plus efficients ?
  • Quels humains sont en charge d’annoter les données pour ces modèles ?
    Le Turc mécanique, Sama
  • A l’Insee, 85% de l’empreinte environnementale du SI est lié à la fabrication du matériel

Et à l’Insee ?

  • Remplacement de SICORE (IA simples) :
    • codification de l’APE dans SIRENE
    • codification de la PCS
    • codification en COICOP
  • Test des IA génératives pour l’assistance au passage de SAS à R
  • Modèles de segmentation pour les images satellitaires
  • Une démarche internationale :
    • one stop shop for AI/ML for ESS
    • UNECE Modernstats ML group (ethics)

Contexte

Contexte général

  • Cycle de production de la donnée accéléré
  • Innovations à tous les stades du processus de production de la donnée: traitement, visualisation, modélisation…
  • Méthodes de travail plus agiles

Références

  • Davenport, T. H., & Patil, D. J. (2012). “Data scientist: The Sexiest Job of the 21st Century”. Harvard business review, 90(5), 70-76.
  • Davenport, T. H., & Patil, D. J. (2022). “Is Data Scientist Still the Sexiest Job of the 21st Century? ”.

Contexte général

Les vues d’ensemble de Matt Turck

  • Matt Turck : capital-risqueur (https://mattturck.com/)
  • Initie en 2012 une vue d’ensemble des technologies big data

Recommandation

Si votre veille se limite à une seule lecture par an 😱
Lisez sa vue d’ensemble !

Contexte général

2012

Contexte général

2014

Contexte général

2016

Contexte général

2017

Contexte général

2018

Contexte général

2019

Contexte général

2020

Contexte général

2021

Contexte général

2023

Le cycle de la hype

Les mutations à l’œuvre


Sources d’information

Les opérateurs privés accumulent toujours plus de données

Les sources d’informations ouvertes se multiplient

Les taux de réponse aux enquêtes diminuent

Les mutations à l’œuvre


Technologies

Technologies cloud (conteneurisation) & big data

Stockage objet

Formats de données

WebAssembly (Your browser is the new OS)

Les mutations à l’œuvre


Techniques de data science

Webscraping

Big data

Dataviz/Big data analytics

Intelligence artificielle/Machine learning

Les mutations à l’œuvre


Transparence

Open data

Open source

Ethique en IA

Science ouverte, reproductibilité

Les mutations à l’œuvre


Organisation et missions

Autonomisation des utilisateurs de l’informatique

➡️ possibilité pour les data scientists de mettre en production (DevOps, MLOps)


De producteur de données
à fournisseur de services ?

Les mutations à l’œuvre


L’innovation en continu

De l’expérimentation à la mise en production

  • De statisticien à data scientist
  • Pour créer de la valeur auprès de ses utilisateurs, un projet de data science doit être
    • valorisable => trouver le format de diffusion adapté
    • déployé => transitionner d’un environnement de développement vers un environnement de production

Les mutations à l’œuvre


Dépasser le “mur de la production”

Mur de la production :

  • Absence de bonnes pratiques de développement
  • Différences de langage entre les statisticiens et l’IT
  • Ecart technique entre les environnements d’expérimentation et de production

Le SSP Cloud et Onyxia

Le SSP Cloud

Un Datalab pour l’expérimentation et la formation

  • Créée par la DIIT (Division Innovation et Instruction Technique)
  • Plateforme de datascience dimensionnée pour les usages innovants
  • Des technologies modernes qui favorisent la reproductibilité
  • Lieu de formation et d’expérimentation
  • Ouverte et collaborative

Du libre-service à la mise en production

Créer un compte

  • Aller sur https://datalab.sspcloud.fr puis Connexion et Créer un compte
  • Utiliser une adresse mail d’un domaine autorisé
  • Si besoin, demandez-nous pour rajouter un domaine
  • Seuls les domaines institutionnels sont autorisés (universités, écoles, administrations…)
    domaines gmail.com, yahoo.fr… non admis

Se connecter

Trouver de l’aide

Documentation : https://docs.sspcloud.fr/

Lancer un service de data science

https://docs.sspcloud.fr/onyxia-guide/premiere-utilisation

  • Chaque service possède un README, lisez-le
  • Chaque service est protégé par un mot de passe, copiez-le
  • Les services sont éphémères
    Utilisez git (avec github ou gitlab) pour sauvegarder vos notebooks et codes
    Utilisez MinIO pour sauvegarder vos données
    sinon vous pourriez perdre votre travail

Utiliser git

https://docs.sspcloud.fr/onyxia-guide/controle-de-version

  • Obligatoire pour ne pas perdre de travail (notebooks et codes)
  • Indispensable pour collaborer
  • Compatible avec la forge de votre choix (GitHub, GitLab…)

Utiliser le stockage objet MinIO

https://docs.sspcloud.fr/onyxia-guide/stockage-de-donnees

  • pour déposer ses données
  • chaque utilisateur a un bucket personnel
  • possibilité de rendre des données publiques
  • interaction avec mc, python (Boto3 ou S3Fs) ou R (aws.s3)

De la formation

  • Innover sur les modes de formation
    • Vers de l’auto-formation tutorée

Le projet Onyxia

  • Un projet open-source pour déployer des plateformes de datascience modernes
  • Bientôt des instances de production internes à l’Insee !

L’open-source à l’Insee

  • Pourquoi ouvrir ses codes ?
    • Auditabilité des agents publics
    • Meilleur qualité du code et reproductibilité des résultats
    • Une vitrine pour l’auteur.e et pour l’Insee

Moralité

  • Voir l’informatique comme moyen d’autonomisation plutôt qu’une contrainte
  • Vous arrivez dans un contexte de modernisation
    • Saisissez-vous des outils innovants !

MLOps : Déployer en production et maintenir des modèles de machine learning

MLOps : pourquoi ?

MLOps : pourquoi ?

MLOps : pourquoi ?

Le MLOps est un ensemble de pratiques combinant le machine learning, le DevOps et le Data Engineering, qui vise à déployer et maintenir des modèles de machine learning en production de manière fiable et efficace (Breuel 2020)

MLOps : pourquoi ?

Le MLOps est un ensemble de pratiques combinant le machine learning, le DevOps et le Data Engineering, qui vise à déployer et maintenir des modèles de machine learning en production de manière fiable et efficace (Breuel 2020)

Qu’est-ce que le machine learning ?

Qu’est-ce que le machine learning ?

source : xkcd

Spécificités du machine learning

Spécificités du machine learning

source : Interpretable ML

Spécificités du machine learning

source : Interpretable ML

Les modèles de machine learning sont souvent non déterministes (probabilistes) (Steidl, Felderer, et Ramler 2023)

Spécificités du machine learning

source : Interpretable ML

Problème : les données rencontrées en production peuvent différer des données d’entrainement (data drift)

Spécificités du machine learning

source : Interpretable ML

Problème : les données rencontrées en production peuvent différer des données d’entrainement (data drift)

Solution : ré-entrainer le modèle et le redéployer en production

Caractéristiques du MLOps

  • Entrainement des modèles :
    • de nombreux essais nécessaires
    • chaque essai est coûteux
  • Une fois déployé :
    • Quel est le modèle qui est en production ?
    • Quelles sont ses caractéristiques ?

Traquer les expérimentations et les métadonnées du modèle dans un model store

Caractéristiques du MLOps

  • Besoin de surveiller ce qui se passe en production : observabilité
  • Besoin d’itérer efficacement pour maintenir le système en état
  • Inférence nécessite parfois d’être optimisée

Des collaborations à établir

Des collaborations à établir

Des collaborations à établir

Une évolution du DevOps

source : Kreuzberger, Kühl, et Hirschl (2022), figure 3

Pour en savoir plus

Asay, Matt. 2017. « 85% of big data projects fail, but your developers can help yours succeed ». TechRepublic. https://www.techrepublic.com/article/85-of-big-data-projects-fail-but-your-developers-can-help-yours-succeed/.
Breuel, Cristiano. 2020. « ML Ops: Machine Learning as an Engineering Discipline ». Medium. https://towardsdatascience.com/ml-ops-machine-learning-as-an-engineering-discipline-b86ca4874a3f.
Google. s. d. « MLOps: Continuous delivery and automation pipelines in machine learning ». Google Cloud. Consulté le 1 mai 2023. https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning.
Kreuzberger, Dominik, Niklas Kühl, et Sebastian Hirschl. 2022. « Machine Learning Operations (MLOps): Overview, Definition, and Architecture ». https://doi.org/10.48550/ARXIV.2205.02302.
Lorigny, Jacques. 1988. « QUID, une méthode générale de chiffrement automatique ». Techniques d’enquête 14 (2): 307‑16. https://www150.statcan.gc.ca/n1/fr/pub/12-001-x/1988002/article/14587-fra.pdf.
Meyer, Eric, et Pascal Rivière. 1997. « SICORE, un outil et une méthode pour le chiffrement automatique à IINSEE ». In Actes de la 4ème Conférence Internationale des Utilisateurs de Blaise, 280‑93. Paris, France. http://www.blaiseusers.org/1997/papers/meyer97.pdf.
Rivière, Pascal. 1995. « SICORE, un outil et une méthode pour le chiffrement automatique à l’INSEE ». Courrier des statistiques, nᵒ 74 (août): 65‑69. https://www.nomenclature-pcs.fr/uploads/documents/L8_Article_Riviere.pdf.
Steidl, Monika, Michael Felderer, et Rudolf Ramler. 2023. « The pipeline for the continuous development of artificial intelligence models—Current state of research and practice ». Journal of Systems and Software 199: 111615. https://doi.org/10.1016/j.jss.2023.111615.