IA : du mythe à la réalité

Romain Lesur
Responsable du SSP Lab

2023-07-05

Une brève histoire de l’IA

La période 1950-1970

Souvent appelée l’âge d’or de l’IA
Un foisonnement d’idées et d’espoirs
- reconnaissance de l’écriture
- traduction
- …
Les fondements de l’IA ont été inventés à cette époque (réseaux de neurones)
Mais puissance de calcul très limitée
Résultats décevants, coupe des budgets en 1974
De 1974 à 1980 : le premier hiver de l’IA

La période 1980-1987

Systèmes experts
IA symbolique : moteurs de règles
De puissantes machines dépassées par les ordinateurs individuels à la fin des années 80
A l’Insee :
- QUID (Lorigny 1988) créé en 1979 pour la codification automatique, arbre de décision sur base de connaissances
- puis SICORE (Rivière 1995; Meyer et Rivière 1997) créé en 1993
Un second (deuxième ?) hiver de l’IA

A partir de 1993

De nouveaux supercalculateurs
Deep Blue (IBM) bat Kasparov en 1997
La loi de Moore : postulat d’un doublement tous les 2 ans du nombre de transistors présents sur un microprocesseur
Essor du machine learning
2015 : modèles de diffusion
2017 : transformers, une architecture spécifique fondés sur le mécanisme d’attention
Depuis 2018 : BERT, GPT2/3
2022-2023 : IA génératives grand public (DALL-E, ChatGPT, Midjourney…)

Et maintenant ?

IA génératives : un buzz énorme
Des IA généralistes ?
Des modèles de plus en plus gourmands, l’entraînement des LLM notamment
- Falcon-40B : 2000 GPU A100 pendant 2 mois
- GPT-3 : 175 milliards de paramètres (~$ 4,6M)
Fee-shot et zero-shot à partir de modèles pré-entrainés

La trajectoire est-elle soutenable ?

Effet rebond
Quel avenir ? des modèles de plus en plus gros ? ou de plus en plus efficients ?
Quels humains sont en charge d’annoter les données pour ces modèles ?
Le Turc mécanique, Sama
A l’Insee, 85% de l’empreinte environnementale du SI est lié à la fabrication du matériel

Et à l’Insee ?

Remplacement de SICORE (IA simples) :
- codification de l’APE dans SIRENE
- codification de la PCS
- codification en COICOP
Test des IA génératives pour l’assistance au passage de SAS à R
Modèles de segmentation pour les images satellitaires
Une démarche internationale :
- one stop shop for AI/ML for ESS
- UNECE Modernstats ML group (ethics)

Contexte

Contexte général

Cycle de production de la donnée accéléré

Innovations à tous les stades du processus de production de la donnée: traitement, visualisation, modélisation…

Méthodes de travail plus agiles

Références

Davenport, T. H., & Patil, D. J. (2012). “Data scientist: The Sexiest Job of the 21st Century”. Harvard business review, 90(5), 70-76.
Davenport, T. H., & Patil, D. J. (2022). “Is Data Scientist Still the Sexiest Job of the 21st Century? ”.

Contexte général

Les vues d’ensemble de Matt Turck

Matt Turck : capital-risqueur (https://mattturck.com/)
Initie en 2012 une vue d’ensemble des technologies big data

Recommandation

Si votre veille se limite à une seule lecture par an 😱
Lisez sa vue d’ensemble !

Contexte général

2012

Contexte général

2014

Contexte général

2016

Contexte général

2017

Contexte général

2018

Contexte général

2019

Contexte général

2020

Contexte général

2021

Contexte général

2023

Le cycle de la hype

Les mutations à l’œuvre

Sources d’information

Les opérateurs privés accumulent toujours plus de données

Les sources d’informations ouvertes se multiplient

Les taux de réponse aux enquêtes diminuent

Les mutations à l’œuvre

Technologies

Technologies cloud (conteneurisation) & big data

Stockage objet

Formats de données

WebAssembly (Your browser is the new OS)

Les mutations à l’œuvre

Techniques de data science

Webscraping

Big data

Dataviz/Big data analytics

Intelligence artificielle/Machine learning

Les mutations à l’œuvre

Transparence

Open data

Open source

Ethique en IA

Science ouverte, reproductibilité

Les mutations à l’œuvre

Organisation et missions

Autonomisation des utilisateurs de l’informatique

➡️ possibilité pour les data scientists de mettre en production (DevOps, MLOps)

De producteur de données
à fournisseur de services ?

Les mutations à l’œuvre

L’innovation en continu

De l’expérimentation à la mise en production

De statisticien à data scientist
Pour créer de la valeur auprès de ses utilisateurs, un projet de data science doit être
- valorisable => trouver le format de diffusion adapté
- déployé => transitionner d’un environnement de développement vers un environnement de production

Les mutations à l’œuvre

Dépasser le “mur de la production”

Mur de la production :

Absence de bonnes pratiques de développement
Différences de langage entre les statisticiens et l’IT
Ecart technique entre les environnements d’expérimentation et de production

Le SSP Cloud et Onyxia

Le SSP Cloud

Un Datalab pour l’expérimentation et la formation

Créée par la DIIT (Division Innovation et Instruction Technique)

Plateforme de datascience dimensionnée pour les usages innovants

Des technologies modernes qui favorisent la reproductibilité

Lieu de formation et d’expérimentation

Ouverte et collaborative

Uniquement pour des données en open data

Du libre-service à la mise en production

Créer un compte

Aller sur https://datalab.sspcloud.fr puis Connexion et Créer un compte
Utiliser une adresse mail d’un domaine autorisé
Si besoin, demandez-nous pour rajouter un domaine
Seuls les domaines institutionnels sont autorisés (universités, écoles, administrations…)
domaines gmail.com, yahoo.fr… non admis

Se connecter

aller sur https://datalab.sspcloud.fr
cliquer sur Connexion

Trouver de l’aide

Documentation : https://docs.sspcloud.fr/

Lancer un service de data science

https://docs.sspcloud.fr/onyxia-guide/premiere-utilisation

Chaque service possède un README, lisez-le
Chaque service est protégé par un mot de passe, copiez-le
Les services sont éphémères
Utilisez git (avec github ou gitlab) pour sauvegarder vos notebooks et codes
Utilisez MinIO pour sauvegarder vos données
sinon vous pourriez perdre votre travail

Utiliser git

https://docs.sspcloud.fr/onyxia-guide/controle-de-version

Obligatoire pour ne pas perdre de travail (notebooks et codes)
Indispensable pour collaborer
Compatible avec la forge de votre choix (GitHub, GitLab…)

Utiliser le stockage objet MinIO

https://docs.sspcloud.fr/onyxia-guide/stockage-de-donnees

pour déposer ses données
chaque utilisateur a un bucket personnel
possibilité de rendre des données publiques
interaction avec mc, python (Boto3 ou S3Fs) ou R (aws.s3)

De la formation

Le catalogue de formation du SSP Cloud
- Des formations reproductibles
- Un catalogue contributif

Innover sur les modes de formation
- Vers de l’auto-formation tutorée

Le projet Onyxia

Un projet open-source pour déployer des plateformes de datascience modernes

Bientôt des instances de production internes à l’Insee !

L’open-source à l’Insee

Comptes GitHub institutionnels
- InseeFr
- InseeFrLab

Pourquoi ouvrir ses codes ?
- Auditabilité des agents publics
- Meilleur qualité du code et reproductibilité des résultats
- Une vitrine pour l’auteur.e et pour l’Insee

Moralité

Voir l’informatique comme moyen d’autonomisation plutôt qu’une contrainte

Vous arrivez dans un contexte de modernisation
- Saisissez-vous des outils innovants !

MLOps : Déployer en production et maintenir des modèles de machine learning

MLOps : pourquoi ?

Le MLOps est un ensemble de pratiques combinant le machine learning, le DevOps et le Data Engineering, qui vise à déployer et maintenir des modèles de machine learning en production de manière fiable et efficace (Breuel 2020)

MLOps : pourquoi ?

Le MLOps est un ensemble de pratiques combinant le machine learning, le DevOps et le Data Engineering, qui vise à déployer et maintenir des modèles de machine learning en production de manière fiable et efficace (Breuel 2020)

Qu’est-ce que le machine learning ?

source : xkcd

Spécificités du machine learning

source : Interpretable ML

Spécificités du machine learning

source : Interpretable ML

Les modèles de machine learning sont souvent non déterministes (probabilistes) (Steidl, Felderer, et Ramler 2023)

Spécificités du machine learning

source : Interpretable ML

Problème : les données rencontrées en production peuvent différer des données d’entrainement (data drift)

Spécificités du machine learning

source : Interpretable ML

Problème : les données rencontrées en production peuvent différer des données d’entrainement (data drift)

Solution : ré-entrainer le modèle et le redéployer en production

Caractéristiques du MLOps

Entrainement des modèles :
- de nombreux essais nécessaires
- chaque essai est coûteux
Une fois déployé :
- Quel est le modèle qui est en production ?
- Quelles sont ses caractéristiques ?

Traquer les expérimentations et les métadonnées du modèle dans un model store

Caractéristiques du MLOps

Besoin de surveiller ce qui se passe en production : observabilité
Besoin d’itérer efficacement pour maintenir le système en état
Inférence nécessite parfois d’être optimisée

Des collaborations à établir

Une évolution du DevOps

source : Kreuzberger, Kühl, et Hirschl (2022), figure 3

Pour en savoir plus

Asay, Matt. 2017. « 85% of big data projects fail, but your developers can help yours succeed ». TechRepublic. https://www.techrepublic.com/article/85-of-big-data-projects-fail-but-your-developers-can-help-yours-succeed/.

Breuel, Cristiano. 2020. « ML Ops: Machine Learning as an Engineering Discipline ». Medium. https://towardsdatascience.com/ml-ops-machine-learning-as-an-engineering-discipline-b86ca4874a3f.

Google. s. d. « MLOps: Continuous delivery and automation pipelines in machine learning ». Google Cloud. Consulté le 1 mai 2023. https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning.

Kreuzberger, Dominik, Niklas Kühl, et Sebastian Hirschl. 2022. « Machine Learning Operations (MLOps): Overview, Definition, and Architecture ». https://doi.org/10.48550/ARXIV.2205.02302.

Lorigny, Jacques. 1988. « QUID, une méthode générale de chiffrement automatique ». Techniques d’enquête 14 (2): 307‑16. https://www150.statcan.gc.ca/n1/fr/pub/12-001-x/1988002/article/14587-fra.pdf.

Meyer, Eric, et Pascal Rivière. 1997. « SICORE, un outil et une méthode pour le chiffrement automatique à I’INSEE ». In Actes de la 4ème Conférence Internationale des Utilisateurs de Blaise, 280‑93. Paris, France. http://www.blaiseusers.org/1997/papers/meyer97.pdf.

Rivière, Pascal. 1995. « SICORE, un outil et une méthode pour le chiffrement automatique à l’INSEE ». Courrier des statistiques, nᵒ 74 (août): 65‑69. https://www.nomenclature-pcs.fr/uploads/documents/L8_Article_Riviere.pdf.

Steidl, Monika, Michael Felderer, et Rudolf Ramler. 2023. « The pipeline for the continuous development of artificial intelligence models—Current state of research and practice ». Journal of Systems and Software 199: 111615. https://doi.org/10.1016/j.jss.2023.111615.