L’intelligence artificielle à l’Insee

Romain Lesur
Responsable du SSP Lab

2023-10-19

Quiz

Question 1

Un célèbre chercheur en IA a déclaré :

Mon but n’est pas de vous surprendre ou de vous choquer, mais pour résumer, nous disposons maintenant de machines qui pensent, apprennent et créent. En outre, leurs capacités va augmenter rapidement jusqu’à ce que, à un horizon proche, le type des problèmes qu’elles pourront résoudre sera proche de ce que l’esprit humain peut faire.

De quand date cette citation ?

  • 1957
  • 1979
  • 2019
  • 2023

Question 2

Un célèbre ingénieur en informatique a écrit :

Les oiseaux de mauvais augure qui nous prédisent un monde délirant où les robots prendraient le pouvoir et nous domineraient, où ceux qui nous font miroiter un monde dans lequel l’intelligence artificielle résoudrait tous nos problèmes, nous racontent tous n’importe quoi.

De quand date cette citation ?

  • 1957
  • 1979
  • 2019
  • 2023

Question 3

Quand a été créée la première intelligence artificielle à l’Insee ?

  • 1957
  • 1979
  • 2019
  • 2023

Réponses au quiz

Question 1

Mon but n’est pas de vous surprendre ou de vous choquer, mais pour résumer, nous disposons maintenant de machines qui pensent, apprennent et créent. En outre, leurs capacités va augmenter rapidement jusqu’à ce que, à un horizon proche, le type des problèmes qu’elles pourront résoudre sera proche de ce que l’esprit humain peut faire.

De quand date cette citation ?

et 66 ans plus tard, Yoshua Bengio répète encore la même chose (voir Radio Canada 2023)

Alors que l’on pensait qu’il faudrait attendre des décennies, voire des siècles, pour que l’IA atteigne le niveau des capacité cognitives des êtres humains, moi-même et d’autres scientifiques pensons que la technologie pour y arriver pourrait être développée au cours des deux prochaines décennies, voire dans les quelques années à venir.

Question 2

Un célèbre ingénieur en informatique a écrit :

Les oiseaux de mauvais augure qui nous prédisent un monde délirant où les robots prendraient le pouvoir et nous domineraient, où ceux qui nous font miroiter un monde dans lequel l’intelligence artificielle résoudrait tous nos problèmes, nous racontent tous n’importe quoi.

De quand date cette citation ?

Luc Julia en 2019 (voir Julia et Khayat 2019)

Question 3

Quand a été créée la première intelligence artificielle à l’Insee ?

Une rapide histoire de l’IA

La période 1950-1970

  • Souvent appelée l’âge d’or de l’IA (débute en 1956)
  • Un foisonnement d’idées et d’espoirs
    • reconnaissance de l’écriture
    • traduction
  • Les fondements de l’IA ont été inventés à cette époque (general problem solver, réseaux de neurones)
  • Mais puissance de calcul très limitée
  • Résultats décevants, coupe des budgets en 1974
  • De 1974 à 1980 : le premier hiver de l’IA

La période 1980-1987

  • Systèmes experts
  • IA symbolique : moteurs de règles
  • De puissantes machines dépassées par les ordinateurs individuels à la fin des années 80
  • A l’Insee, QUID puis SICORE
  • Un second (deuxième ?) hiver de l’IA à partir de la deuxième moitié des années 80

A partir de 1993

  • De nouveaux supercalculateurs
  • Deep Blue (IBM) bat Kasparov en 1997
  • La loi de Moore : postulat d’un doublement tous les 2 ans du nombre de transistors présents sur un microprocesseur
  • Essor du machine learning (apprentissage automatique)
  • 2015 : modèles de diffusion
  • 2017 : transformers, une architecture spécifique fondés sur le mécanisme d’attention
  • Depuis 2018 : BERT, GPT2/3 (LLM)
  • 2022-2023 : IA génératives grand public (DALL-E, ChatGPT, Midjourney…), multimodales

Vue d’ensemble

Et à l’Insee ?

Et à l’Insee ?

  • Remplacement de SICORE (IA simples) :
    • codification de l’APE dans SIRENE
    • codification de la PCS
    • codification en COICOP
  • Test des IA génératives pour l’assistance au passage de SAS à R
  • Modèles de segmentation pour les images satellitaires
  • Assistance à l’exploitation des bilans et comptes sociaux
  • Une démarche internationale :
    • centre de ressources européen en IA/ML pour la statistique publique
    • UNECE Modernstats ML group (éthique, IA générative)
    • GB : recherche dans les publications diffusées par l’ONS
    • FMI : aide à la génération de requêtes SDMX

Le machine learning pour la codification automatique

Quel est le problème à résoudre ?

  • A l’Insee nous avons (beaucoup) de nomenclatures (PCS, NAF, COICOP…)
  • Nous devons coder les observations dans ces nomenclatures
  • Tout coder à la main ? Irréaliste
  • D’où des travaux engagés dès 1979 (QUID) pour coder automatiquement ce qui peut l’être

Pourquoi utiliser le machine learning ?

  • Les moteurs de règles sont très difficiles à faire évoluer car ils deviennent de plus en plus complexes
  • Le machine learning a fait des progrès ces 15 dernières années
  • Nous l’avons testé… et ça marche plutôt bien

Exemple : codification de l’APE dans Sirene

Activité

Exemple : classifieur de produits en COICOP

Nom du produit

Comment ça marche ?

  • On codifie à la main jusqu’à accumuler un nombre suffisamment important d’observations
  • On utilise ces données pour entrainer des modèles
    • de longs calculs et beaucoup d’essais
    • les modèles cherchent à “reproduire” la codification déjà appliquée
    • ça ne fonctionne jamais parfaitement
  • On sélectionne le modèle le plus performant (ou le moins mauvais…)

Ce que le machine learning ne fait pas

  • Comprendre (ex : la nouveauté, “tiktokeur”, “youtubeur”)
  • Evaluer la qualité des résultats : il faut des humains !
  • Gérer les changements de nomenclature :
    • PCS2020 cf. la campagne d’annotation de 2021
    • NA2008 à NAF 2025

Conclusion : nous ne créons que des assistants qui cherchent à retenir un maximum de choses déjà vues pour faire gagner du temps

Les données utilisées

  • \(\approx\) 10 millions de liasses d’entreprises issues de Sirene 3 couvrant la période 2014-2022.

  • Données labellisées par Sicore ou par un gestionnaire.

  • Une observation consiste en :

    • Un descriptif textuel de l’activité
    • La nature de l’activitéNAT (23 modalités)
    • Le type de la liasseTYP (15 modalités)
    • Le type d’évènementEVT (24 modalités)
    • La surface (\(m^2\))SUR (4 modalités)

La nomenclature hiérarchique de l’APE

Niveau Code Libellé Taille
Section H Transports et entreposage 21
Division 52 Entreposage et services auxiliaires des transports 88
Groupe 522 Services auxiliaires des transports 272
Classe 5224 Manutention 615
Sous-classe 5224A Manutention portuaire 732

Faire des calculs à partir de texte

  • Plongements lexicaux: méthode de vectorisation.
  • Plongements pré-entrainés disponibles en open-source.
  • Nous apprenons nos propres plongements de mots.
  • Mais aussi des plongements de :
    • n-grams de mots et de n-grams de caractères.

Le modèle fastText

  • fastText: Modèle de type “bag of n-grams” très simple et rapide (C++).

Prise en compte des variables catégorielles

  • Concaténation du libellé avec les noms et valeurs des variables annexes :
Text NAT TYP EVT SUR
Cours de musique NaN X 01P NaN
⬇️

“Cours de musique NAT_NaN TYP_X EVT_01P SUR_NaN

  • Méthode imparfaite : 3-grams “AT_” ou “T_0” utilisés.

Une bonne performance globale

  • Près de 80% des libellés issus du guichet unique sont correctement codifiés.
  • Erreurs de prédiction proches dans la nomenclature.

Assister le processus de codification manuel

  • Connaissance des probabilités pour chaque classe.
  • Dans 94% des cas, la bonne classification se trouve dans les 5 prédictions les plus probables.

Construction d’un indice de confiance

  • Objectif : discriminer les mauvaises des bonnes prédictions.
  • Indice de confiance retenu : différence entre les deux probabilités les plus élevées.

Améliorer l’efficacité de la reprise manuelle

  • Optimisation de la reprise manuelle ➨ gain d’efficience.

Merci de votre attention

Pour en savoir plus

Julia, Luc, et Ondine Khayat. 2019. L’intelligence artificielle n’existe pas. Paris: First éditions.
Lorigny, Jacques. 1988. « QUID, une méthode générale de chiffrement automatique ». Techniques d’enquête 14 (2): 307‑16. https://www150.statcan.gc.ca/n1/fr/pub/12-001-x/1988002/article/14587-fra.pdf.
Meyer, Eric, et Pascal Rivière. 1997. « SICORE, un outil et une méthode pour le chiffrement automatique à IINSEE ». In Actes de la 4ème Conférence Internationale des Utilisateurs de Blaise, 280‑93. Paris, France. http://www.blaiseusers.org/1997/papers/meyer97.pdf.
Radio Canada. 2023. « L’IA atteindrait le niveau de l’intelligence humaine d’ici 5 à 20 ans, croit Bengio ». Radio-Canada. https://ici.radio-canada.ca/nouvelle/1998915/ia-conscience-evolution-bengio.
Rivière, Pascal. 1995. « SICORE, un outil et une méthode pour le chiffrement automatique à l’INSEE ». Courrier des statistiques, nᵒ 74 (août): 65‑69. https://www.nomenclature-pcs.fr/uploads/documents/L8_Article_Riviere.pdf.
Russell, Stuart J., et Peter Norvig. 2010. Artificial intelligence: a modern approach. 3rd ed. Prentice Hall series in artificial intelligence. Upper Saddle River: Prentice Hall.