Codification automatique & mutualisation pour la PCS2020

COPIL Pôle PCS

12 décembre 2023

Sommaire


I. Mieux comprendre fastText

II. Le cadre de la mutualisation

III. Expérimentations et résultats

IV. Suite des travaux

I. Mieux comprendre fastText

Codification automatique avec fastText

Prise en compte des variables annexes

  • Concaténation du libellé avec les noms et valeurs des variables annexes :
Libellé NAT TYP EVT SUR
Chanteur d’opéra NaN X 01P NaN
🢃

“Chanteur d’opéra NAT_NaN TYP_X EVT_01P SUR_NaN


  • Enjeu de comment choisir les variables catégorielles à inclure

Prédictions et scores


  • Pour chaque code PCS, on obtient une probabilité d’attribution
  • fastText renvoie la prédiction à la probabilité la plus haute
    • Ou les k meilleures prédictions si désiré
  • Score de la prédiction : différence de probabilité des deux meilleures prédictions
    • A quel point la meilleure prédiction se distingue-t-elle bien des autres ?
    • Réflexions en cours pour un score plus pertinent
  • Chaque prédiction n’est conservée que si elle passe un certain seuil de score
    • Sinon, elle doit passer en reprise manuelle

Pertinence du score - Cas du RP

II. Le cadre de la mutualisation

Enquêtes incluses - Cadrage du modèle

Enquêtes ajoutées - Analyse des performances

Enjeux de la mutualisation


  • Mesurer sur chaque enquête l’évolution des performances du modèle de codification lors de l’agrégation de plusieurs bases d’entraînement distinctes.
  • Or toutes les bases d’enquêtes n’ont pas les mêmes champs disponibles
    • A variables égales, pas nécessairement les mêmes types de réponses
  • Le but a donc été d’estimer dans un premier temps la méthode d’agrégation optimale entre plusieurs bases différentes.
    • Faut-il conserver l’union des variables disponibles ? L’intersection ?
  • Dans un second temps, l’objectif est de mesurer l’impact de la cohérence des données dans une base agrégée.
    • Peut-on mélanger les libellés hors & sur liste dans une base d’entrainement ?

Catégories de professions étudiées

  • PROFS : Professions Salariées
  • PROFI : Professions Indépendantes
  • PROFA : Professions Antérieures
  • PROFA - Hors RP : Artificiellement rajoutée en excluant les données du RP des mutualisations
    • Ceci est dû au fait que pour le RP la PCS2020 des professions antérieures n’est codée que sur 2 positions, pouvant ainsi dégrader les performances des modèles mutualisés.

L’étude est décorrélée pour les 3 catégories, notamment en raison des champs disponibles différents.

Volumes de données dédoublonnées

En milliers d’observations



  • Des volumes en hors liste principalement portés par le RP

Variables par enquête - PROFS


III. Expérimentations et résultats

Une estimation par Monte-Carlo


  • Dans une optique de généralisation des résultats, sur chaque configuration :
    • Répétition des phases de train, de test et d’évaluation 10 fois sur des splits disjoints différents
    • Performance médiane retenue pour comparaison ultérieure
    • Information disponible sur la variance des résultats

Mesures effectuées


  • Influence du choix des paramètres du modèle
    • Peu d’influence une fois limité à un hypercube bien choisi
  • Quel mode de concaténation choisir ?
    • Intersection des variables, modulo une liste de variables prioritaires à conserver
  • Quelles variables annexes prioriser ?
    • Estimation de l’effet incrémental de chaque variable
    • Liste de variables prioritaires redéfinie, cohérente avec les variables annexes généralement disponibles
  • Peut-on mélanger libellés sur et hors liste dans l’entraînement ?
    • Oui, cela augmente bien les performances

Résultats - PROFS


Résultats - PROFI



  • Des taux de convergence plus élevés que sur PROFS !

Limites de l’analyse


  • Plus la base étudiée est petite, plus la variance des performances est élevée
    • Avec parfois jusqu’à 20ppt d’écart entre les 1ers et 3è quartiles sur MDG

IV. Suite des travaux

Développer une architecture à neuf


  • Un code actuel complexe, fait pour la comparaison de multiples modèles
    • Maintenant, le modèle est (quasiment) sélectionné
  • Objectif d’un code à neuf, fait pour l’utilisation du modèle sélectionné en pratique
    • Une cible plus minimaliste et plus claire
    • Architecture finale largement inspirée des travaux sur le RP
  • Développement d’une API pour la codification automatique en PCS2020
  • Possibilité dès lors de répliquer les visualisations issues d’autres travaux
    • Ainsi que quelques sanity checks (ex: performances par CS)

Exemples d’output dans le futur

  • Visualisation des prédictions en fonction du score sur APE

Exemples d’output dans le futur


  • Taux d’observations pour lesquelles le code est dans le top k des prédictions de fastText


Et en pratique ?

  • Fin de la mise sur papier des résultats d’ici janvier 2024
  • Développement et tests du code à neuf et de l’API au premier semestre 2024
    • Incluant la réplication des analyses majeures du modèle RP
    • Incluant aussi l’estimation de la charge de reprise manuelle à l’issue
  • Groupe de travail à venir pour les réflexions techniques :
    • Renvoi en reprise manuelle, réentraînement, non codables, etc.

Merci pour votre attention ! Des questions ?