PCS2020 : Outil de codification probabiliste

DR Bourgogne-Franche-Comté

2 mai 2024

Qu’est-ce que l’outil probabiliste ?

Ordres de passage

Rôles de l’outil

  • Se concentrer sur les libellés hors liste non codés par l’outil déterministe
    • Ce sont donc les libellés difficiles
  • Trouver le code PCS le plus vraisemblable au vu de l’observation
    • Idéalement même les codes les plus vraisemblables
  • Estimer la confiance avec laquelle on peut renvoyer chaque prédiction
    • Il y a des libellés plus faciles que d’autres à codifier !

Fonctionnement technique

Codification automatique avec fastText

Mieux comprendre les embeddings

Prise en compte des variables annexes


  • Concaténation du libellé avec les noms et valeurs des variables annexes :
Libellé ACTIV PUB CPF MODE
Chanteur d’opéra NaN 1 4 NaN
🢃

“Chanteur d’opéra ACTIV_NaN PUB_1 CPF_4 MODE_NaN

3 modèles pour 3 types de professions


  • PROFS, pour les professions salariées (actuelles ou antérieures), i.e. STATUT = 1
    • Notamment quand on va avoir les variables CPF et PUB
  • PROFI, pour les professions indépendantes (toujours actuelles ou antérieures), i.e. STATUT = 2
    • Notamment quand on va avoir la variable TAILLE
  • PROFA, pour les professions autres, dès qu’on ne rentre pas dans les 2 premières cases
    • Notamment quand on va avoir peu ou pas de variables annexes
    • Performances évidemment moins bonnes que pour les 2 premiers modèles

Prédictions et scores


  • Pour chaque code PCS, on obtient une probabilité d’attribution
  • fastText renvoie la prédiction à la probabilité la plus haute
    • Ou les k meilleures prédictions si désiré
  • Score de la prédiction : différence de probabilité des deux meilleures prédictions
    • A quel point la meilleure prédiction se distingue-t-elle bien des autres ?
    • Caché sous le capot : légers raffinements de ce score
  • Chaque prédiction n’est conservée que si elle passe un certain seuil de score
    • Sinon, elle doit passer en reprise manuelle

Exemples de résultats en fonction du score

Quid d’une démonstration ?


Outil disponible ici

Un exemple de réponse