PCS2020 : Outil de codification probabiliste
DR Bourgogne-Franche-Comté
2 mai 2024
Qu’est-ce que l’outil probabiliste ?
Rôles de l’outil
- Se concentrer sur les libellés hors liste non codés par l’outil déterministe
- Ce sont donc les libellés difficiles
- Trouver le code PCS le plus vraisemblable au vu de l’observation
- Idéalement même les codes les plus vraisemblables
- Estimer la confiance avec laquelle on peut renvoyer chaque prédiction
- Il y a des libellés plus faciles que d’autres à codifier !
Codification automatique avec fastText
Mieux comprendre les embeddings
Prise en compte des variables annexes
- Concaténation du libellé avec les noms et valeurs des variables annexes :
Chanteur d’opéra |
NaN |
1 |
4 |
NaN |
🢃
“Chanteur d’opéra ACTIV_NaN PUB_1 CPF_4 MODE_NaN”
3 modèles pour 3 types de professions
- PROFS, pour les professions salariées (actuelles ou antérieures), i.e. STATUT = 1
- Notamment quand on va avoir les variables CPF et PUB
- PROFI, pour les professions indépendantes (toujours actuelles ou antérieures), i.e. STATUT = 2
- Notamment quand on va avoir la variable TAILLE
- PROFA, pour les professions autres, dès qu’on ne rentre pas dans les 2 premières cases
- Notamment quand on va avoir peu ou pas de variables annexes
- Performances évidemment moins bonnes que pour les 2 premiers modèles
Prédictions et scores
- Pour chaque code PCS, on obtient une probabilité d’attribution
- fastText renvoie la prédiction à la probabilité la plus haute
- Ou les k meilleures prédictions si désiré
- Score de la prédiction : différence de probabilité des deux meilleures prédictions
- A quel point la meilleure prédiction se distingue-t-elle bien des autres ?
- Caché sous le capot : légers raffinements de ce score
- Chaque prédiction n’est conservée que si elle passe un certain seuil de score
- Sinon, elle doit passer en reprise manuelle
Exemples de résultats en fonction du score
Quid d’une démonstration ?
Outil disponible ici