Codification automatique & mutualisation pour la PCS2020
COPIL Pôle PCS
12 décembre 2023
I. Mieux comprendre fastText
Codification automatique avec fastText
Prise en compte des variables annexes
- Concaténation du libellé avec les noms et valeurs des variables annexes :
Chanteur d’opéra |
NaN |
X |
01P |
NaN |
🢃
“Chanteur d’opéra NAT_NaN TYP_X EVT_01P SUR_NaN”
- Enjeu de comment choisir les variables catégorielles à inclure
Prédictions et scores
- Pour chaque code PCS, on obtient une probabilité d’attribution
- fastText renvoie la prédiction à la probabilité la plus haute
- Ou les k meilleures prédictions si désiré
- Score de la prédiction : différence de probabilité des deux meilleures prédictions
- A quel point la meilleure prédiction se distingue-t-elle bien des autres ?
- Réflexions en cours pour un score plus pertinent
- Chaque prédiction n’est conservée que si elle passe un certain seuil de score
- Sinon, elle doit passer en reprise manuelle
Pertinence du score - Cas du RP
II. Le cadre de la mutualisation
Enquêtes incluses - Cadrage du modèle
Enjeux de la mutualisation
- Mesurer sur chaque enquête l’évolution des performances du modèle de codification lors de l’agrégation de plusieurs bases d’entraînement distinctes.
- Or toutes les bases d’enquêtes n’ont pas les mêmes champs disponibles
- A variables égales, pas nécessairement les mêmes types de réponses
- Le but a donc été d’estimer dans un premier temps la méthode d’agrégation optimale entre plusieurs bases différentes.
- Faut-il conserver l’union des variables disponibles ? L’intersection ?
- Dans un second temps, l’objectif est de mesurer l’impact de la cohérence des données dans une base agrégée.
- Peut-on mélanger les libellés hors & sur liste dans une base d’entrainement ?
Catégories de professions étudiées
- PROFS : Professions Salariées
- PROFI : Professions Indépendantes
- PROFA : Professions Antérieures
- PROFA - Hors RP : Artificiellement rajoutée en excluant les données du RP des mutualisations
- Ceci est dû au fait que pour le RP la PCS2020 des professions antérieures n’est codée que sur 2 positions, pouvant ainsi dégrader les performances des modèles mutualisés.
L’étude est décorrélée pour les 3 catégories, notamment en raison des champs disponibles différents.
Volumes de données dédoublonnées
En milliers d’observations
- Des volumes en hors liste principalement portés par le RP
Variables par enquête - PROFS
III. Expérimentations et résultats
Une estimation par Monte-Carlo
- Dans une optique de généralisation des résultats, sur chaque configuration :
- Répétition des phases de train, de test et d’évaluation 10 fois sur des splits disjoints différents
- Performance médiane retenue pour comparaison ultérieure
- Information disponible sur la variance des résultats
Mesures effectuées
- Influence du choix des paramètres du modèle
- Peu d’influence une fois limité à un hypercube bien choisi
- Quel mode de concaténation choisir ?
- Intersection des variables, modulo une liste de variables prioritaires à conserver
- Quelles variables annexes prioriser ?
- Estimation de l’effet incrémental de chaque variable
- Liste de variables prioritaires redéfinie, cohérente avec les variables annexes généralement disponibles
- Peut-on mélanger libellés sur et hors liste dans l’entraînement ?
- Oui, cela augmente bien les performances
Résultats - PROFS
Résultats - PROFI
- Des taux de convergence plus élevés que sur PROFS !
Limites de l’analyse
- Plus la base étudiée est petite, plus la variance des performances est élevée
- Avec parfois jusqu’à 20ppt d’écart entre les 1ers et 3è quartiles sur MDG
- D’où l’intérêt de faire des tests de performance en situation
Développer une architecture à neuf
- Un code actuel complexe, fait pour la comparaison de multiples modèles
- Maintenant, le modèle est (quasiment) sélectionné
- Objectif d’un code à neuf, fait pour l’utilisation du modèle sélectionné en pratique
- Une cible plus minimaliste et plus claire
- Architecture finale largement inspirée des travaux sur le RP
- Développement d’une API pour la codification automatique en PCS2020
- Possibilité dès lors de répliquer les visualisations issues d’autres travaux
- Ainsi que quelques sanity checks (ex: performances par CS)
Exemples d’output dans le futur
- Visualisation des prédictions en fonction du score sur APE
Exemples d’output dans le futur
- Taux d’observations pour lesquelles le code est dans le top k des prédictions de fastText
Et en pratique ?
- Fin de la mise sur papier des résultats d’ici janvier 2024
- Développement et tests du code à neuf et de l’API au premier semestre 2024
- Incluant la réplication des analyses majeures du modèle RP
- Incluant aussi l’estimation de la charge de reprise manuelle à l’issue
- Groupe de travail à venir pour les réflexions techniques :
- Renvoi en reprise manuelle, réentraînement, non codables, etc.
Merci pour votre attention ! Des questions ?