Codification automatique & mutualisation pour la PCS2020

COPIL Pôle PCS

12 décembre 2023

Sommaire

I. Mieux comprendre fastText

II. Le cadre de la mutualisation

III. Expérimentations et résultats

IV. Suite des travaux

I. Mieux comprendre fastText

Codification automatique avec fastText

Prise en compte des variables annexes

Concaténation du libellé avec les noms et valeurs des variables annexes :

Libellé	NAT	TYP	EVT	SUR
Chanteur d’opéra	NaN	X	01P	NaN

🢃

“Chanteur d’opéra NAT_NaN TYP_X EVT_01P SUR_NaN”

Enjeu de comment choisir les variables catégorielles à inclure

Prédictions et scores

Pour chaque code PCS, on obtient une probabilité d’attribution

fastText renvoie la prédiction à la probabilité la plus haute
- Ou les k meilleures prédictions si désiré

Score de la prédiction : différence de probabilité des deux meilleures prédictions
- A quel point la meilleure prédiction se distingue-t-elle bien des autres ?
- Réflexions en cours pour un score plus pertinent

Chaque prédiction n’est conservée que si elle passe un certain seuil de score
- Sinon, elle doit passer en reprise manuelle

Pertinence du score - Cas du RP

II. Le cadre de la mutualisation

Enquêtes incluses - Cadrage du modèle

RP (2018) : Recensement de la Population
EEC (2022/2023) : Enquête Emploi en Continu
SRCV (2022) : Statistiques sur les Ressources et Conditions de Vie
EPICOV (Vague 2) : étude EPIdémiologique de la diffusion du sars-COV2
VRS (2022) : Vécu et Ressenti en Matière de Sécurité
MDG (2022) : Modes de garde et d’accueil des jeunes enfants

Enquêtes ajoutées - Analyse des performances

SRCV (2023) : Statistiques sur les Ressources et Conditions de Vie
EPICOV (Vague 3) : étude EPIdémiologique de la diffusion du sars-COV2
VRS (2023) : Vécu et Ressenti en Matière de Sécurité
Concours (2023) : enquête DGAFP
FLV (2022) : Formation tout au Long de la Vie

Enjeux de la mutualisation

Mesurer sur chaque enquête l’évolution des performances du modèle de codification lors de l’agrégation de plusieurs bases d’entraînement distinctes.

Or toutes les bases d’enquêtes n’ont pas les mêmes champs disponibles
- A variables égales, pas nécessairement les mêmes types de réponses

Le but a donc été d’estimer dans un premier temps la méthode d’agrégation optimale entre plusieurs bases différentes.
- Faut-il conserver l’union des variables disponibles ? L’intersection ?

Dans un second temps, l’objectif est de mesurer l’impact de la cohérence des données dans une base agrégée.
- Peut-on mélanger les libellés hors & sur liste dans une base d’entrainement ?

Catégories de professions étudiées

PROFS : Professions Salariées
PROFI : Professions Indépendantes
PROFA : Professions Antérieures
PROFA - Hors RP : Artificiellement rajoutée en excluant les données du RP des mutualisations
- Ceci est dû au fait que pour le RP la PCS2020 des professions antérieures n’est codée que sur 2 positions, pouvant ainsi dégrader les performances des modèles mutualisés.

L’étude est décorrélée pour les 3 catégories, notamment en raison des champs disponibles différents.

Volumes de données dédoublonnées

En milliers d’observations

Des volumes en hors liste principalement portés par le RP

Variables par enquête - PROFS

III. Expérimentations et résultats

Une estimation par Monte-Carlo

Dans une optique de généralisation des résultats, sur chaque configuration :
- Répétition des phases de train, de test et d’évaluation 10 fois sur des splits disjoints différents
- Performance médiane retenue pour comparaison ultérieure
- Information disponible sur la variance des résultats

Mesures effectuées

Influence du choix des paramètres du modèle
- Peu d’influence une fois limité à un hypercube bien choisi
Quel mode de concaténation choisir ?
- Intersection des variables, modulo une liste de variables prioritaires à conserver
Quelles variables annexes prioriser ?
- Estimation de l’effet incrémental de chaque variable
- Liste de variables prioritaires redéfinie, cohérente avec les variables annexes généralement disponibles
Peut-on mélanger libellés sur et hors liste dans l’entraînement ?
- Oui, cela augmente bien les performances

Résultats - PROFS

Résultats - PROFI

Des taux de convergence plus élevés que sur PROFS !

Limites de l’analyse

Plus la base étudiée est petite, plus la variance des performances est élevée
- Avec parfois jusqu’à 20ppt d’écart entre les 1ers et 3è quartiles sur MDG

D’où l’intérêt de faire des tests de performance en situation
- Pilote de l’enquête Famille (2024), avec variables annexes peu nombreuses pour les parents
- Enquête Cadre de Vie (2024)

IV. Suite des travaux

Développer une architecture à neuf

Un code actuel complexe, fait pour la comparaison de multiples modèles
- Maintenant, le modèle est (quasiment) sélectionné

Objectif d’un code à neuf, fait pour l’utilisation du modèle sélectionné en pratique
- Une cible plus minimaliste et plus claire
- Architecture finale largement inspirée des travaux sur le RP

Développement d’une API pour la codification automatique en PCS2020
- Largement inspirée des travaux sur Sirène et le RP
- Premières utilisations courant 2024

Possibilité dès lors de répliquer les visualisations issues d’autres travaux
- Ainsi que quelques sanity checks (ex: performances par CS)

Exemples d’output dans le futur

Visualisation des prédictions en fonction du score sur APE

Exemples d’output dans le futur

Taux d’observations pour lesquelles le code est dans le top k des prédictions de fastText

Et en pratique ?

Fin de la mise sur papier des résultats d’ici janvier 2024

Développement et tests du code à neuf et de l’API au premier semestre 2024
- Incluant la réplication des analyses majeures du modèle RP
- Incluant aussi l’estimation de la charge de reprise manuelle à l’issue

Groupe de travail à venir pour les réflexions techniques :
- Renvoi en reprise manuelle, réentraînement, non codables, etc.

Merci pour votre attention ! Des questions ?