Score de propension (2/2) : utilisation de L’algorithme Gradient Boosting Machine (GBM)

Après avoir présenté dans un premier article l’utilité des scores de propension et les méthodes usuelles d’estimation, voici un deuxième article sur l’utilisation de l’algorithme du modèle de simulation généralisée, afin d’améliorer la qualité du score de propension, et de diminuer les biais au sein de l’étude.

L’algorithme Gradient Boosting Machine (GBM) est un algorithme de machine learning non paramétrique qui génère des scores de propension. Il utilise des arbres de régression multiples qui capturent toutes les relations complexes et non linéaires qui peuvent exister entre l’affectation de l’exposition et les covariables afin de créer des poids pour les observations sans surcharger les données.

Pour ce faire, il construit une série d’arbres de régression, chacun s’ajustant aux résidus du dernier arbre. L’algorithme commence par ajuster un arbre de régression simple aux données pour prédire le traitement à partir des covariables. Ensuite, à chaque étape supplémentaire de l’algorithme, un nouvel arbre de régression simple est ajouté au modèle à partir des itérations précédentes sans modifier aucun des ajustements précédents de l’arbre de régression. Le nouvel arbre est choisi pour fournir le meilleur ajustement aux résidus du modèle de l’itération précédente (un résidu est la différence entre la valeur observée et la valeur prédite qui a été générée par l’arbre de régression). L’arbre choisi fournit également la plus grande augmentation de la probabilité de l’arbre pour les données. Les prédictions du modèle d’ensemble final sont donc la somme pondérée des prédictions faites par les modèles d’arbre précédents [1].

Pour comprendre les arbres de régression, voici un exemple d’une étude récemment menée à partir des données de la cohorte française de TEMPO.

L’objectif de l’étude était de déterminer l’impact de l’âge d’initiation au cannabis sur la probabilité future de devenir chômeur à l’âge adulte. L’âge d’initiation au cannabis a été divisé en trois catégories : n’avoir jamais fumé de cannabis, initiation au cannabis avant l’âge de 16 ans (initiation précoce) et initiation au cannabis à 16 ans ou plus tard (initiation tardive). Les facteurs susceptibles d’influencer l’âge de l’initiation et du chômage considérés dans l’étude comprenaient des caractéristiques sociodémographiques telles que le sexe et l’âge, des caractéristiques liées à l’enfance des participants et des caractéristiques parentales.

Afin de rendre comparables les groupes d’exposition(âge d’initiation au cannabis) et de permettre la production d’estimations causales, le modèle GBM a été utilisé pour générer des scores de propension pondérés pour l’étude. Le package twang de R [2] a été utilisé et le code suivant est fourni ci-dessous :

Pour cette analyse, tous les facteurs confondants ont été placés dans le modèle GBM et une itinérance de 5000 a été fixée.

Pour illustrer le fonctionnement de l’algorithme, commençons par expliciter le fonctionnement d’un arbre de régression. Imaginons que l’algorithme construise un arbre de régression simple basé sur l’âge. En d’autres termes, l’algorithme divise les données en deux groupes, le groupe de gauche dont l’âge est en-deçà d’une valeur seuil appelé critère de coupure, et un groupe de droite dont l’âge est au-dessus. Pour chaque valeur seuil, l’algorithme calcule la différence entre l’âge de chaque personne et la moyenne du groupe auquel elle appartient. Ces différences sont les résidus. L’âge auquel l’algorithme a décidé de diviser les deux groupes est celui qui minimise ces résidus. Maintenant que la première division est effectuée, l’algorithme prend la variable suivante (par exemple, le sexe) et divise à nouveau les deux groupes précédents, appelés nœud, en deux groupes et ainsi de suite (Figure 1).  En théorie, on pourrait diviser chaque nœud selon toutes les variables possibles mais en pratique plusieurs règles d’arrêt existent, dont par exemple la profondeur de l’arbre, le nombre minimal de personnes associés à un nœud, etc.

Figure 1: Exemple de formation d’arbres de régression sur l’étude de cohorte TEMPO

Le modèle final est simplement la combinaison de tous les arbres de régression individuels et sera utilisé pour générer les scores de propension. Toutes les étapes de l’algorithme (division des données sur une variable, calcul de la moyenne de la variable à chaque division, et redivision sur une autre variable) sont répétées des milliers de fois (dans ce cas, 5000 fois) jusqu’à ce que la convergence et la stabilité de l’algorithme soient atteintes. Tandis que l’approche traditionnelle utilisant la technique de régression logistique ne crée qu’un seul modèle d’arbre de régression, l’algorithme Gradient boosting essaie des milliers de combinaisons pour créer une équation pour les scores de propension.

Quels sont les principaux avantages du modèle GBM ?

1.        Au lieu de devoir présélectionner un nombre limité de covariables à placer dans le modèle, le modèle GBM peut traiter un grand nombre de covariables même si la plupart d’entre elles sont corrélées entre elles ou ne sont pas liées à l’affectation dans le groupe d’exposition. Cela permet d’éviter le problème commun posé par l’approche logistique traditionnelle qui consiste à sélectionner les « mauvaises » covariables pour prédire l’affectation au groupe d’exposition. Elle permet également d’utiliser toutes les informations disponibles dans les données et d’améliorer la prédiction des scores de propension mais aussi l’estimation de l’association entre l’exposition et le résultat par la suite.

2.         Le modèle GBM peut traiter les variables manquantes continues, factices, ordinales et indépendantes.

Conclusion

Avec tous les avantages et la commodité que ‘machine learning’ peut offrir pour générer des scores de propension et créer une population bien équilibrée, cette méthode offre la possibilité de faire des inférences causales dans une étude par observation. Pour en savoir plus sur la façon d’appliquer le GBM à votre étude et sur les tutoriels pour la réalisation d’un modèle GBM dans les logiciels R et SAS, vous pouvez suivre ce lien qui contient des tutoriels et des vidéos utiles pour explorer l’art de l’apprentissage machine pour la génération de scores de propension.

Bonne génération de score de propension !

References

[1] Griffin BA, McCaffrey D, Almirall D, Setodji C, Burgette L. Chasing balance and other recommendations for improving nonparametric propensity score models. J Causal Inference. 2017;5(2):20150026. doi: 10.1515/jci-2015-0026. Epub 2017 Jan 13. PMID: 29503788; PMCID: PMC5830178.

[2] McCaffrey, D.F., Griffin, B.A., Almirall, D., Slaughter, M.E., Ramchand, R. and Burgette, L.F. (2013), A tutorial on propensity score estimation for multiple treatments using generalized boosted models. Statist. Med., 32: 3388-3414. doi:10.1002/sim.5753

%d blogueurs aiment cette page :