Scores de propension (1/2) : utilité et limites des méthodes usuelles

A quoi servent les scores de propension en épidémiologie ? Quelles sont les méthodes habituelles utilisées pour les estimer ? Quelles sont les limites de ces méthodes ? Quelles autres méthodes peuvent améliorer l’estimation des scores de propension ? Voici quelques éléments de réponse.

A quoi servent les scores de propension en épidémiologie ?

La majorité des études sont des études observationnelles, elles s’appuient sur des données de la population en vie réelle et présentent des avantages (population plus large, moindre coût). Comme il est pratiquement impossible d’interroger toute la population d’intérêt, l’étude ne concernera qu’un échantillon d’individus censé être « représentatif » de la population. Cependant, il existe quasiment toujours des biais dans le recrutement de la population (biais de sélection) [1,2]. Il se peut également que les groupes d’individus au sein de l’échantillon soient différents, comme par exemple les fumeurs vs. non fumeurs ont des caractéristiques inhérentes à ce statut tabagique. Ces biais empêchent d’étudier la causalité des relations entre facteurs.

Les essais contrôlés randomisés ont été appelés « l’étalon-or » pour observer l’effet de l’appartenance à un groupe d’exposition car ils éliminent tout biais de sélection qui pourrait se produire dans l’étude et équilibrent les caractéristiques observées et non observées des groupes d’exposition afin d’éviter les biais de confusion. En conséquence, les caractéristiques ayant servies à la randomisation sont bien comparables entre les groupes d’exposition. Les essais randomisés permettent de corriger ces biais mais ils comportent d’autres inconvénients (ne reflètent pas toujours les conditions en « vie réelle », et sont coûteux à mettre en place).

Les scores de propension peuvent être utilisés dans les études observationnelles pour corriger ces biais, ce qui permet « d’imiter » un essai contrôlé randomisé et de rendre la population étudiée comparable à la population cible. Ainsi, on aboutit à une situation de « quasi-randomisation », permettant d’estimer des effets causaux. Un score de propension est la probabilité qu’un individu soit placé dans un groupe d’exposition (ou groupe de traitement) étant donné un ensemble de caractéristiques observées chez le sujet (que nous appellerons par la suite covariables) [3].

Comment sont générés habituellement les scores de propension ?

Pour générer des scores de propension dans une étude observationnelle, l’approche traditionnelle est la régression logistique. Dans ce cas, l’exposition (par exemple fumer ou non est considérée comme la variable à expliquer et les caractéristiques sur lesquelles on souhaite rendre comparable les groupes comme variables explicatives. Le modèle logistique génère un nombre de 0 à 1 pour chaque observation (un score de propension pour chaque observation). Ensuite, on utilise l’appariement, la pondération, l’ajustement, ou la stratification sur les scores de propension similaires afin d’obtenir population dans laquelle chaque individu a la même probabilité d’être assigné à un groupe d’exposition [1, 4].

Bien que cette approche soit couramment utilisée [1,3], elle repose sur de nombreuses hypothèses qui, si elles ne sont pas respectées, peuvent créer des groupes d’exposition non comparables, ne permettant pas in fine de corriger le biais. Par exemple, la régression logistique suppose que toutes les covariables soient linéaires et additives sur l’échelle logarithmique [1]. Ensuite, il faudrait que prendre en compte toutes les variables qui pourraient avoir un impact sur l’appartenance à un groupe d’exposition. L’incapacité à identifier toutes les variables de confusion potentielles peut entraîner un déséquilibre entre les groupes d’exposition [1]. Or, plus on inclue de variables de confusion dans le modèle et plus on augmente le nombre de degrés de liberté et plus la puissance statistique est faible.

Quelles sont les autres méthodes pour l’estimation des scores de propension ?

Des approches plus robustes sont donc nécessaires pour générer des scores de propension, et peut être « machine learning » est une solution pour créer des groupes d’exposition comparables dans les études observationnelles [4]. Dans le prochain article, nous présenterons l’utilisation de l’algorithme du modèle de stimulation généralisée (GBM), afin d’améliorer la qualité du score de propension, et de diminuer encore les biais au sein de l’étude.

Références

  1. Griffin, B. A., McCaffrey, D., Almirall, D., Setodji, C., & Burgette, L. (2017). Chasing balance and other recommendations for improving nonparametric propensity score models. Journal of causal inference5(2), 20150026. https://doi.org/10.1515/jci-2015-0026
  2. Zhu, Y., Coffman, D. L., & Ghosh, D. (2015). A Boosting Algorithm for Estimating Generalized Propensity Scores with Continuous Treatments. Journal of causal inference3(1), 25–40. https://doi.org/10.1515/jci-2014-0022
  3. McCaffrey, D.F., Griffin, B.A., Almirall, D., Slaughter, M.E., Ramchand, R. and Burgette, L.F. (2013), A tutorial on propensity score estimation for multiple treatments using generalized boosted models. Statist. Med., 32: 3388-3414. doi:10.1002/sim.5753
  4. McCaffrey, D. F., Ridgeway, G., & Morral, A. R. (2004). Propensity Score Estimation With Boosted Regression for Evaluating Causal Effects in Observational Studies. Psychological Methods, 9(4), 403–425. https://doi.org/10.1037/1082-989X.9.4.403