Corrélation statistique : prudence à l’interprétation

Existe-t-il une association entre les dépenses de santé des ménages et leurs revenus ? Le nombre d’années d’études d’un enfant est-il associé aux revenus de ses parents ? Dès lors que l’on s’intéresse à la relation entre deux variables quantitatives (ou encore données numériques) un outil statistique est évoqué : le coefficient de corrélation linéaire. Après une rapide définition, nous verrons qu’il faut être prudent lors de son interprétation.

Le coefficient de corrélation linéaire, ou de Bravais-Pearson, permet de mesurer à la fois la force et le sens d’une association. Variant de -1 à +1, il vaut 0 lorsqu’il n’existe pas d’association. Plus ce coefficient est proche de -1 ou +1, plus l’association entre les deux variables est forte, jusqu’à être parfaite.

Un coefficient supérieur à 0 indique une association positive. Par exemple, plus le revenu augmente, plus les dépenses pour les loisirs sont élevées.
Un coefficient inférieur à 0 indique une association négative. Par exemple, plus le revenu augmente, plus la précarité alimentaire1 diminue (relire l’article Précarité alimentaire et santé mentale des jeunes adultes).

Parallèlement au calcul du coefficient de corrélation, il convient de représenter les variables sur un graphique pour visualiser leur comportement (Figure 1).

exemple de correlation
Figure 1 : Exemple de types de corrélation entre deux variables. Abréviation : coef. corrélation = coefficient de corrélation.

Le coefficient de corrélation linéaire nous aide à juger de l’existence d’une relation linéaire entre deux variables c’est-à-dire lorsque l’on peut tracer une ligne droite dans le nuage de points. Il n’est donc pas adapté lorsque les relations ne sont pas linéaires (Figure 2).

Type de relation entre deux variables
Figure 2 : Relations linéaire et non linéaire. Alors qu’il existe une relation (non linéaire) entre les variables 3 et 4 (graphique à droite), le coefficient de relation linéaire est nul. Abréviation : coef. corrélation = coefficient de corrélation.
Pour vivre plus longtemps, consommez de la viande !

Après avoir vu brièvement ce qu’est un coefficient de corrélation, regardons attentivement le graphique ci-dessous sur l’espérance de vie à la naissance2 et la consommation de viande par habitant dans certains pays (Figure 3, relire l’article « L’espérance de vie en France : quelques chiffres »). D’après ce graphique, plus on mange de viande et plus l’espérance de vie est élevée. L’association est très forte puisque le coefficient de corrélation vaut 0,72.

Consommation de viande et espérance de vie
Figure 3 : Espérance de vie à la naissance et consommation de viande en 2014 dans certains pays du monde. Sources : OECD-FAO Agricultural Outlook (Edition 2015) et The World Bank, World Development Indicators.

Comment interpréter cette association ? Il y a une certitude que nous pouvons dire à ce propos : ce n’est pas parce que l’on mange plus de viande que nous allongeons notre espérance de vie. Il s’agit d’une fausse corrélation. En effet, la corrélation observée n’a rien à voir avec une relation de cause à effet (on parle de causalité). Pour des raisons bien connues, l’espérance de vie est plus élevée dans les pays développés. Si on regarde de plus près le graphique, on voit effectivement que les pays dont les habitants ont une espérance de vie élevée sont des pays développés. Or, les pays développés sont riches et de ce fait on y consomme beaucoup de viande. Ainsi, dans ce cas, consommation de viande et espérance de vie sont liées à une cause commune : la richesse du pays. C’est parce que le pays est riche qu’on y consomme plus de viande et que l’espérance de vie est élevée.

Prudence à l’interprétation

Une corrélation peut-être induite par l’influence d’une ou plusieurs autres variables, comme c’est le cas ici entre l’espérance de vie et la consommation de viande.

On peut également trouver une corrélation entre deux variables qui relève d’une pure coïncidence. En outre, ce n’est pas parce que deux variables ont les mêmes variations dans le temps qu’elles exercent une influence l’une sur l’autre. Le site http://tylervigen.com/spurious-correlations regorge de ce type de corrélations « absurdes ».

Pour conclure, il faut rester critique lors de l’interprétation d’une corrélation et retenir qu’une corrélation ne constitue pas une preuve de relation de cause à effet (causalité). Le danger de conclure à tort existe pour tout le monde, surtout s’il s’agit d’un résultat qui va dans le sens espéré de celui qui l’interprète.

Notes

1. Accès à la nourriture insuffisante pour assurer une vie saine et active.
2. L’espérance de vie à la naissance correspond au nombre moyen d’années qu’un nouveau-né peut espérer vivre.

Auteur : Jeanna-eve Franck

Doctorante en épidémiologie au sein de l’École Doctorale 393, mon travail de thèse porte sur les déterminants du recours au dépistage des cancers gynécologiques chez les femmes obèses et selon l'origine migratoire.

Une réflexion sur « Corrélation statistique : prudence à l’interprétation »

Les commentaires sont fermés.