Corrélation et causalité: attention ne pas mélanger

Cette semaine, une compagnie de recherche sur le domaine de l’Internet publiait les résultats d’un sondage dans le Tweet suivant:

Traduction:

Les résultats du sondage présentés avec le tweet. Source : Pew Research Center (tweet original)
Les résultats du sondage présentés avec le tweet. Source : Pew Research Center (tweet original)

L’image accompagnant le Tweet montrait le pourcentage des répondants ayant des comportements particuliers en lien avec la consultation de l’actualité sur Facebook en fonction du fait qu’ils aient ou non suivi la page d’un groupe médiatique important sur Facebook.

Prenez quelques minutes pour réfléchir à ces informations.

 

Causalité et corrélation

En recherche scientifique, on aimerait généralement établir le lien de causalité qui existe entre les événements. Par exemple, dans un contexte simple, on voudrait pouvoir dire: « si j’appuie sur ce bouton, alors cette lumière s’allumera ».  Dans ce contexte, la causalité est assez simple à établir; lorsque les conditions normales sont remplies (i.e. le circuit est branché sur une source électrique, tous les composants fonctionnent correctement, etc.), on peut vérifier que le circuit a bien pour fonction d’allumer la lumière et que l’événement « appuyer sur le bouton » et l’événement « la lumière s’allume » s’enchaîneront, le premier causant le second. Lorsqu’on exprime le lien qui unit des événements en garantissant que la réalisation du premier entraînera la réalisation du second, on donne le lien causal qui unit ces événements, la causalité.

Or, le monde humain et la nature ne sont pas toujours aussi faciles à expliquer et la causalité pas aussi évidente à tracer dans plusieurs situations. Dans ces cas, on est plutôt en mesure d’établir ce qu’on appelle une corrélation entre les événements. On dit que deux choses sont corrélées si on peut déterminer un lien mathématique établissant une relation entre deux événements. Par exemple, on a vu précédemment dans ce blogue qu’il existe un lien mathématique entre le fait de ne pas porter sa ceinture et le fait de mourir dans un accident de la route. Cela signifie qu’il existe une corrélation entre ces événements. Cependant, cela ne signifie pas qu’il y a une causalité entre les événements. Un ne cause pas nécessairement directement l’autre.

Quand on détermine la corrélation, on s’intéresse en gros à la probabilité que quelque chose se produise si une autre chose est observée. Quand on veut exprimer une causalité, on affirme avec assurance qu’un événement se produira si la prémisse se réalise.

Un exemple tiré d’un livre

Dans l’ouvrage « Numbers Rule Your World » de Kaiser Fung (un ouvrage que je recommande vivement et qui est facile à lire, même en anglais),  l’auteur donne deux exemples permettant d’illustrer la différence entre la causalité et la corrélation. Je me permets de réutiliser ses exemples très pertinents ici.

D’abord, Fung présente le récit d’une épidémie de la maladie E Coli qui a eu lieu aux États-Unis en 2006. Lors de cette épidémie plusieurs cas de la maladie ont été recensés à travers le pays et tous semblaient porter la même souche. On eut donc l’impression qu’une cause particulière d’infection était à l’origine du déclenchement de la contagion. Après enquête auprès des malades, on s’est rendu compte qu’il y avait une forte corrélation entre le fait d’être infecté de cette souche de la maladie et le fait d’avoir mangé des épinards en sac. Fort de ce constat, l’agence responsable de la santé publique américaine a demandé un rappel massif de tous les épinards ensachés du pays et demandé à tous les Américains de cesser d’en consommer jusqu’à ce que l’épidémie soit arrêtée. Cette mesure a causé une perte de confiance généralisée du pays face aux épinards ensachés et l’industrie a mis plusieurs années à s’en remettre.

Plus tard, il a été établi que tous les cas de maladie étaient reliés à la production d’une seule ferme en Californie et qu’en attendant quelques jours de plus avant de faire le rappel, on aurait pu cibler que les quelques sacs produits là-bas plutôt que de démonter la production nationale américaine d’épinards. En gros, dans ce cas-ci, établir la causalité entre les cas de la maladie et la source de la contamination aurait été essentiel pour ne pas créer une peur des épinards chez nos voisins du sud.

L’obtention d’une carte de crédit dépend de votre score de crédit calculé à partir de centaines d’indicateurs. Image: MediaPhoto.Org, CC BY 3.0 (source)

Plus loin, l’auteur explique comment sont créés les scores de crédit qui déterminent la capacité de chaque individu à accéder à des prêts (hypothèque, carte de crédit, marge de crédit, etc.). En gros, les compagnies responsables d’établir ce score mesurent une centaine d’indicateurs pour chacun des individus et attribuent une note en fonction des différentes corrélations qui ont été établies entre chaque indicateur et le fait d’être en défaut de paiement.

Par exemple, il existe une forte corrélation entre le fait d’oublier régulièrement de payer son solde de carte de crédit et le fait de se retrouver en défaut de paiement. Aussi, si vous avez déjà fait faillite, il est plus probable que vous soyez en défaut de paiement sur votre carte de crédit.

Ainsi, en se basant sur une très grande quantité d’indicateurs et sur la relation mathématique qui les unit au risque de perdre de l’argent sur la créance, les compagnies attribuent un score à chaque individu et lui prêtent de l’argent en fonction de celui-ci. Dans ce cas, la corrélation est très importante mais il n’est pas nécessaire d’établir la causalité. On sait que le fait d’être un travailleur manuel est lié au risque de défaut de paiement et dans le contexte du prêt, il n’est pas nécessaire d’établir précisément la causalité qui existe entre les deux événements. Peut-être est-ce la nature instable de ce domaine d’emploi ou le type de personne qui s’impliquent dans ce domaine. Peut-être est-ce la variabilité du marché de la construction qui cause le lien. Pour la compagnie de crédit, cela importe peu puisque l’essentiel, c’est d’évaluer le risque de perdre de l’argent dans la transaction.

De retour au tweet du début

En relisant ce tweet, je pense qu’on peut établir qu’il y a un problème dans la relation entre la conclusion proposée et les données montrées.

En gros, la conclusion affirme une causalité « aimer une page d’une organisation de média change vos habitudes de consommation d’information sur Facebook » alors que les données semblent plutôt indiquer qu’il existe une corrélation entre le fait d’aimer la page d’une organisation de média et la consommation d’information. Le mot important pour voir qu’on sous-entend une causalité plutôt qu’une corrélation est l’utilisation du présent dans la conjugaison du verbe « changer ». Pour écrire correctement la conclusion qui s’impose à la lecture des données présentées, il faudrait dire: « Aimer une page d’une organisation de média est lié à vos habitudes de consommation de l’information sur Facebook ».

Plus largement, on peut penser que la corrélation, si elle existe, devrait plutôt être formulée à l’inverse. Le fait d’avoir des habitudes de consommation de l’information différentes sur Facebook doit causer le fait d’aimer la page d’une organisation de média. Et c’est une conclusion assez évidente, quand on y pense. Si vous aimez la Formule 1 en général, il y a plus de chances  que vous vous rendiez dans un musée consacré à l’histoire et la science de la Formule 1…

Publicités