Présenter des données, quel calvaire…

Dans mon cégep, certains étudiants qui se destinent aux communications et au journalisme sont appelés à suivre le cours de méthodes quantitatives généralement offert aux étudiants de sciences humaines. Ces étudiants me demandent souvent pourquoi ils doivent suivre ce cours, ce que ça leur apportera. La réponse que je leur donne est toujours la même.

Dans le cadre de votre pratique professionnelle, vous serez appelés à présenter ou commenter des données et vous devrez avoir les compétences nécessaires pour poser un jugement critique sur celles-ci.

Pour illustrer cette réalité, j’aimerais présenter ici deux exemples d’articles publiés par des médias québécois sérieux et qui comptent, à mon avis, des erreurs importantes au niveau de la présentation des données.

Les CPE, le privé et la qualité

Dans son édition de septembre 2018, le magazine L’Actualité présente un dossier sur les garderies et la qualité des services qu’ils offrent. Pour illustrer la situation, le magazine publie le graphique suivant à la page 60.CPE Qualité L'actualité sept 2018On y voit une représentation de la distribution de la classification de la qualité, dans différents types d’établissements. Je vous invite, avant de continuer la lecture, à écrire sur un papier votre première impression à la vue de ce graphique. En particulier, comparez les CPE et les garderies non subventionnées en ce qui a trait à la qualité.

Maintenant, regardez de plus près. Vous verrez que la catégorie « un service d’excellente qualité » n’est pas présentée dans le graphique des deux types de garderies non subventionnées, ce qui fausse complètement la comparaison naturelle que font les humains: comment se comparent la première catégorie d’un graphique avec la première catégorie d’un autre graphique.

Une fois ce problème révélé, la différence entre les CPE et les garderies saute aux yeux. Alors que seuls 2% des CPE offrent un service de faible qualité ou inférieur, c’est respectivement 41 et 36% des garderies non subventionnées pour bambins et pour les plus grands qui sont dans ces catégories. Gageons que vous n’aviez pas écrit cela sur votre papier.

La participation aux élections, version cartographique

Le 21 septembre 2018, en préparation pour les élections, le journal Le Devoir a publié sur sa plateforme web un article portant sur les taux de participations des différentes circonscriptions aux élections de 2014.

L’enjeu est important: la participation des Québécois aux élections est en déclin depuis plusieurs années et il est intéressant de se demander où ce déclin est le plus marqué. Le Devoir a tenté de représenter cette situation en plus de proposer une analyse statistique de corrélation entre différentes variables et le taux de participation dans une circonscription.

Si l’idée était bonne, à mon avis, l’exécution a été déficiente. Vous pouvez visiter l’article en suivant ce lien et revenir lire ma critique plus tard.

 

2018-09-21 10_29_55-Vos voisins ont-ils voté_ _ Le Devoir
La section choisie a une couleur mauve foncé (au moins 90% de participation selon l’échelle présentée en haut à droite) mais la participation se la section est à 66,67%. Le taux de participation de la section (66.67%) ne comprend pas le vote par anticipation alors que le taux de la circonscription (77,15%) le comprend. On ne peut comparer ces valeurs.

Allons-y point par point.

1) La carte interactive est intéressante mais la représentation des données est incompréhensible. L’échelle dit que le mauve foncé représente une participation plus élevée que la moyenne de 71,3%, or je ne suis pas arrivé à trouvé une seule section de vote mauve foncée pour laquelle le taux de participation dans la section était supérieur à 70%. En plus, le taux de participation final dans les circonscriptions comprend le vote par anticipation alors que ce n’est pas le cas dans les sections, ce qui rend la comparaison entre ces deux données impossible [ce qui est étrange sachant qu’elles sont présentées côte à côte dans les fenêtres].

2) Les nuages de points présentés sont assez mauvais. D’abord, leur titre ne respecte pas la convention utilisée à peu près partout dans le monde selon laquelle le titre se formule « variable dépendante (sur l’axe vertical) selon variable indépendante (sur l’axe horizontal) ». Par exemple, le premier nuage de points devrait s’appeler « Le taux de chômage selon la participation à l’élection » et non l’inverse. Ensuite, les axes ne sont pas nommés. Cela rend la lecture confuse, particulièrement si les deux variables représentées s’expriment en pourcentage. Le graphique « La participation selon l’obtention d’un diplôme universitaire » est un bon exemple de cette confusion, sans compter que la mesure utilisée pour « l’obtention d’un diplôme universitaire » n’est pas définie.

3) L’analyse de corrélation n’est pas appuyée par des mesures. Si la corrélation semble assez claire entre le taux de chômage et le taux de participation (quoi qu’assez surprenante, à mon humble avis), il n’en est pas de même pour d’autres paires de variables. Par exemple, j’ai montré le graphique représentant le taux de participation et le taux de diplomation à deux collègues et, entre trois enseignants en mathématique, aucun n’aurait dit qu’il existait une corrélation entre ces variables. Notons que l’article affirme que c’est le cas.

Le journalisme de données est à la mode ces temps-ci. Cependant, il faut réfléchir profondément à la méthodologie choisie pour présenter et analyser les données. À défaut de le faire, on risque de créer de la confusion, de mal informer le public ou de faire perdre du sens à la situation analysée. À mon humble avis, c’est le cas ici; l’exécution déficiente de cette analyse fait passer l’article à côté d’un vrai bon sujet de discussion et d’une réflexion posée sur les enjeux sous-jacents.

Présenter et interpréter des données, une compétence essentielle pour le communicateur d’aujourd’hui et de demain

La réalité, c’est qu’on ne peut pas passer à côté. Je vois mal comment on pourrait évoluer dans la sphère politique ou dans les médias sans posséder une minimale capacité à décortiquer des données statistiques ou à les représenter visuellement. C’est une compétence qui permet d’avoir un discours cohérent avec ce que l’on présente.

C’est pour cette raison qu’il est essentiel que nos journalistes et politiciens reçoivent une bonne formation à ce niveau et puissent évoluer dans notre monde où la donnée deviendra de plus en plus importante dans la sphère publique.

 

Note: Merci à François Gagnon de m’avoir montré le graphique de L’Actualité.

Publicités

Corrélation et causalité: attention ne pas mélanger

Cette semaine, une compagnie de recherche sur le domaine de l’Internet publiait les résultats d’un sondage dans le Tweet suivant:

Traduction:

Les résultats du sondage présentés avec le tweet. Source : Pew Research Center (tweet original)
Les résultats du sondage présentés avec le tweet. Source : Pew Research Center (tweet original)

L’image accompagnant le Tweet montrait le pourcentage des répondants ayant des comportements particuliers en lien avec la consultation de l’actualité sur Facebook en fonction du fait qu’ils aient ou non suivi la page d’un groupe médiatique important sur Facebook.

Prenez quelques minutes pour réfléchir à ces informations.

 

Causalité et corrélation

En recherche scientifique, on aimerait généralement établir le lien de causalité qui existe entre les événements. Par exemple, dans un contexte simple, on voudrait pouvoir dire: « si j’appuie sur ce bouton, alors cette lumière s’allumera ».  Dans ce contexte, la causalité est assez simple à établir; lorsque les conditions normales sont remplies (i.e. le circuit est branché sur une source électrique, tous les composants fonctionnent correctement, etc.), on peut vérifier que le circuit a bien pour fonction d’allumer la lumière et que l’événement « appuyer sur le bouton » et l’événement « la lumière s’allume » s’enchaîneront, le premier causant le second. Lorsqu’on exprime le lien qui unit des événements en garantissant que la réalisation du premier entraînera la réalisation du second, on donne le lien causal qui unit ces événements, la causalité.

Or, le monde humain et la nature ne sont pas toujours aussi faciles à expliquer et la causalité pas aussi évidente à tracer dans plusieurs situations. Dans ces cas, on est plutôt en mesure d’établir ce qu’on appelle une corrélation entre les événements. On dit que deux choses sont corrélées si on peut déterminer un lien mathématique établissant une relation entre deux événements. Par exemple, on a vu précédemment dans ce blogue qu’il existe un lien mathématique entre le fait de ne pas porter sa ceinture et le fait de mourir dans un accident de la route. Cela signifie qu’il existe une corrélation entre ces événements. Cependant, cela ne signifie pas qu’il y a une causalité entre les événements. Un ne cause pas nécessairement directement l’autre.

Quand on détermine la corrélation, on s’intéresse en gros à la probabilité que quelque chose se produise si une autre chose est observée. Quand on veut exprimer une causalité, on affirme avec assurance qu’un événement se produira si la prémisse se réalise.

Un exemple tiré d’un livre

Dans l’ouvrage « Numbers Rule Your World » de Kaiser Fung (un ouvrage que je recommande vivement et qui est facile à lire, même en anglais),  l’auteur donne deux exemples permettant d’illustrer la différence entre la causalité et la corrélation. Je me permets de réutiliser ses exemples très pertinents ici.

D’abord, Fung présente le récit d’une épidémie de la maladie E Coli qui a eu lieu aux États-Unis en 2006. Lors de cette épidémie plusieurs cas de la maladie ont été recensés à travers le pays et tous semblaient porter la même souche. On eut donc l’impression qu’une cause particulière d’infection était à l’origine du déclenchement de la contagion. Après enquête auprès des malades, on s’est rendu compte qu’il y avait une forte corrélation entre le fait d’être infecté de cette souche de la maladie et le fait d’avoir mangé des épinards en sac. Fort de ce constat, l’agence responsable de la santé publique américaine a demandé un rappel massif de tous les épinards ensachés du pays et demandé à tous les Américains de cesser d’en consommer jusqu’à ce que l’épidémie soit arrêtée. Cette mesure a causé une perte de confiance généralisée du pays face aux épinards ensachés et l’industrie a mis plusieurs années à s’en remettre.

Plus tard, il a été établi que tous les cas de maladie étaient reliés à la production d’une seule ferme en Californie et qu’en attendant quelques jours de plus avant de faire le rappel, on aurait pu cibler que les quelques sacs produits là-bas plutôt que de démonter la production nationale américaine d’épinards. En gros, dans ce cas-ci, établir la causalité entre les cas de la maladie et la source de la contamination aurait été essentiel pour ne pas créer une peur des épinards chez nos voisins du sud.

L’obtention d’une carte de crédit dépend de votre score de crédit calculé à partir de centaines d’indicateurs. Image: MediaPhoto.Org, CC BY 3.0 (source)

Plus loin, l’auteur explique comment sont créés les scores de crédit qui déterminent la capacité de chaque individu à accéder à des prêts (hypothèque, carte de crédit, marge de crédit, etc.). En gros, les compagnies responsables d’établir ce score mesurent une centaine d’indicateurs pour chacun des individus et attribuent une note en fonction des différentes corrélations qui ont été établies entre chaque indicateur et le fait d’être en défaut de paiement.

Par exemple, il existe une forte corrélation entre le fait d’oublier régulièrement de payer son solde de carte de crédit et le fait de se retrouver en défaut de paiement. Aussi, si vous avez déjà fait faillite, il est plus probable que vous soyez en défaut de paiement sur votre carte de crédit.

Ainsi, en se basant sur une très grande quantité d’indicateurs et sur la relation mathématique qui les unit au risque de perdre de l’argent sur la créance, les compagnies attribuent un score à chaque individu et lui prêtent de l’argent en fonction de celui-ci. Dans ce cas, la corrélation est très importante mais il n’est pas nécessaire d’établir la causalité. On sait que le fait d’être un travailleur manuel est lié au risque de défaut de paiement et dans le contexte du prêt, il n’est pas nécessaire d’établir précisément la causalité qui existe entre les deux événements. Peut-être est-ce la nature instable de ce domaine d’emploi ou le type de personne qui s’impliquent dans ce domaine. Peut-être est-ce la variabilité du marché de la construction qui cause le lien. Pour la compagnie de crédit, cela importe peu puisque l’essentiel, c’est d’évaluer le risque de perdre de l’argent dans la transaction.

De retour au tweet du début

En relisant ce tweet, je pense qu’on peut établir qu’il y a un problème dans la relation entre la conclusion proposée et les données montrées.

En gros, la conclusion affirme une causalité « aimer une page d’une organisation de média change vos habitudes de consommation d’information sur Facebook » alors que les données semblent plutôt indiquer qu’il existe une corrélation entre le fait d’aimer la page d’une organisation de média et la consommation d’information. Le mot important pour voir qu’on sous-entend une causalité plutôt qu’une corrélation est l’utilisation du présent dans la conjugaison du verbe « changer ». Pour écrire correctement la conclusion qui s’impose à la lecture des données présentées, il faudrait dire: « Aimer une page d’une organisation de média est lié à vos habitudes de consommation de l’information sur Facebook ».

Plus largement, on peut penser que la corrélation, si elle existe, devrait plutôt être formulée à l’inverse. Le fait d’avoir des habitudes de consommation de l’information différentes sur Facebook doit causer le fait d’aimer la page d’une organisation de média. Et c’est une conclusion assez évidente, quand on y pense. Si vous aimez la Formule 1 en général, il y a plus de chances  que vous vous rendiez dans un musée consacré à l’histoire et la science de la Formule 1…