Présenter des données, quel calvaire…

Dans mon cégep, certains étudiants qui se destinent aux communications et au journalisme sont appelés à suivre le cours de méthodes quantitatives généralement offert aux étudiants de sciences humaines. Ces étudiants me demandent souvent pourquoi ils doivent suivre ce cours, ce que ça leur apportera. La réponse que je leur donne est toujours la même.

Dans le cadre de votre pratique professionnelle, vous serez appelés à présenter ou commenter des données et vous devrez avoir les compétences nécessaires pour poser un jugement critique sur celles-ci.

Pour illustrer cette réalité, j’aimerais présenter ici deux exemples d’articles publiés par des médias québécois sérieux et qui comptent, à mon avis, des erreurs importantes au niveau de la présentation des données.

Les CPE, le privé et la qualité

Dans son édition de septembre 2018, le magazine L’Actualité présente un dossier sur les garderies et la qualité des services qu’ils offrent. Pour illustrer la situation, le magazine publie le graphique suivant à la page 60.CPE Qualité L'actualité sept 2018On y voit une représentation de la distribution de la classification de la qualité, dans différents types d’établissements. Je vous invite, avant de continuer la lecture, à écrire sur un papier votre première impression à la vue de ce graphique. En particulier, comparez les CPE et les garderies non subventionnées en ce qui a trait à la qualité.

Maintenant, regardez de plus près. Vous verrez que la catégorie « un service d’excellente qualité » n’est pas présentée dans le graphique des deux types de garderies non subventionnées, ce qui fausse complètement la comparaison naturelle que font les humains: comment se comparent la première catégorie d’un graphique avec la première catégorie d’un autre graphique.

Une fois ce problème révélé, la différence entre les CPE et les garderies saute aux yeux. Alors que seuls 2% des CPE offrent un service de faible qualité ou inférieur, c’est respectivement 41 et 36% des garderies non subventionnées pour bambins et pour les plus grands qui sont dans ces catégories. Gageons que vous n’aviez pas écrit cela sur votre papier.

La participation aux élections, version cartographique

Le 21 septembre 2018, en préparation pour les élections, le journal Le Devoir a publié sur sa plateforme web un article portant sur les taux de participations des différentes circonscriptions aux élections de 2014.

L’enjeu est important: la participation des Québécois aux élections est en déclin depuis plusieurs années et il est intéressant de se demander où ce déclin est le plus marqué. Le Devoir a tenté de représenter cette situation en plus de proposer une analyse statistique de corrélation entre différentes variables et le taux de participation dans une circonscription.

Si l’idée était bonne, à mon avis, l’exécution a été déficiente. Vous pouvez visiter l’article en suivant ce lien et revenir lire ma critique plus tard.

 

2018-09-21 10_29_55-Vos voisins ont-ils voté_ _ Le Devoir
La section choisie a une couleur mauve foncé (au moins 90% de participation selon l’échelle présentée en haut à droite) mais la participation se la section est à 66,67%. Le taux de participation de la section (66.67%) ne comprend pas le vote par anticipation alors que le taux de la circonscription (77,15%) le comprend. On ne peut comparer ces valeurs.

Allons-y point par point.

1) La carte interactive est intéressante mais la représentation des données est incompréhensible. L’échelle dit que le mauve foncé représente une participation plus élevée que la moyenne de 71,3%, or je ne suis pas arrivé à trouvé une seule section de vote mauve foncée pour laquelle le taux de participation dans la section était supérieur à 70%. En plus, le taux de participation final dans les circonscriptions comprend le vote par anticipation alors que ce n’est pas le cas dans les sections, ce qui rend la comparaison entre ces deux données impossible [ce qui est étrange sachant qu’elles sont présentées côte à côte dans les fenêtres].

2) Les nuages de points présentés sont assez mauvais. D’abord, leur titre ne respecte pas la convention utilisée à peu près partout dans le monde selon laquelle le titre se formule « variable dépendante (sur l’axe vertical) selon variable indépendante (sur l’axe horizontal) ». Par exemple, le premier nuage de points devrait s’appeler « Le taux de chômage selon la participation à l’élection » et non l’inverse. Ensuite, les axes ne sont pas nommés. Cela rend la lecture confuse, particulièrement si les deux variables représentées s’expriment en pourcentage. Le graphique « La participation selon l’obtention d’un diplôme universitaire » est un bon exemple de cette confusion, sans compter que la mesure utilisée pour « l’obtention d’un diplôme universitaire » n’est pas définie.

3) L’analyse de corrélation n’est pas appuyée par des mesures. Si la corrélation semble assez claire entre le taux de chômage et le taux de participation (quoi qu’assez surprenante, à mon humble avis), il n’en est pas de même pour d’autres paires de variables. Par exemple, j’ai montré le graphique représentant le taux de participation et le taux de diplomation à deux collègues et, entre trois enseignants en mathématique, aucun n’aurait dit qu’il existait une corrélation entre ces variables. Notons que l’article affirme que c’est le cas.

Le journalisme de données est à la mode ces temps-ci. Cependant, il faut réfléchir profondément à la méthodologie choisie pour présenter et analyser les données. À défaut de le faire, on risque de créer de la confusion, de mal informer le public ou de faire perdre du sens à la situation analysée. À mon humble avis, c’est le cas ici; l’exécution déficiente de cette analyse fait passer l’article à côté d’un vrai bon sujet de discussion et d’une réflexion posée sur les enjeux sous-jacents.

Présenter et interpréter des données, une compétence essentielle pour le communicateur d’aujourd’hui et de demain

La réalité, c’est qu’on ne peut pas passer à côté. Je vois mal comment on pourrait évoluer dans la sphère politique ou dans les médias sans posséder une minimale capacité à décortiquer des données statistiques ou à les représenter visuellement. C’est une compétence qui permet d’avoir un discours cohérent avec ce que l’on présente.

C’est pour cette raison qu’il est essentiel que nos journalistes et politiciens reçoivent une bonne formation à ce niveau et puissent évoluer dans notre monde où la donnée deviendra de plus en plus importante dans la sphère publique.

 

Note: Merci à François Gagnon de m’avoir montré le graphique de L’Actualité.

Publicités

Attention, ce billet contient une image graphique…

L’utilisation d’un graphique pour illustrer un phénomène est une pratique classique. Le graphique permet souvent de transmettre une grande quantité d’informations en un minimum d’espace et rend un texte plus vivant. Le graphique permet aussi de faire ressortir des tendances, de mettre l’accent sur des phénomènes particuliers. La schématisation des données est élément essentiel dans la publication scientifique et permet aux rédacteurs d’articles scientifique et d’actualité de présenter de façon intéressante le résultat de leurs recherches.

C’est d’ailleurs ce qu’a fait le Journal de Québec dans son édition du 11 novembre dernier. En effet, dans un dossier titré «Des Québécoises forcées de se faire avorter au É.-U» occupant les pages 4 et 5 du journal, on nous explique que des patientes québécoises désirant se faire avorter doivent se rendre aux États-Unis parce que leur grossesse est si avancée que les médecins québécois refusent d’en faire l’interruption. Sans faire la critique de cette situation, observons les chiffres présentés dans l’article. Consigne: en quelques coups d’œil, résumez dans votre tête le contenu des deux graphiques suivant.

Sans titre
Étudions le graphique suivant présenté dans l’article.

Je parie que vous en avez retenu que le nombre d’avortements pratiqués aux États-Unis a largement augmenté et le nombre d’avortements pratiqués au Québec a largement chuté dans les dernières années. C’est tout à fait normal, c’est effectivement l’impression que donne ce graphique. Mais, au-delà de l’impression, que disent vraiment ces graphiques? Approfondissons.

Prenons d’abord le deuxième graphique. Il est mauvais mais vraiment moins mauvais que le premier (que nous nous garderons pour le dessert). Dans ce deuxième graphique, on voit la variation du nombre avortements faits entre 2008 et 2011. Le problème fondamental du graphique vient du fait que l’axe vertical n’est pas identifié et est coupé. Mettons les choses au clair : il ne faut jamais présenter un graphique chronologique (présentant des données qui varient dans le temps) sans axe vertical identifiant les valeurs et il très peu recommandé d’en couper les axes.

Ne pas respecter cette dernière consigne peut rendre la variation relative de la hauteur des bandes trompeuse. Par exemple, comparez visuellement la deuxième et la troisième barre du graphique : la première est deux fois plus grande que la seconde, ce qui semble indiquer qu’il y a eu deux fois moins d’avortements en 2010 par rapport à 2009. Or, quand on fait le calcul, on se rend compte qu’il y a eu une baisse de seulement 1,4% entre les deux années (\frac{26497-26197}{26497}=-0,014=-1,4\% ).

Le graphique montre une modification drastique due à son axe tronqué alors qu’en réalité la tendance est presque négligeable. En fait, la bonne interprétation que vous devriez tirer de ces chiffres est que le nombre d’avortements est relativement stable au Québec, interprétation qui n’est pas du tout évidente au premier coup d’œil (sans regarder les chiffres).

Maintenant, observons le premier graphique. Disons-le clairement, si un étudiant me présentait un tel graphique, il entendrait parler de moi longtemps (et c’est publié dans un journal sérieux…) Depuis au moins l’Antiquité, toutes les langues dérivées du grec et du latin se lisent et s’écrivent de gauche à droite. Demandez à un enfant de vous dessiner une ligne des nombres ou une frise historique et il tracera une flèche dont l’origine est à gauche et l’extrémité fléchée est à droite. La personne qui a conçu ce graphique a choisi de défier cette convention presque universelle. Si je supposais la mauvaise fois des gens, je dirais que ce graphique a été conçu pour nous tromper. En renversant la présentation, on fait dire exactement le contraire de ce que disent les données.

Si vous êtes comme moi, en regardant rapidement ce graphique, vous vous êtes dit: «Oh la la, le nombre d’avortements faits aux États-Unis a beaucoup augmenté dernièrement!» Vous avez fait cette analyse parce que vous avez regardé les nombres d’interruptions de grossesse de gauche à droite, comme pour tous les graphiques qui vous sont présentés dans la vie (même le deuxième graphique de notre exemple!). Or, la réalité est toute autre en fait. Le nombre d’avortements pratiqués aux États-Unis a beaucoup diminué, de 69% plus précisément (\frac{12-42}{42}=-69\% ). Difficile de ne pas penser que cette présentation a été faite pour donner l’impression que le phénomène s’aggrave, justifiant de s’en indigner dans un article. Dans les faits, si les chiffres sont corrects, la tendance est totalement inverse et on peut penser que la situation pourrait se régler d’elle-même.

De façon plus générale, on peut aussi mettre en perspective les chiffres présentés dans l’article. En 2011, 26 248 avortements ont eu lieu. De ce nombre, environ une vingtaine ont dû être effectués du côté américain parce qu’ils ont été refusés au Québec. On parle donc de moins de 1 avortement sur 1000 qui doit être fait à l’étranger. Est-ce une situation alarmante? Assez pour justifier un article aussi noir? Je ne le crois pas, surtout considérant que la tendance est à la baisse depuis 4 ans.

Présenter des données dans un graphique est une chose très positive lorsque cela est bien fait. Cependant, lorsqu’on le fait mal, on peut induire ses lecteurs en erreur en présentant un vision erronée. Comme rédacteur, il faut faire attention d’illustrer ses textes au moyen de graphiques bien construits, facilitant la lecture et présentant l’information de façon juste. Comme lecteur, je vous invite à toujours porter un regard critique sur les données illustrées, particulièrement dans le cas où un axe est absent ou tronqué. Cette vigilance vous sauvera probablement régulièrement d’être enfirouapé par un graphique trompeur.

La semaine prochaine, je compléterai la formation sur le test du khi-carré avec un exemple tiré de l’actualité.