Présenter des données, quel calvaire…

Dans mon cégep, certains étudiants qui se destinent aux communications et au journalisme sont appelés à suivre le cours de méthodes quantitatives généralement offert aux étudiants de sciences humaines. Ces étudiants me demandent souvent pourquoi ils doivent suivre ce cours, ce que ça leur apportera. La réponse que je leur donne est toujours la même.

Dans le cadre de votre pratique professionnelle, vous serez appelés à présenter ou commenter des données et vous devrez avoir les compétences nécessaires pour poser un jugement critique sur celles-ci.

Pour illustrer cette réalité, j’aimerais présenter ici deux exemples d’articles publiés par des médias québécois sérieux et qui comptent, à mon avis, des erreurs importantes au niveau de la présentation des données.

Les CPE, le privé et la qualité

Dans son édition de septembre 2018, le magazine L’Actualité présente un dossier sur les garderies et la qualité des services qu’ils offrent. Pour illustrer la situation, le magazine publie le graphique suivant à la page 60.CPE Qualité L'actualité sept 2018On y voit une représentation de la distribution de la classification de la qualité, dans différents types d’établissements. Je vous invite, avant de continuer la lecture, à écrire sur un papier votre première impression à la vue de ce graphique. En particulier, comparez les CPE et les garderies non subventionnées en ce qui a trait à la qualité.

Maintenant, regardez de plus près. Vous verrez que la catégorie « un service d’excellente qualité » n’est pas présentée dans le graphique des deux types de garderies non subventionnées, ce qui fausse complètement la comparaison naturelle que font les humains: comment se comparent la première catégorie d’un graphique avec la première catégorie d’un autre graphique.

Une fois ce problème révélé, la différence entre les CPE et les garderies saute aux yeux. Alors que seuls 2% des CPE offrent un service de faible qualité ou inférieur, c’est respectivement 41 et 36% des garderies non subventionnées pour bambins et pour les plus grands qui sont dans ces catégories. Gageons que vous n’aviez pas écrit cela sur votre papier.

La participation aux élections, version cartographique

Le 21 septembre 2018, en préparation pour les élections, le journal Le Devoir a publié sur sa plateforme web un article portant sur les taux de participations des différentes circonscriptions aux élections de 2014.

L’enjeu est important: la participation des Québécois aux élections est en déclin depuis plusieurs années et il est intéressant de se demander où ce déclin est le plus marqué. Le Devoir a tenté de représenter cette situation en plus de proposer une analyse statistique de corrélation entre différentes variables et le taux de participation dans une circonscription.

Si l’idée était bonne, à mon avis, l’exécution a été déficiente. Vous pouvez visiter l’article en suivant ce lien et revenir lire ma critique plus tard.

 

2018-09-21 10_29_55-Vos voisins ont-ils voté_ _ Le Devoir
La section choisie a une couleur mauve foncé (au moins 90% de participation selon l’échelle présentée en haut à droite) mais la participation se la section est à 66,67%. Le taux de participation de la section (66.67%) ne comprend pas le vote par anticipation alors que le taux de la circonscription (77,15%) le comprend. On ne peut comparer ces valeurs.

Allons-y point par point.

1) La carte interactive est intéressante mais la représentation des données est incompréhensible. L’échelle dit que le mauve foncé représente une participation plus élevée que la moyenne de 71,3%, or je ne suis pas arrivé à trouvé une seule section de vote mauve foncée pour laquelle le taux de participation dans la section était supérieur à 70%. En plus, le taux de participation final dans les circonscriptions comprend le vote par anticipation alors que ce n’est pas le cas dans les sections, ce qui rend la comparaison entre ces deux données impossible [ce qui est étrange sachant qu’elles sont présentées côte à côte dans les fenêtres].

2) Les nuages de points présentés sont assez mauvais. D’abord, leur titre ne respecte pas la convention utilisée à peu près partout dans le monde selon laquelle le titre se formule « variable dépendante (sur l’axe vertical) selon variable indépendante (sur l’axe horizontal) ». Par exemple, le premier nuage de points devrait s’appeler « Le taux de chômage selon la participation à l’élection » et non l’inverse. Ensuite, les axes ne sont pas nommés. Cela rend la lecture confuse, particulièrement si les deux variables représentées s’expriment en pourcentage. Le graphique « La participation selon l’obtention d’un diplôme universitaire » est un bon exemple de cette confusion, sans compter que la mesure utilisée pour « l’obtention d’un diplôme universitaire » n’est pas définie.

3) L’analyse de corrélation n’est pas appuyée par des mesures. Si la corrélation semble assez claire entre le taux de chômage et le taux de participation (quoi qu’assez surprenante, à mon humble avis), il n’en est pas de même pour d’autres paires de variables. Par exemple, j’ai montré le graphique représentant le taux de participation et le taux de diplomation à deux collègues et, entre trois enseignants en mathématique, aucun n’aurait dit qu’il existait une corrélation entre ces variables. Notons que l’article affirme que c’est le cas.

Le journalisme de données est à la mode ces temps-ci. Cependant, il faut réfléchir profondément à la méthodologie choisie pour présenter et analyser les données. À défaut de le faire, on risque de créer de la confusion, de mal informer le public ou de faire perdre du sens à la situation analysée. À mon humble avis, c’est le cas ici; l’exécution déficiente de cette analyse fait passer l’article à côté d’un vrai bon sujet de discussion et d’une réflexion posée sur les enjeux sous-jacents.

Présenter et interpréter des données, une compétence essentielle pour le communicateur d’aujourd’hui et de demain

La réalité, c’est qu’on ne peut pas passer à côté. Je vois mal comment on pourrait évoluer dans la sphère politique ou dans les médias sans posséder une minimale capacité à décortiquer des données statistiques ou à les représenter visuellement. C’est une compétence qui permet d’avoir un discours cohérent avec ce que l’on présente.

C’est pour cette raison qu’il est essentiel que nos journalistes et politiciens reçoivent une bonne formation à ce niveau et puissent évoluer dans notre monde où la donnée deviendra de plus en plus importante dans la sphère publique.

 

Note: Merci à François Gagnon de m’avoir montré le graphique de L’Actualité.

Publicités

Le football, ce n’est pas uniforme!

Lors d’un match de l’Impact en 2013 Image: Joe Nuxoll, CC BY 2.0 (source)

Disons-le clairement, je ne suis pas un spécialiste du football (aussi appelé soccer en Amérique du Nord). Ceci étant dit, quand je lis des sites de nouvelles sportives généralistes, je m’attends quand même à comprendre l’essentiel de ce que j’y rencontre.

Aujourd’hui, en lisant un article sur la participation historique de l’Impact de Montréal à la demi-finale de la Ligue des champions de la CONCACAF, j’ai lu une citation provenant de l’entraîneur-chef Frank Klopas. En parlant de leurs adversaires et de leurs qualités il fait une déclaration surprenante en termes mathématiques:

Ils s’adaptent rapidement aux différentes situations. Ils sont très physiques pour ceux que j’ai vus, mais ils n’ont pas utilisé tous leurs partants dans le match de dimanche. Il faut s’attendre à ce qu’ils entreprennent le match avec énergie. À domicile, ils marquent 25 % de leurs buts dans les 30 premières minutes du match.

Notons que malgré mon inculture footballistique, je sais tout de même qu’un match est composé de deux demies de 45 minutes, ce qui représente un temps de jeu total de 90 minutes. Ainsi, si on reformule l’affirmation du coach, on en comprends essentiellement: « Ils sont bons parce que, dans les premiers 33,3% du match, ils comptent 25% de leurs buts ».

Intuitivement, c’est un peu surprenant. Disons que notre cerveau s’attendrait à ce qu’une équipe excellente en début de match compte plus du tiers de ses buts en premier tiers de match. Cela signifierait que cette équipe a un rendement meilleur que la répartition uniforme en premier tiers de match. Or, cette attente de notre cerveau est juste si la répartition des buts au football est effectivement uniforme dans chaque minute du match. C’est le cas si chaque minute du match a la même probabilité contenir un but marqué.

La répartition des buts comptés dans 8 ans de compétition d’une ligue de soccer par période de 5 minutes. Notons qu’il semble y avoir une anomalie à la fin de la première demie. Simplement, on doit savoir que les buts marqués dans les minutes ajoutées à la fin de la demie pour compenser les arrêts de jeu sont notés comme réalisés à la 45e minute. Ainsi, cette période de cinq minutes est donc dans la réalité généralement plus longue que cinq minutes, ce qui explique qu’on y marque plus de buts. Image: FORD BOHRMANN, utilisée à des fins pédagogiques (source).

Après une suggestion d’un ami et quelques recherches, je me suis penché sur la question et j’ai trouvé ce billet de blogue qui analyse le nombre de buts comptés par période de 5 minutes de match pour 8 ans de matchs d’une Ligue européenne. Ce qu’on y remarque, c’est que, en gros, plus une période de 5 minutes arrive tard dans le match, plus il y a de chances qu’un but soit marqué dans cette période. Ainsi, si ces données représentent bien la distribution des buts au soccer, il semble que la probabilité de voir un but se marquer dans une minute particulière du match n’est pas uniforme. Si c’était le cas, toutes les barres du graphique précédent devraient avoir la même hauteur.

Ainsi, même si l’affirmation du coach ne nous paraît pas intuitivement correcte, il semble qu’elle soit explicable. Supposons que dans les matchs de soccer, il se compte généralement 20% des buts dans le premier tiers de match, 35% dans le deuxième tiers et 45% dans le dernier tiers. Dans ce contexte, une équipe qui marque 25% de ses buts dans le premier tiers est sur-performante par rapport aux autres et peut tirer un avantage (ou un inconvénient) de cette différence. Cependant, la statistique est très difficile à comprendre pour le commun des mortels sans qu’on lui donne un point de référence pour comparer la performance de l’équipe à celle de toutes les autres, particulièrement dans un contexte où on pourrait s’attendre à ce que la distribution soit uniforme.

Pour que l’affirmation de Klopas soit interprétable facilement, on aurait pu la formuler ainsi:

Sachant que la plupart des équipes marquent 20 ou 22% [si c’est effectivement le bon chiffre] de leurs buts dans les premières trente minutes, nos adversaires en marquent plus de 25% dans cette période lorsqu’ils sont à domicile. C’est un avantage important pour eux de pouvoir marquer des buts aussi vite.

Au final, il est important de noter que lorsqu’on analyse des valeurs mathématiques et des mesures, il est important de bien comprendre quelles sont les choses que l’ont prend pour vrai dans la réalisation de notre analyse et de s’assurer qu’elles sont effectivement vraies. Ici, mon incompréhension de l’affirmation venait du fait que la répartition des buts au soccer n’est pas uniforme. Ainsi, il est normal qu’une équipe compte moins d’un tiers des buts dans le premier tiers du match. Sans avoir cette information cruciale ou sans avoir fait plus de recherches, impossible pour moi de saisir l’importance de l’affirmation de l’entraîneur. Disons aussi que celui-ci ou le journaliste aurait pu faire un effort pour expliquer la chose…

Corrélation et causalité: attention ne pas mélanger

Cette semaine, une compagnie de recherche sur le domaine de l’Internet publiait les résultats d’un sondage dans le Tweet suivant:

Traduction:

Les résultats du sondage présentés avec le tweet. Source : Pew Research Center (tweet original)
Les résultats du sondage présentés avec le tweet. Source : Pew Research Center (tweet original)

L’image accompagnant le Tweet montrait le pourcentage des répondants ayant des comportements particuliers en lien avec la consultation de l’actualité sur Facebook en fonction du fait qu’ils aient ou non suivi la page d’un groupe médiatique important sur Facebook.

Prenez quelques minutes pour réfléchir à ces informations.

 

Causalité et corrélation

En recherche scientifique, on aimerait généralement établir le lien de causalité qui existe entre les événements. Par exemple, dans un contexte simple, on voudrait pouvoir dire: « si j’appuie sur ce bouton, alors cette lumière s’allumera ».  Dans ce contexte, la causalité est assez simple à établir; lorsque les conditions normales sont remplies (i.e. le circuit est branché sur une source électrique, tous les composants fonctionnent correctement, etc.), on peut vérifier que le circuit a bien pour fonction d’allumer la lumière et que l’événement « appuyer sur le bouton » et l’événement « la lumière s’allume » s’enchaîneront, le premier causant le second. Lorsqu’on exprime le lien qui unit des événements en garantissant que la réalisation du premier entraînera la réalisation du second, on donne le lien causal qui unit ces événements, la causalité.

Or, le monde humain et la nature ne sont pas toujours aussi faciles à expliquer et la causalité pas aussi évidente à tracer dans plusieurs situations. Dans ces cas, on est plutôt en mesure d’établir ce qu’on appelle une corrélation entre les événements. On dit que deux choses sont corrélées si on peut déterminer un lien mathématique établissant une relation entre deux événements. Par exemple, on a vu précédemment dans ce blogue qu’il existe un lien mathématique entre le fait de ne pas porter sa ceinture et le fait de mourir dans un accident de la route. Cela signifie qu’il existe une corrélation entre ces événements. Cependant, cela ne signifie pas qu’il y a une causalité entre les événements. Un ne cause pas nécessairement directement l’autre.

Quand on détermine la corrélation, on s’intéresse en gros à la probabilité que quelque chose se produise si une autre chose est observée. Quand on veut exprimer une causalité, on affirme avec assurance qu’un événement se produira si la prémisse se réalise.

Un exemple tiré d’un livre

Dans l’ouvrage « Numbers Rule Your World » de Kaiser Fung (un ouvrage que je recommande vivement et qui est facile à lire, même en anglais),  l’auteur donne deux exemples permettant d’illustrer la différence entre la causalité et la corrélation. Je me permets de réutiliser ses exemples très pertinents ici.

D’abord, Fung présente le récit d’une épidémie de la maladie E Coli qui a eu lieu aux États-Unis en 2006. Lors de cette épidémie plusieurs cas de la maladie ont été recensés à travers le pays et tous semblaient porter la même souche. On eut donc l’impression qu’une cause particulière d’infection était à l’origine du déclenchement de la contagion. Après enquête auprès des malades, on s’est rendu compte qu’il y avait une forte corrélation entre le fait d’être infecté de cette souche de la maladie et le fait d’avoir mangé des épinards en sac. Fort de ce constat, l’agence responsable de la santé publique américaine a demandé un rappel massif de tous les épinards ensachés du pays et demandé à tous les Américains de cesser d’en consommer jusqu’à ce que l’épidémie soit arrêtée. Cette mesure a causé une perte de confiance généralisée du pays face aux épinards ensachés et l’industrie a mis plusieurs années à s’en remettre.

Plus tard, il a été établi que tous les cas de maladie étaient reliés à la production d’une seule ferme en Californie et qu’en attendant quelques jours de plus avant de faire le rappel, on aurait pu cibler que les quelques sacs produits là-bas plutôt que de démonter la production nationale américaine d’épinards. En gros, dans ce cas-ci, établir la causalité entre les cas de la maladie et la source de la contamination aurait été essentiel pour ne pas créer une peur des épinards chez nos voisins du sud.

L’obtention d’une carte de crédit dépend de votre score de crédit calculé à partir de centaines d’indicateurs. Image: MediaPhoto.Org, CC BY 3.0 (source)

Plus loin, l’auteur explique comment sont créés les scores de crédit qui déterminent la capacité de chaque individu à accéder à des prêts (hypothèque, carte de crédit, marge de crédit, etc.). En gros, les compagnies responsables d’établir ce score mesurent une centaine d’indicateurs pour chacun des individus et attribuent une note en fonction des différentes corrélations qui ont été établies entre chaque indicateur et le fait d’être en défaut de paiement.

Par exemple, il existe une forte corrélation entre le fait d’oublier régulièrement de payer son solde de carte de crédit et le fait de se retrouver en défaut de paiement. Aussi, si vous avez déjà fait faillite, il est plus probable que vous soyez en défaut de paiement sur votre carte de crédit.

Ainsi, en se basant sur une très grande quantité d’indicateurs et sur la relation mathématique qui les unit au risque de perdre de l’argent sur la créance, les compagnies attribuent un score à chaque individu et lui prêtent de l’argent en fonction de celui-ci. Dans ce cas, la corrélation est très importante mais il n’est pas nécessaire d’établir la causalité. On sait que le fait d’être un travailleur manuel est lié au risque de défaut de paiement et dans le contexte du prêt, il n’est pas nécessaire d’établir précisément la causalité qui existe entre les deux événements. Peut-être est-ce la nature instable de ce domaine d’emploi ou le type de personne qui s’impliquent dans ce domaine. Peut-être est-ce la variabilité du marché de la construction qui cause le lien. Pour la compagnie de crédit, cela importe peu puisque l’essentiel, c’est d’évaluer le risque de perdre de l’argent dans la transaction.

De retour au tweet du début

En relisant ce tweet, je pense qu’on peut établir qu’il y a un problème dans la relation entre la conclusion proposée et les données montrées.

En gros, la conclusion affirme une causalité « aimer une page d’une organisation de média change vos habitudes de consommation d’information sur Facebook » alors que les données semblent plutôt indiquer qu’il existe une corrélation entre le fait d’aimer la page d’une organisation de média et la consommation d’information. Le mot important pour voir qu’on sous-entend une causalité plutôt qu’une corrélation est l’utilisation du présent dans la conjugaison du verbe « changer ». Pour écrire correctement la conclusion qui s’impose à la lecture des données présentées, il faudrait dire: « Aimer une page d’une organisation de média est lié à vos habitudes de consommation de l’information sur Facebook ».

Plus largement, on peut penser que la corrélation, si elle existe, devrait plutôt être formulée à l’inverse. Le fait d’avoir des habitudes de consommation de l’information différentes sur Facebook doit causer le fait d’aimer la page d’une organisation de média. Et c’est une conclusion assez évidente, quand on y pense. Si vous aimez la Formule 1 en général, il y a plus de chances  que vous vous rendiez dans un musée consacré à l’histoire et la science de la Formule 1…

Toute baisse du taux de chômage est bonne pour l’économie

Les taux sont des valeurs obtenues en faisant le rapport entre deux quantités et en exprimant le résultat en pourcentage. Le taux de natalité, le taux de satisfaction, le taux de change et toutes sortes d’autres sont des mesures qui sont souvent utilisées en sciences humaines.

Chaque taux a sa définition et il est bien important de bien comprendre cette définition pour être en mesure de faire une analyse fine de sa valeur. Sans cette compréhension, il sera possible de faire des erreurs d’interprétation.

Le taux de chômage

Le taux de chômage est une mesure déterminante pour poser un diagnostic sur l’emploi et l’économie d’une région géographique. Au Canada, Statistique Canada produit mensuellement un rapport sur la question. À chaque mois, les médias se penchent sur ces données pour tenter d’en tirer des informations sur la vigueur du marché de l’emploi au pays.

En général, on comprend que si le taux de chômage diminue, c’est parce que le nombre de chômeurs a diminué parce qu’ils se sont trouvé des emplois. Inversement, si le taux de chômage augmente, c’est parce que des personnes ont perdu leur emploi. C’est une compréhension qui est à la fois juste et erronée. La confusion vient généralement d’une mauvaise connaissance des définitions qui mènent au calcul de ce taux.

Un tableau publié par Statistique Canada sur le chômage.
Un tableau publié par Statistique Canada sur le chômage.

Qu’est-ce que le chômage?

Selon le ministère canadien de l’emploi, les chômeurs sont:

les personnes qui, durant la semaine de référence, n’avaient pas de travail, étaient disponibles pour travailler et avaient été mises à pied temporairement, avaient cherché un emploi au cours des quatre dernières semaines ou devaient commencer un emploi au cours des quatre prochaines semaines.

Pour simplifier, on peut dire qu’il faut trois caractéristiques être chômeur: 1) ne pas avoir d’emploi, 2) être apte et disponible pour le travail, 3) être à la recherche active d’un travail. Cela signifie, par exemple, que la personne qui part en voyage à l’étranger après avoir perdu son emploi n’est pas considérée parmi les chômeurs car elle n’est pas disponible pour le travail. Aussi, et c’est important de le noter, une personne qui ne se cherche pas d’emploi n’est pas considérée comme un chômeur. Par exemple, les personnes aptes au travail recevant de l’aide sociale ne sont pas considérés comme des chômeurs malgré ce qu’on pourrait peut-être penser.

De plus, la définition du taux de chômage est aussi importante. Elle est la suivante:

\text{Taux de ch\^omage}=\frac{\text{ch\^omeurs}}{\text{population active}}

D’abord, disons que la population active est composée de la somme des personnes occupant un emploi et des chômeurs. Ensuite, remarquons que deux choses peuvent faire varier ce taux. Une augmentation du nombre de chômeurs, selon la définition précédente, aura un effet à la hausse sur le taux calculé. Cependant, à nombre de chômeurs égal, une diminution de la population active aura aussi le même effet.

Toute baisse du taux de chômage est bonne pour l’économie

Reprenons l’affirmation pour l’analyser. La plupart du temps, une baisse du taux de chômage est causée par la diminution du nombre de chômeurs. De façon générale, cette baisse est causée par le retour au travail des travailleurs considérés au chômage. Cela signifie que la population active reste la même (ou augmente un tout petit peu, de façon relative) et que les chômeurs ayant retrouvé un emploi sont envoyés dans la population occupée. Dans ce contexte, on peut considérer cette baisse comme positive pour l’économie.

Cependant, il se peut aussi que la baisse du taux de chômage soit due à une diminution de la taille de la population active causée par une quantité de chômeurs ayant arrêté de chercher un emploi. Dans ce cas, on verra une baisse du taux de chômage mais une augmentation du nombre de personnes sans emploi. En effet, la diminution du nombre de chômeurs et de la population active, par ricochet, aura un effet à la baisse sur le taux de chômage. On ne peut pas le voir comme quelque chose de positif.

Démontrons la chose par un exemple numérique. Supposons qu’en mars 2014, il y avait à Québec 245 000 personnes occupées et 20 000 personnes au chômage pour un taux de chômage de \frac{20000}{245000+20000}=7,5\% . Supposons qu’un mois plus tard, 5000 chômeurs ont arrêté de se chercher un emploi parce que le marché ne leur offre pas de possibilités mais que l’emploi est resté stable. Ainsi, on trouvera un taux de chômage de \frac{15000}{245000+15000}=5,8\%. Personne ne s’en réjouira.

Ainsi, certaines baisses du taux de chômage sont positives alors que d’autres sont négatives, il faut considérer un autre facteur pour déterminer dans quel cas on se trouve. En effet, en coordonnant notre observation du taux de chômage avec celle du taux d’activité (rapport entre la population active et la population en âge de travailler), on peut tirer de meilleures conclusions. Une baisse du taux de chômage accompagnée d’une baisse du taux d’activité est un mauvais signe pour le marché de l’emploi. Une baisse du taux de chômage avec une stagnation ou une augmentation du taux d’activité sera au contraire de bon augure.

Deux exemples

En 2008 aux États-Unis, la crise économique a frappé de plein fouet. Beaucoup de personnes ont perdu leur emploi, fait faillite, perdu leur maison, etc. Des grandes entreprises des domaines bancaires et automobiles ont frôlé la mort et ont dû être sauvées par les gouvernements. Je me souviens d’avoir lu à plusieurs endroits des journalistes se réjouir de la baisse des taux de chômage alors que dans les faits, les choses avaient empiré par le retrait de personnes de la population active.

Au contraire, Radio-Canada rapportait cette semaine l’analyse des données de l’emploi publiées par Statistique Canada et présentées plus haut. Dans l’article sur le sujet, la précision est correctement donnée:

Le nombre de Québécois sur le marché du travail a diminué de 32 000 en avril. Néanmoins, le taux de chômage se maintient à 7,6 % parce qu’il y avait moins de personnes en recherche d’emploi au cours de cette période.

Avant d’essayer d’analyser un taux ou une donnée, il faut toujours s’assurer de bien comprendre comment est construite cette donnée. De cette façon, on pourra éviter de tirer des conclusions incorrectes sur la base de mauvaises prémisses.

Créativité versus lisibilité

Présenter des données dans un graphique est un art. Chez le présentateur, il existe souvent une tentation d’être créatif et d’illustrer les informations d’une manière inattendue ou nouvelle. On espère de cette manière intéresser le lecteur et lui donner envie d’explorer le résultat de son travail.

Quand cela est réussi, le lecteur en ressort gagnant: il a compris rapidement une grande masse d’informations dans un format nouveau qui a créé l’étincelle suffisante pour lui faire apprécier ce travail.

Un exemple de créativité intéressant

Le «meilleur graphique de tous les temps» selon certains. Cliquez sur l’image pour en voir les multiples détails. Auteur: Charles Minard (domaine public) (source)

Prenons pour exemple l’image ci-dessus, qui est appelée par certains «le meilleur graphique de tous les temps». Il s’agit d’une représentation fort créative d’une très grande quantité de données expliquant la campagne désastreuse de Napoléon 1er en Russie. On y voit en beige la marche de l’armée vers Moscou sur la carte de l’Europe. La taille de la colonne est proportionnelle à la taille de l’armée et se réduit au fur et à mesure des pertes humaines et des batailles.

À Moscou, Napoléon a subi la défaite et dut rebrousser chemin vers la France. La bande noire illustre cette retraite dans l’espace, la réduction de la largeur étant encore proportionnelle à la taille de l’armée à ce moment. Un autre facteur important dans l’échec de cette offensive fut la rigueur extrême de l’hiver qu’ont vécu les soldats lors de leur retour. Le bas du graphique montre la chute de la température extérieure au fur et à mesure du retour vers l’Empire français. On peut donc voir sur cette représentation visuelle plusieurs variables illustrées de belle façon (la position géographique en deux dimensions, la taille de l’armée à chaque moment et la température extérieure). C’est une utilisation intelligente et créative d’une représentation graphique. Vous pouvez en apprendre plus sur ce graphique particulier en écoutant les explications d’un mathématicien dans ce vidéo (en anglais) sur Youtube.

Un autre exemple à étudier

J’aimerais maintenant vous proposer un exercice de lecture de graphique. Dans le vidéo qui suit, regardez le diagramme présenté et consignez par écrit vos impressions quant aux données qui y sont présentées.

L’objectif est de vous laisser seulement quelques secondes pour aller chercher les informations essentielles du graphique, les points tournants et les grandes tendances qu’on peut en tirer puis que vous les inscriviez sur une feuille. Comme la lecture d’informations visuelles dans les médias est généralement faite rapidement, sans aller en profondeur, le vidéo vous présentera le graphique pendant quelques secondes. Faites jouer le vidéo une seule fois avant d’écrire vos conclusions et continuez ensuite votre lecture de cet article pour vérifier votre analyse. Si vous en avez envie, partagez avec tout le monde ce que vous avez inscrit sur votre papier dans les commentaires de l’article, tout en bas de la présente page.

Un contre-exemple illustrant les dérives possibles

Analysons maintenant le résultat de votre observation en faisant ressortir les informations essentielles du tracé que vous avez regardé. On verra qu’inversement à l’exemple du «meilleur graphique jamais produit», pécher par excès de créativité amène parfois ceux qui présentent des données à aller à l’encontre des différentes conventions qui permettent au lecteur de bien saisir les informations.

Dans le premier graphique, la première lecture donne l'impression que le nombre d'avortements va en croissant dû à l'inversement de l'axe horizontal. J'ai déjà traité cet exemple dans un billet précédent.
Dans le premier graphique, la première lecture donne l’impression que le nombre d’avortements va en croissant dû à l’inversement de l’axe horizontal. J’ai déjà traité cet exemple dans un billet précédent.

J’ai déjà rappelé dans un billet précédent que la lecture de tous les graphiques se fait de gauche vers la droite pour la variable de l’axe horizontal. Ainsi, si on présente le temps comme variable indépendante (qui est généralement présentée sur l’axe horizontal), on mettra la période de temps la proche du début des temps (peu importe où vous le fixez) complètement à gauche et, au fur et à mesure qu’on se déplacera vers la droite, on se rapprochera de la valeur la plus éloignée du début des temps. C’est une convention sociale valable dans la plupart des pays dans lesquels la langue principale se lit de gauche à droite. C’est assurément le cas en Amérique et en Europe. Ainsi, dans une publication s’adressant à des lecteurs de cette partie du monde, on présentera les données dans l’ordre croissant en partant de la gauche vers la droite. Aller à l’encontre de cette convention peut entraîner une mauvaise compréhension des données. Pire encore, cela peut carrément induire le lecteur en erreur et le tromper dans son analyse. Dans l’exemple qu’on peut voir à droite, j’avais attribué cette erreur à une volonté de mal faire.

Dans l’exemple que vous venez de voir, il existe aussi une erreur de ce type. Cependant, elle ne se trouve pas sur l’axe horizontal, mais bien sur l’axe vertical. En effet, il semble que la personne qui fait le graphique a choisi d’exprimer sa créativité en mettant l’axe horizontal au-dessus du graphique avec les valeurs sur l’axe augmentant au fur et mesure qu’on s’éloigne vers le bas. Ce choix est assez difficile à comprendre… En allant à l’encontre de la convention disant que l’axe vertical pointe généralement vers le haut, le créateur du graphique rend difficile la lecture de l’information importante du graphique.

À la lumière de ce qui vient d’être dit, je vous invite à retourner lire ce que vous avez écrit suite au visionnement du vidéo. Les points sautant aux yeux, lors d’une première lecture rapide sont les suivants:

  • La ligne va vers le haut à partir de 1990 jusqu’en 2000;
  • Elle se stabilise entre 2000 et 2005;
  • Une nouvelle loi est introduite en 2005 (ce point est mis en valeur par du texte dans le graphique);
  • La ligne s’est mise à descendre pour prendre une hauteur bien au dessous de ce qui avait existé au début des années deux mille

Devant ces observations, vous avez sûrement conclu que le nombre de meurtres avait tranquillement augmenté jusqu’à l’introduction  de la nouvelle loi puis était redescendu à un niveau plus bas. Rien n’est plus faux. Comme l’axe vertical est inversé, on devrait plutôt conclure tout l’inverse:

  • Entre 1990 et 2005, le nombre de morts dû aux armes à feu a diminué pour se stabiliser autour de 500 par année;
  • En 2005, la nouvelle loi a introduit la possibilité d’utiliser la force pour défendre sa position lorsqu’on fait face à un acte criminel ou que sa sécurité est menacée. Cette loi permet donc au citoyen ordinaire d’utiliser la force pour intervenir lorsqu’une personne est en train de commettre un acte criminel ou de mettre en danger dudit citoyen (législation du type « stand your ground« ). Dans la plupart des législations, le citoyen ordinaire a l’obligation de tenter de fuir le danger et contacter les autorités compétentes si possible avant d’utiliser la force pour se défendre (législation du type « duty to retreat« );
  • Cette mesure semble avoir été la cause d’une augmentation du nombre de décès liés aux armes à feu (du moins, ce nombre a augmenté drastiquement après l’introduction de la loi).

Observez à nouveau le graphique à la lumière de cette nouvelle information.

florida gun deaths
Un nouveau regard sur le graphique changera probablement votre analyse. Source: Buisness Insider (C’est à cet endroit qu’on trouve une analyse du graphique. Tel qu’indiqué, il semble qu’il ait été fait par un certain C. Chan pour le compte de l’agence de presse Reuters)

À mon avis, cette erreur est due à un excès de créativité plus qu’à une volonté réelle de tromper puisqu’un article dans lequel cette image est présentée propose une analyse juste et sensée des données. Ainsi, on ne tente pas de manipuler les données pour dire autre chose que ce qu’on peut observer dans le graphique lorsqu’on le lit correctement. Note amusante, le site a tout de même pris la peine de présenter une nouvelle version du graphique avec l’axe horizontal dans l’autre sens, indiquant ainsi qu’ils avaient probablement réalisé que la présentation pouvait influencer la compréhension des lecteurs. D’ailleurs, après une observation plus profonde, on peut s’imaginer que le fameux C. Chan, créateur du graphique, avait choisi les couleurs dans le graphique sciemment. Maintenant qu’on a l’information cruciale sur l’axe vertical, le choix de la couleur rouge pour la zone au-dessus de la ligne brisée paraît plus logique. Ce rouge est donc associé à la section représentant le nombre de morts.

Que peut-on retirer de cet exercice? En gros, que la créativité est une bonne chose et que l’innovation permet parfois de rendre plus facile, captivante ou efficace la transmission d’informations. Cependant, dans certaines situations, l’excès de créativité et la contravention aux conventions sociales peut avoir comme conséquence de rendre problématique l’acte de partage de la connaissance et même peut entraîner des erreurs chez la personne qui interprète les données. Il faut donc s’assurer, lorsqu’on crée une infographie, que le lecteur pourra correctement aller à l’essentiel ce qu’on veut lui apprendre. Pour ce faire, il faut revisiter son travail, une fois complété, avec les yeux du profane. Aller à l’encontre des conventions sociales est un pari risqué. Jouez-y avec prudence.

Merci à Jean-Sébastien Turcotte de m’avoir transmis l’image des morts par arme à feu floridiennes.

Comme quoi il est parfois pertinent de répéter

On m’a de nouveau transmis une nouvelle qui contenait un graphique à axe tronqué un peu trompeur. Dernièrement, FOX News a rapporté le niveau d’enrôlement au nouveau programme d’assurance-santé obligatoire américain surnommé « Obamacare ». L’affaire a fait un bruit suffisant pour que la chaîne télévisuelle rectifie son erreur.

Contexte

Comme la politique américaine n’est pas un sujet toujours très suivi au Canada, prenons le temps de donner quelques explications pour comprendre la nouvelle. L' »Obamacare » est une des lois-phares du programme politique qui a mené à l’élection de Barack Obama en 2008. Cette loi, adoptée en 2010 mais dont les principales implications ont pris effet l’an dernier, oblige la plupart des citoyens américains à se procurer une assurance-santé privée s’ils n’en possèdent pas déjà une fournie par leur employeur. En contrepartie de cette obligation, le gouvernement interdit aux compagnies d’assurance de refuser un demandeur à cause ses « conditions préexistantes » (par exemple, une personne atteinte du diabète ou de problèmes cardiaques aurait beaucoup de difficulté à se trouver une assurance sans cette clause). Aussi, le gouvernement versera des subventions aux familles à bas revenu qui auraient de la difficulté à s’offrir de telles couvertures. Vous pouvez en apprendre beaucoup plus sur le sujet sur Wikipédia ou sur le site du gouvernement américain à ce sujet (en anglais). Sur FOX News, le principal acteur de cette histoire, je pense qu’on peut dire sans raccourci que c’est un média de droite qui est généralement en désaccord avec les politiques du gouvernement Obama ou démocrates en général. Par exemple, on dit sur Wikipédia, « Fox News Channel est réputée pour favoriser les positions politiques conservatrices (source) ».

Ce qui s’est passé

Donc, dans un bulletin de nouvelles, FOX News a présenté un graphique pour montrer l’adhésion au programme de l' »Obamacare » au 27 mars 2014 en comparaison avec la cible fixée par le gouvernement fédéral à atteindre le 31 mars 2014. On imagine que la chaîne voulait souligner que la cible ne serait probablement pas atteinte. En effet, au 27 mars 2014, il y avait 6M (6 millions) d’inscriptions alors que la cible était de 7,066M d’inscriptions. Or, pour illustrer ce fait, le graphique présenté n’avait pas d’axe vertical pour illustrer la hauteur des rectangles (en nombre d’inscriptions) et cet axe absent était visiblement tronqué puisque la différence d’aire entre les deux rectangles n’était pas du tout proportionnelle à différence numérique entre les deux valeurs représentées.

L’image présentée par FOX News originalement. Source: J’ai pris l’image ici, mais le droit d’auteur doit appartenir à FOX News. J’utilise cette image pour des fins de critique ou éducationnelles tel que permis par la loi.

Suite à cette diffusion, « les internets » (autre article en anglais) se sont fâchés et plusieurs critiques ont souligné le fait que ce graphique était trompeur puisqu’il donnait l’impression que la différence entre la valeur au 27 mars et la cible était très importante. En effet, sur le graphique, on voit une différence de 5 barres horizontales de hauteur sur une hauteur de 8 au total pour l’objectif gouvernemental (\frac{5}{8}=62,5\%)  alors qu’elle ne représentait qu’une différence de 15,1% (\frac{1,066M}{7,066M}=15,1\%).

Voyant que la chose semblait faire boule de neige, la chaîne de nouvelle s’est excusée et a publié un nouveau graphique qui représentait mieux la réalité. On peut voir le segment des excuses du présentateur au bas de cet article.

Le nouveau graphique. Source: J’ai pris l’image ici, mais le droit d’auteur doit appartenir à FOX News. J’utilise cette image pour des fins de critique ou éducationnelles tel que permis par la loi.

 

J’ai l’impression d’être un perroquet

Oui, pour qu’un message passe, il faut le répéter, encore et encore. C’est ce que je fais. Utiliser des graphiques avec des axes tronqués, C’EST (généralement) MAL. Le faire dans le but d’exagérer une tendance, c’est encore pire. Dans le cas actuel, assez de personnes se sont mobilisées pour refuser cet mauvaise représentation et, rendons ce qui est dû, FOX News a eu l’honnêteté de reconnaître son erreur et de la corriger.

Répétons le message tous en chœur: « Il ne faut pas utiliser d’axes tronqués. Il faut présenter les données objectivement et laisser le lecteur réfléchir. Il faut refuser les représentations fautives et ne pas les accepter comme prémisses à des arguments ».

N’hésitez pas à partager plus bas vos commentaires ou d’autres graphiques un peu croches que vous pourriez rencontrer. Aussi, abonnez-vous à ce blog pour être avisé quand je publie des nouveaux billets. Pour ce faire, cliquez sur le bouton « Suivre » qui se trouve en bas à droite de la page et inscrivez votre adresse courriel!

Source

On peut lire la nouvelle originale ici (en anglais) et merci à Geneviève de l’avoir partagée avec moi.

Une petite vite pour mes étudiants en communication

Certains étudiants de mes cours de méthodes quantitatives se destinent au domaine des communications et me demandent régulièrement pourquoi ils doivent suivre un cours de statistique. La réponse est bien simple: « Parce que, comme communicateur, vous serez amenés à transmettre des données chiffrées qui devront être compréhensibles pour le grand public. »

Voyons un exemple. Hier, je naviguais sur le site de nouvelles de Radio-Canada.ca et un titre a attiré mon attention : Choc démographique au Québec : pénurie de main-d’œuvre à l’horizon. Ce genre d’article est souvent intéressant puisqu’il présente plusieurs données statistiques qui peuvent être analysées. J’ai été très content de remarquer que ces données étaient présentées dans un graphique. J’ai été aussi vite déçu par la présentation de ce graphique.

Ce qu'il ne faut pas faire quand on est communicateur... (Inspiration: XKCD)
Ce qu’il ne faut pas faire quand on est communicateur…
(Inspiration: XKCD)

Allez le voir, il est au milieu de la page! J’aimerais le présenter ici mais ce n’est pas possible. Il faut noter que j’ai visité le site avec ma tablette ce qui ne permettait pas de voir les étiquettes attachées à chaque rectangle. J’avais donc un graphique sans aucune donnée. En le revisitant ce matin, j’ai réalisé qu’on pouvait obtenir les données en passant la souris sur le graphique. Le concepteur du site n’a pas pensé à la portabilité, mais ce n’est pas l’objet de ce blogue. Il faut surtout remarquer que le graphique n’est accompagné d’aucun axe ou information qui permet de comprendre l’ordre de grandeur des données seulement en le regardant. Sans ces indications, impossible de comprendre rapidement l’information présentée dans ce graphique. C’est mal…

Ainsi, la réponse à la questions de mes étudiants en communication se trouve là; même si on ne produit pas les tableaux et graphiques ou les données dans le cadre d’une étude en sciences humaines, nous devrons les présenter ou les interpréter pour leur donner un sens dans le cadre de nos activités professionnelles. Il est donc primordial d’avoir une formation de base dans le domaine statistique pour comprendre le monde qui nous entoure et qui devient de plus en plus rempli de nombres et de données. C’est d’ailleurs aussi vrai pour la plupart d’entre nous qui aspirons à comprendre le monde dans lequel nous vivons.