Présenter des données, quel calvaire…

Dans mon cégep, certains étudiants qui se destinent aux communications et au journalisme sont appelés à suivre le cours de méthodes quantitatives généralement offert aux étudiants de sciences humaines. Ces étudiants me demandent souvent pourquoi ils doivent suivre ce cours, ce que ça leur apportera. La réponse que je leur donne est toujours la même.

Dans le cadre de votre pratique professionnelle, vous serez appelés à présenter ou commenter des données et vous devrez avoir les compétences nécessaires pour poser un jugement critique sur celles-ci.

Pour illustrer cette réalité, j’aimerais présenter ici deux exemples d’articles publiés par des médias québécois sérieux et qui comptent, à mon avis, des erreurs importantes au niveau de la présentation des données.

Les CPE, le privé et la qualité

Dans son édition de septembre 2018, le magazine L’Actualité présente un dossier sur les garderies et la qualité des services qu’ils offrent. Pour illustrer la situation, le magazine publie le graphique suivant à la page 60.CPE Qualité L'actualité sept 2018On y voit une représentation de la distribution de la classification de la qualité, dans différents types d’établissements. Je vous invite, avant de continuer la lecture, à écrire sur un papier votre première impression à la vue de ce graphique. En particulier, comparez les CPE et les garderies non subventionnées en ce qui a trait à la qualité.

Maintenant, regardez de plus près. Vous verrez que la catégorie « un service d’excellente qualité » n’est pas présentée dans le graphique des deux types de garderies non subventionnées, ce qui fausse complètement la comparaison naturelle que font les humains: comment se comparent la première catégorie d’un graphique avec la première catégorie d’un autre graphique.

Une fois ce problème révélé, la différence entre les CPE et les garderies saute aux yeux. Alors que seuls 2% des CPE offrent un service de faible qualité ou inférieur, c’est respectivement 41 et 36% des garderies non subventionnées pour bambins et pour les plus grands qui sont dans ces catégories. Gageons que vous n’aviez pas écrit cela sur votre papier.

La participation aux élections, version cartographique

Le 21 septembre 2018, en préparation pour les élections, le journal Le Devoir a publié sur sa plateforme web un article portant sur les taux de participations des différentes circonscriptions aux élections de 2014.

L’enjeu est important: la participation des Québécois aux élections est en déclin depuis plusieurs années et il est intéressant de se demander où ce déclin est le plus marqué. Le Devoir a tenté de représenter cette situation en plus de proposer une analyse statistique de corrélation entre différentes variables et le taux de participation dans une circonscription.

Si l’idée était bonne, à mon avis, l’exécution a été déficiente. Vous pouvez visiter l’article en suivant ce lien et revenir lire ma critique plus tard.

 

2018-09-21 10_29_55-Vos voisins ont-ils voté_ _ Le Devoir
La section choisie a une couleur mauve foncé (au moins 90% de participation selon l’échelle présentée en haut à droite) mais la participation se la section est à 66,67%. Le taux de participation de la section (66.67%) ne comprend pas le vote par anticipation alors que le taux de la circonscription (77,15%) le comprend. On ne peut comparer ces valeurs.

Allons-y point par point.

1) La carte interactive est intéressante mais la représentation des données est incompréhensible. L’échelle dit que le mauve foncé représente une participation plus élevée que la moyenne de 71,3%, or je ne suis pas arrivé à trouvé une seule section de vote mauve foncée pour laquelle le taux de participation dans la section était supérieur à 70%. En plus, le taux de participation final dans les circonscriptions comprend le vote par anticipation alors que ce n’est pas le cas dans les sections, ce qui rend la comparaison entre ces deux données impossible [ce qui est étrange sachant qu’elles sont présentées côte à côte dans les fenêtres].

2) Les nuages de points présentés sont assez mauvais. D’abord, leur titre ne respecte pas la convention utilisée à peu près partout dans le monde selon laquelle le titre se formule « variable dépendante (sur l’axe vertical) selon variable indépendante (sur l’axe horizontal) ». Par exemple, le premier nuage de points devrait s’appeler « Le taux de chômage selon la participation à l’élection » et non l’inverse. Ensuite, les axes ne sont pas nommés. Cela rend la lecture confuse, particulièrement si les deux variables représentées s’expriment en pourcentage. Le graphique « La participation selon l’obtention d’un diplôme universitaire » est un bon exemple de cette confusion, sans compter que la mesure utilisée pour « l’obtention d’un diplôme universitaire » n’est pas définie.

3) L’analyse de corrélation n’est pas appuyée par des mesures. Si la corrélation semble assez claire entre le taux de chômage et le taux de participation (quoi qu’assez surprenante, à mon humble avis), il n’en est pas de même pour d’autres paires de variables. Par exemple, j’ai montré le graphique représentant le taux de participation et le taux de diplomation à deux collègues et, entre trois enseignants en mathématique, aucun n’aurait dit qu’il existait une corrélation entre ces variables. Notons que l’article affirme que c’est le cas.

Le journalisme de données est à la mode ces temps-ci. Cependant, il faut réfléchir profondément à la méthodologie choisie pour présenter et analyser les données. À défaut de le faire, on risque de créer de la confusion, de mal informer le public ou de faire perdre du sens à la situation analysée. À mon humble avis, c’est le cas ici; l’exécution déficiente de cette analyse fait passer l’article à côté d’un vrai bon sujet de discussion et d’une réflexion posée sur les enjeux sous-jacents.

Présenter et interpréter des données, une compétence essentielle pour le communicateur d’aujourd’hui et de demain

La réalité, c’est qu’on ne peut pas passer à côté. Je vois mal comment on pourrait évoluer dans la sphère politique ou dans les médias sans posséder une minimale capacité à décortiquer des données statistiques ou à les représenter visuellement. C’est une compétence qui permet d’avoir un discours cohérent avec ce que l’on présente.

C’est pour cette raison qu’il est essentiel que nos journalistes et politiciens reçoivent une bonne formation à ce niveau et puissent évoluer dans notre monde où la donnée deviendra de plus en plus importante dans la sphère publique.

 

Note: Merci à François Gagnon de m’avoir montré le graphique de L’Actualité.

Publicités

Créativité versus lisibilité

Présenter des données dans un graphique est un art. Chez le présentateur, il existe souvent une tentation d’être créatif et d’illustrer les informations d’une manière inattendue ou nouvelle. On espère de cette manière intéresser le lecteur et lui donner envie d’explorer le résultat de son travail.

Quand cela est réussi, le lecteur en ressort gagnant: il a compris rapidement une grande masse d’informations dans un format nouveau qui a créé l’étincelle suffisante pour lui faire apprécier ce travail.

Un exemple de créativité intéressant

Le «meilleur graphique de tous les temps» selon certains. Cliquez sur l’image pour en voir les multiples détails. Auteur: Charles Minard (domaine public) (source)

Prenons pour exemple l’image ci-dessus, qui est appelée par certains «le meilleur graphique de tous les temps». Il s’agit d’une représentation fort créative d’une très grande quantité de données expliquant la campagne désastreuse de Napoléon 1er en Russie. On y voit en beige la marche de l’armée vers Moscou sur la carte de l’Europe. La taille de la colonne est proportionnelle à la taille de l’armée et se réduit au fur et à mesure des pertes humaines et des batailles.

À Moscou, Napoléon a subi la défaite et dut rebrousser chemin vers la France. La bande noire illustre cette retraite dans l’espace, la réduction de la largeur étant encore proportionnelle à la taille de l’armée à ce moment. Un autre facteur important dans l’échec de cette offensive fut la rigueur extrême de l’hiver qu’ont vécu les soldats lors de leur retour. Le bas du graphique montre la chute de la température extérieure au fur et à mesure du retour vers l’Empire français. On peut donc voir sur cette représentation visuelle plusieurs variables illustrées de belle façon (la position géographique en deux dimensions, la taille de l’armée à chaque moment et la température extérieure). C’est une utilisation intelligente et créative d’une représentation graphique. Vous pouvez en apprendre plus sur ce graphique particulier en écoutant les explications d’un mathématicien dans ce vidéo (en anglais) sur Youtube.

Un autre exemple à étudier

J’aimerais maintenant vous proposer un exercice de lecture de graphique. Dans le vidéo qui suit, regardez le diagramme présenté et consignez par écrit vos impressions quant aux données qui y sont présentées.

L’objectif est de vous laisser seulement quelques secondes pour aller chercher les informations essentielles du graphique, les points tournants et les grandes tendances qu’on peut en tirer puis que vous les inscriviez sur une feuille. Comme la lecture d’informations visuelles dans les médias est généralement faite rapidement, sans aller en profondeur, le vidéo vous présentera le graphique pendant quelques secondes. Faites jouer le vidéo une seule fois avant d’écrire vos conclusions et continuez ensuite votre lecture de cet article pour vérifier votre analyse. Si vous en avez envie, partagez avec tout le monde ce que vous avez inscrit sur votre papier dans les commentaires de l’article, tout en bas de la présente page.

Un contre-exemple illustrant les dérives possibles

Analysons maintenant le résultat de votre observation en faisant ressortir les informations essentielles du tracé que vous avez regardé. On verra qu’inversement à l’exemple du «meilleur graphique jamais produit», pécher par excès de créativité amène parfois ceux qui présentent des données à aller à l’encontre des différentes conventions qui permettent au lecteur de bien saisir les informations.

Dans le premier graphique, la première lecture donne l'impression que le nombre d'avortements va en croissant dû à l'inversement de l'axe horizontal. J'ai déjà traité cet exemple dans un billet précédent.
Dans le premier graphique, la première lecture donne l’impression que le nombre d’avortements va en croissant dû à l’inversement de l’axe horizontal. J’ai déjà traité cet exemple dans un billet précédent.

J’ai déjà rappelé dans un billet précédent que la lecture de tous les graphiques se fait de gauche vers la droite pour la variable de l’axe horizontal. Ainsi, si on présente le temps comme variable indépendante (qui est généralement présentée sur l’axe horizontal), on mettra la période de temps la proche du début des temps (peu importe où vous le fixez) complètement à gauche et, au fur et à mesure qu’on se déplacera vers la droite, on se rapprochera de la valeur la plus éloignée du début des temps. C’est une convention sociale valable dans la plupart des pays dans lesquels la langue principale se lit de gauche à droite. C’est assurément le cas en Amérique et en Europe. Ainsi, dans une publication s’adressant à des lecteurs de cette partie du monde, on présentera les données dans l’ordre croissant en partant de la gauche vers la droite. Aller à l’encontre de cette convention peut entraîner une mauvaise compréhension des données. Pire encore, cela peut carrément induire le lecteur en erreur et le tromper dans son analyse. Dans l’exemple qu’on peut voir à droite, j’avais attribué cette erreur à une volonté de mal faire.

Dans l’exemple que vous venez de voir, il existe aussi une erreur de ce type. Cependant, elle ne se trouve pas sur l’axe horizontal, mais bien sur l’axe vertical. En effet, il semble que la personne qui fait le graphique a choisi d’exprimer sa créativité en mettant l’axe horizontal au-dessus du graphique avec les valeurs sur l’axe augmentant au fur et mesure qu’on s’éloigne vers le bas. Ce choix est assez difficile à comprendre… En allant à l’encontre de la convention disant que l’axe vertical pointe généralement vers le haut, le créateur du graphique rend difficile la lecture de l’information importante du graphique.

À la lumière de ce qui vient d’être dit, je vous invite à retourner lire ce que vous avez écrit suite au visionnement du vidéo. Les points sautant aux yeux, lors d’une première lecture rapide sont les suivants:

  • La ligne va vers le haut à partir de 1990 jusqu’en 2000;
  • Elle se stabilise entre 2000 et 2005;
  • Une nouvelle loi est introduite en 2005 (ce point est mis en valeur par du texte dans le graphique);
  • La ligne s’est mise à descendre pour prendre une hauteur bien au dessous de ce qui avait existé au début des années deux mille

Devant ces observations, vous avez sûrement conclu que le nombre de meurtres avait tranquillement augmenté jusqu’à l’introduction  de la nouvelle loi puis était redescendu à un niveau plus bas. Rien n’est plus faux. Comme l’axe vertical est inversé, on devrait plutôt conclure tout l’inverse:

  • Entre 1990 et 2005, le nombre de morts dû aux armes à feu a diminué pour se stabiliser autour de 500 par année;
  • En 2005, la nouvelle loi a introduit la possibilité d’utiliser la force pour défendre sa position lorsqu’on fait face à un acte criminel ou que sa sécurité est menacée. Cette loi permet donc au citoyen ordinaire d’utiliser la force pour intervenir lorsqu’une personne est en train de commettre un acte criminel ou de mettre en danger dudit citoyen (législation du type « stand your ground« ). Dans la plupart des législations, le citoyen ordinaire a l’obligation de tenter de fuir le danger et contacter les autorités compétentes si possible avant d’utiliser la force pour se défendre (législation du type « duty to retreat« );
  • Cette mesure semble avoir été la cause d’une augmentation du nombre de décès liés aux armes à feu (du moins, ce nombre a augmenté drastiquement après l’introduction de la loi).

Observez à nouveau le graphique à la lumière de cette nouvelle information.

florida gun deaths
Un nouveau regard sur le graphique changera probablement votre analyse. Source: Buisness Insider (C’est à cet endroit qu’on trouve une analyse du graphique. Tel qu’indiqué, il semble qu’il ait été fait par un certain C. Chan pour le compte de l’agence de presse Reuters)

À mon avis, cette erreur est due à un excès de créativité plus qu’à une volonté réelle de tromper puisqu’un article dans lequel cette image est présentée propose une analyse juste et sensée des données. Ainsi, on ne tente pas de manipuler les données pour dire autre chose que ce qu’on peut observer dans le graphique lorsqu’on le lit correctement. Note amusante, le site a tout de même pris la peine de présenter une nouvelle version du graphique avec l’axe horizontal dans l’autre sens, indiquant ainsi qu’ils avaient probablement réalisé que la présentation pouvait influencer la compréhension des lecteurs. D’ailleurs, après une observation plus profonde, on peut s’imaginer que le fameux C. Chan, créateur du graphique, avait choisi les couleurs dans le graphique sciemment. Maintenant qu’on a l’information cruciale sur l’axe vertical, le choix de la couleur rouge pour la zone au-dessus de la ligne brisée paraît plus logique. Ce rouge est donc associé à la section représentant le nombre de morts.

Que peut-on retirer de cet exercice? En gros, que la créativité est une bonne chose et que l’innovation permet parfois de rendre plus facile, captivante ou efficace la transmission d’informations. Cependant, dans certaines situations, l’excès de créativité et la contravention aux conventions sociales peut avoir comme conséquence de rendre problématique l’acte de partage de la connaissance et même peut entraîner des erreurs chez la personne qui interprète les données. Il faut donc s’assurer, lorsqu’on crée une infographie, que le lecteur pourra correctement aller à l’essentiel ce qu’on veut lui apprendre. Pour ce faire, il faut revisiter son travail, une fois complété, avec les yeux du profane. Aller à l’encontre des conventions sociales est un pari risqué. Jouez-y avec prudence.

Merci à Jean-Sébastien Turcotte de m’avoir transmis l’image des morts par arme à feu floridiennes.