Retour au jeu : les réponses

Dans mon dernier billet, je vous proposais de jouer à un jeu en identifiant les erreurs dans le graphique suivant. Rappelons-le, ce graphique a été utilisé lors de la campagne électorale d’un parti politique municipal pour parler de la dette de la ville de Québec. Tel que je le disais, l’objectif n’est pas ici de discourir sur la dette de la ville ou de prendre parti dans l’enjeu. L’essentiel, c’est de démontrer qu’il faut être alerte lorsqu’on nous présente des données pour identifier les sources d’informations qui sont utiles pour former un jugement et celles qui devraient être ignorées. Ce graphique fait clairement partie de la deuxième catégorie.

Cette image a circulé beaucoup sur Facebook et dans les médias pendant la campagne électorale. Je ne sais pas elle a été préparée par qui mais je sais qu'elle a été présentée officiellement par un parti politique
Cette image a circulé beaucoup sur Facebook et dans les médias pendant la campagne électorale. Je ne sais pas par qui elle a été préparée mais je sais qu’elle a été présentée officiellement par un parti politique

Les réponses

1. L’axe vertical est tronqué, sans indication de ce fait. Ceci est problématique car ça peut induire le lecteur en erreur lorsqu’il jette un oeil au graphique. En effet, une augmentation de la dette de 1G$ (un milliard de dollars) à 1,2G$ donnera l’impression dans ce graphique d’un doublement de la dette par la différence de hauteur  (donc une augmentation de 100% de la dette) alors qu’elle n’a augmentée que de 20% ( \frac{1,2 -1,0}{1,0}=20\% ). Pour éviter ce problème, il aurait été mieux de faire commencer l’axe vertical à 0 ou, minimalement, d’indiquer une coupure d’axe.

2. Les données présentées au dessus de chaque bande ne sont pas consistantes dans leur grandeur. Dans le temps du maire Lalier et de la mairesse Boucher, on voit des nombres qui sont de l’ordre de 100M$ (représentés à une hauteur de 1G$ sur le graphique) alors que sous Labeaume, les nombres sont de l’ordre de 1G$. Donc, soit il s’agit d’une erreur d’écriture dans le graphique, soit il y a eu un changement majeur dans le calcul de la dette (qui rend inutile de présenter ces données dans un graphique), soit la dette a augmenté de 1G$ entre les mandats de Mme. Boucher et M. Labeaume. Dans tous les cas, il y a un problème avec les données.

3. La hauteur des bandes pour chaque année ne correspond pas aux graduations de l’axe vertical. Par exemple, en 2009, on lit au dessus de la bande une dette de 1,493 G$ alors que la hauteur de la bande est située bien en dessous de 1,4G$. C’est une erreur majeure qui brise la capacité à comparer les données en comparant les hauteurs des bandes. D’ailleurs, entre l’année 2010 et 2011 on voit une diminution dans la dette indiquée en nombre au-dessus de la bande et une augmentation dans la hauteur des bandes. Vous y comprenez quelque chose?

4. Les flèches qui montrent la progression sont un peu surprenantes. D’abord, si on se fie aux données et aux affirmations du graphique, il semble que sous Mme. Boucher, la dette a augmenté de 270 M$ alors que la flèche semble indiquer que la diminution continue jusqu’à son mandat. Aussi la flèche représentant le mandat de M.Labeaume semble indiquer une rapide augmentation jusqu’à la fin du mandat alors qu’on voit une stabilisation de la dette dans les dernières années. La flèche est donc trompeuse sur l’allure réelle de l’augmentation. D’ailleurs, je vous invite à faire vos recherches pour déterminer si M. Labeaume n’avait pas annoncé un tel comportement.

5. La source des données est, disons-le, minimale. Dans le monde d’aujourd’hui, presque toutes les données publiques sont disponibles dans un fichier publié sur Internet. Il faudrait au moins qu’on indique où trouver les données pour une vérification personnelle. Ceci est particulièrement important quand les données du graphiques paraissent louches…

6. Un ami à qui j’ai présenté le graphique m’a fait remarqué que les données du maire Labeaume ont été mises en rouge alors que celles des autres ont été mises dans des couleurs plus subtiles. Cela met l’emphase sur ces données. Ce n’est pas nécessairement une mauvaise chose mais ce n’est pas une présentation neutre des données invitant le lecteur à faire une analyse objective de celles-ci.

7. Sur le plan de ce qu’on dit généralement en classe de méthodes quantitatives, on ne voit pas de titre identifiant clairement les données présentées dans les axes. Le titre n’est pas des plus conformes aux normes.

Ce qu’il faut retenir

Ce graphique est un très mauvais graphique. Quand on veut inviter le citoyen à réfléchir sur des enjeux et à prendre position, il faut lui présenter les chiffres objectivement pour le laisser juger. On peut lui suggérer des interprétations des données et choisir celles qui font particulièrement l’affaire du message qu’on essaie de passer. Cependant, quand on lui présente des mauvais graphiques et qu’on l’invite à tirer des mauvaises conclusions, on fausse le débat.

À nouveau, je vous invite à être critique par rapport aux graphiques et tableaux qu’on vous présente et aux conclusions qu’on en tire. Si vous les jugez pertinents, tenez-en compte lors de la formation de votre jugement. Si vous ne les considérez pas pertinents, refusez de les utiliser pour débattre et soulignez-le à vos opposants. De cette façon, on assainira le débat public en le recentrant sur des arguments valables.

Aussi, prenons le temps de féliciter Félipe, Vincent et Élise qui ont bien travaillé pour trouver des erreurs dans le graphique. Bien sûr, n’hésitez pas à commenter les articles ou à poser des questions dans les commentaires pour faire vivre ce blogue. Soyez sûr que j’y répondrai.

Rectifions, pour le plaisir

Question de s’amuser un peu, j’aimerais vous inviter à regarder le graphique suivant et à le comparer avec celui qui fait l’objet de ce billet. Essentiellement, j’ai repris les données inscrites au-dessus des bandes du diagramme d’origine en supposant qu’elles étaient correctes et qu’il y avait eu un problème de virgules dans les valeurs pour le maire Lalier et la mairesse Boucher pour créer une nouvelle image plus fidèle et objective.

En gros, j’ai utilisé les données suivantes pour faire le graphique.

\begin{tabular}{|l|l|l|l|l|l|l|l|l|l|l|l|l|}  \hline  Ann\'ee & 2001 & 2002 & 2003 & 2004 & 2005 & 2006 & 2007 & 2008 & 2009 & 2010 & 2011 & 2012 \\ \hline  Dette & 952 & 955 & 934 & 925 & 906 & 880 & 1149,6 & 1257,0 & 1493,1 & 1522,0 & 1501,9 & 1565,2 \\ \hline  \end{tabular}

Voici le résultat.

Graphique dette

Il est indéniable que la dette a effectivement augmentée sous le maire Labeaume. Cependant, contrairement à ce que semble dire le premier graphique, cette augmentation n’est pas si impressionnante et, surtout, s’est relativement stabilisée au cours des dernières années. De plus, il est intéressant de se rappeler que madame Boucher est décédée au milieu de son mandat, en 2007 et que M. Labeaume a été élu pour la première fois en décembre 2007. Aussi, quelques recherches vous rappelleront que, pendant la campagne électorale qui l’a menée à la mairie de la ville en 2005, Mme. Boucher avait annoncé qu’elle allait augmenter la dette et avait été élue sur ce programme (source). Il est donc assez audacieux d’attribuer la dette de la ville pour l’année 2007 au maire actuel alors que celui-ci a été en poste pour exactement un mois cette année. J’ai donc corrigé le graphique en indiquant que l’année 2007 était attribuable à madame Boucher. Cela change aussi le constat à faire en regardant le graphique.

Publicités

Reprise des activités: au jeu!

Les étudiants reviennent au travail, la session commence, il est temps de se remettre à l’écriture de ce blogue! Pour entreprendre la session, j’aimerais proposer un jeu. En espérant que vous n’hésiterez pas à y participer.

Mise en contexte

Les périodes électorales sont des moments charnière dans le déroulement de la vie publique. Pendant une période de temps plus ou moins longue (tout dépendant de l’enjeu et du niveau de gouvernement), les candidats feront appel aux électeurs pour qu’ils les appuient. Pour ce faire, ils utilisent toutes sortes de procédés pour convaincre leur destinataire de les préférer à leurs opposants. Ces stratégies peuvent s’appuyer sur les sentiments, les principes et toutes sortes d’autres choses. Cependant, la plupart du temps, on s’adresse à la raison de l’électeur en lui présentant des arguments justifiant la position du parti ou en démontant celle des candidats adverses. Quand on le fait, on fait souvent appel à des arguments qui tiennent du raisonnement mathématique, économique ou logique.

C’est aussi dans cette période que l’électeur doit faire preuve de logique, de raison et aussi d’émotion pour prendre une décision. Pour vous préparer pour les prochaines élections, j’aimerais vous proposer ce jeu visant à identifier les erreurs de présentation, les incongruités et les mauvaises interprétations qui apparaissent dans un graphique qui a circulé lors de la dernière campagne électorale à Québec. J’ai été particulièrement choqué par le fait que ce graphique ait été utilisé pour faire valoir un point et qu’on lui ait donné de la valeur intrinsèque en tant que démonstration alors qu’il s’agit d’un très mauvais graphique. Au-delà de cela, l’enjeu en est un qu’il convient de discuter avec de bons arguments, d’un côté comme de l’autre.

L’objectif ici n’est pas de vous faire adopter une position par rapport à l’enjeu qui est discuté dans le graphique. L’objectif fondamental est de vous faire réfléchir à l’importance de bien analyser les données qui nous sont présentées dans les médias et les débats public et de vous inviter à ne pas tenir compte des mauvais arguments lorsque vous vous préparez à faire un choix électoral.

Consignes

Observez le graphique suivant et essayez de déterminer un problème pouvant causer des erreurs d’interprétation. Une fois un problème identifié, inscrivez votre réponse dans la section des commentaires de cet article. Tous les aspects du graphique peuvent faire partie de la révision, sans se limiter aux évidences.

Dans mon billet de la semaine prochaine, je reviendrai sur les différentes réponses données, ajouterai les miennes et conclurai sur quelques conseils pour ceux qui veulent soutenir leur discours avec des graphiques et pour ceux qui doivent utiliser des graphiques pour se faire un avis.

Amusez-vous bien!

 

Cette image a circulé beaucoup sur Facebook et dans les médias pendant la campagne électorale. Je ne sais pas elle a été préparée par qui mais je sais qu'elle a été présentée officiellement par un parti politique
Cette image a circulé beaucoup sur Facebook et dans les médias pendant la campagne électorale. Je ne sais pas elle a été préparée par qui mais je sais qu’elle a été présentée officiellement par un parti politique. Je ne peux mettre le crédit photo et l’utilise à titre de critique uniquement.

Sur l’importance de bien choisir sa question

René Lévesque a souvent reçu des critiques sur la formulation de la question référendaire de 1980. Il pourrait certainement témoigner de l’importance de bien choisir sa question… Image : Bouchcl, CC BY-SA 3.0.

En 2009-2010, le gouvernement libéral de Jean Charest était en pleine négrociation de la nouvelle convention collective avec l’ensemble des employés de la fonction publique québécoise. La négociation était à son plus fort et les forces cherchaient des arguments pour justifier leurs demandes et leur position.

Comme le gouvernement provincial est financé par les contribuables québécois, il pouvait être intéressant de savoir quelle était la positions de ceux-ci sur les négociations. Advenant le cas que les syndicats recevaient un fort appui de la population, il aurait été difficile de maintenir la ligne dure pour en venir à une entente avantageuse pour le gouvernement. Inversement, si la population était fortement derrière le gouvernement, il aurait pu se fier sur cet appui pour imposer une convention collective austère, tel qu’il le souhaitait.

C’est dans ce contexte que l’Institut économique de Montréal et Léger Marketing ont publié un sondage fait auprès de 1000 Québécois sur les négociation entre le secteur public et le gouvernement (consulter en ligne : http://www.iedm.org/files/sondage0310_fr_0.pdf ). Sorti le 3 mars 2010, ce rapport de sondage faisait état des résultats de trois questions. On peut lire la méthodologie du sondage dans la seconde page du rapport. On y apprend entre autre qu’il ne s’agit pas d’un sondage probabiliste et qu’il a été mené auprès d’internautes. Dans un autre billet, je pourrai revenir sur la notion de sondage probabiliste.

Ce sur quoi je voudrais attirer votre attention c’est plutôt les conclusions du rapport et les questions sur lesquelles ces affirmations sont basées. En titre de la page consacrée à la première question du sondage, on lit:

La grande majorité des Québécois soutiennent la position du gouvernement Charest dans les négociations avec les syndicats des employés de la fonction publique.

L’affirmation est forte et il convient d’étudier les bases de cette conclusion. Voici la question qui a été posée au internautes pour en arriver à dire que le gouvernement recevait l’appui de 7 Québécois sur 10.

Dans ses négociations avec les syndicats des employés de la fonction publique, le gouvernement Charest devrait-il:

a) accepter intégralement les demandes syndicales (dont une augmentation salariale de 11,25% sur 3 ans), et augmenter les impôts afin de financer ces demandes comme le suggère la CSN ?

b) exiger que les augmentations octroyées soient liées à des gains de productivité des fonctionnaires et à une diminution générale des coûts de fonctionnement du gouvernement ?

c) Ne sait pas.

Hmmm… Je l’avoue, je suis moi-même membre de la fonction publique et, devant cette question, j’ai de la difficulté à choisir raisonnablement la première option plutôt que la seconde. Donc, imaginez le contribuable moyen devant cette question.

Quand on veut savoir l’opinion d’une population sur une question, il faut absolument choisir une formulation la plus neutre possible qui permet au sondé d’exprimer réellement son opinion. Ici, aucun payeur de taxe ne choisira l’option qui aura un effet sur les impôts qu’il paiera. De plus, comment peut-on être contre la vertu qui est présentée dans la deuxième réponse proposée? Comment peut-on refuser qu’une augmentation de salaire des fonctionnaires se traduise par une diminution générale des coût de fonctionnement du gouvernement? Cette question et ces réponses sont tellement réductrices de l’enjeu qu’il n’est pas possible pour le répondant de choisir correctement et la formulation des questions lui indique clairement qu’il devrait choisir la seconde option.

Aussi, il faut que l’ensemble des positions possibles soient proposées dans les choix de réponses d’une question de sondage. Dans le cas qui nous intéresse ici, il n’y a aucune solution mitoyenne proposée. Pour que les choix de réponse soient un peu plus exhaustifs par rapport aux retours possibles. Le sondé qui voudrait répondre quelque chose comme « augmenter un peu le salaire des employés de l’État sans que cela ait un effet sur les impôts des contribuables » ou « trouver une solution qui conviendrait aux deux parties » n’ont aucune catégorie qui leur convient réellement.

Finalement, ces choix de réponse sont en fait ce qu’on appelle un faux dilemme. Aucun des acteurs de la négociation ne souhaitait réellement les résultats nommés par les options qui sont présentées. Les syndicats demandaient une augmentation de leur salaire, le gouvernement souhaitait limiter le plus possible cette augmentation. La partie syndicale ne peut garantir que l’augmentation du salaire de ses membres mènera à une augmentation de la productivité et ne s’opposerait certainement pas à ce que cela se réalise. Inversement, le gouvernement peut accepter une augmentation du salaire de ses employés sans avoir à augmenter les impôts. Il pourrait réduire les dépenses en coupant dans ses programmes pour atteindre ce résultat. Ainsi, les résultats énoncés avec chacune des positions ne sont pas liés avec le choix de solution qui les précèdent.

Au-delà des considérations sur la formulation de la question, la conclusion tirée de l’étude statistique des réponses est assez outrageuse. Avec une question aussi biaisée, il est assez audacieux d’en tirer qu’une majorité des Québécois supportent le gouvernement. Le processus est équivalent, à mon sens, à poser la question « Que préférez-vous : le brocoli ou le gâteau au chocolat? » et d’en tirer la conclusion que les Québécois préfèrent les aliments gras et sucrés par rapport aux légumes. C’est une conclusion sans intérêt qui généralise beaucoup trop la réalité décrite par la question et ses résultats.

Il faut donc réfléchir à une question plus neutre qui permettrait de savoir réellement l’opinion de la population québécoise. Dans le contexte, il est vrai que cela est difficile à faire puisque l’enjeu tient plus de l’idéologie que d’une lecture raisonnée des enjeux de la négociation. Il serait très difficile de mettre en contexte la position de chaque partie de la négociation sans en caricaturer un peu la teneur et revenir à une question qui dirait « Augmenter les salaires des fonctionnaires ou pas? ». La longueur de la question serait aussi problématique à limiter puisqu’il faudrait expliquer de façon neutre la position des deux parties. Simplement, on aurait tout de même pu poser la question suivante:

À la lumière de ce que vous savez sur la négociation qui a lieu entre les syndicats de la fonction publique et le gouvernement, quelle partie obtient votre support?

a) Le gouvernement;

b) la partie syndicale;

c) ne sait pas.

Cette question aurait au moins l’avantage de ne pas orienter la réponse des répondants et permettrait d’affirmer de quel côté va le support des Québécois. Cependant, elle risquerait probablement de recevoir un fort taux de réponses « ne sait pas » puisqu’une infime partie des personnes sondées sont réellement au courant des positions des deux parties.

Bref, la question qui a été posée était biaisée et ne permettait pas de tirer la conclusion qui est énoncée. De plus, il faut savoir que les journaux rapportent généralement les conclusions d’un sondage et non pas les questions et le réponses obtenues dans l’étude. Il est donc très important d’aller consulter les sources des conclusions pour pouvoir poser un regard critique efficace sur ces affirmations. De plus, il est absolument nécessaire de se questionner sur les méthodologies qui ont été utilisées pour réaliser le sondage. Dans un autre billet, j’expliquerai pourquoi, dans ce cas précis et dans bien d’autres cas, il faudrait remettre encore plus en doute les résultats du sondage à cause de la méthodologie utilisée.

Malheureusement, cette publication sera la dernière avant le temps des fêtes. C’est avec plaisir que je reprendrai l’écriture au début de la prochaine session. Sans vous faire de promesses, j’aimerais continuer à expliquer les principaux principes de méthodes quantitatives à l’aide d’exemples concrets. J’explorerai aussi la possibilité de faire des entrevues avec des acteurs du milieu qui nous expliqueront la place des méthodes quantitatives dans leur pratique. Peut-être verrons-nous aussi la publication de billets écrits par des collègues ou de mes étudiants. D’ici là, n’hésitez pas à me faire parvenir vos idées et vos commentaires pour améliorer ce blog. Au plaisir de vous voir en janvier!

Khi-carré : puisque vous en redemandez!

Le temps passé en prison permet de faire des tests du khi-carré… Image: Boardhead, CC BY-SA 3.0, source

Mon billet précédent sur l’utilisation du test du khi-carré a suscité plusieurs commentaires me demandant d’expliquer un peu plus clairement ce qu’est ce test et comment on l’utilise pour déterminer s’il existe un lien entre des variables.

Je l’avoue, l’objectif de ce billet était plus d’introduire la notion en surface pour expliquer la publicité plus que d’en faire une explication complète. Puisque cette introduction a laissé mes lecteurs sur leur faim, voici une explication encore plus détaillée du test du khi-carré. Ce billet aura donc une saveur clairement plus mathématique que les précédents et ceux qui viendront. Je n’en ferai cependant pas une habitude, notez-le bien. Cette fois-ci, l’exemple sera basé sur un sujet qui a surgi dans l’actualité depuis la publication de mon dernier billet.

En effet, le 26 novembre dernier, Radio-Canada.ca titrait sur sa page d’accueil: « Noirs et Autochtones surreprésentés dans les prisons« . Ça ne vous rappelle pas quelque chose? Je cite mon dernier billet: « les personnes qui ne portent pas la ceinture sont surreprésentées dans l’ensemble des personnes mortes dans un accident. » Pour arriver à cette conclusion, j’avais utilisé un test du khi-carré mental, en me basant sur des données recueillies à gauche et à droite. Analysons cette fois-ci la nouvelle de Radio-Canada en explicitant le processus du test du khi-carré.

Analyse préalable: recueillons les données

La première chose à faire pour accomplir le test du khi-carré est de faire la cueillette des données pour créer un tableau de distribution à double entrée (qui montre les données pour deux variables en même temps). Pour ce faire, je vais utiliser les informations fournies dans l’article de Radio-Canada et les données publiées par Statistiques Canada. En 2010-2011, 13 758 personnes étaient emprisonnées dans des prisons fédérales canadiennes. Selon l’article de Radio-Canada, les noirs représentent 9,5% de la population carcérale et les autochtones représentent 23% des détenus fédéraux. L’article rappelle aussi que les noirs représentent 3% de la population totale canadienne alors que les autochtones forment un groupe ayant un poids de 4,3% dans cette même population. Sachant qu’il y avait environ 34 880 500 personnes au Canada au 1er juillet 2012, on peut créer le tableau suivant pour représenter la répartition des Canadiens selon leur état d’incarcération et leur groupe ethnique. Ce n’est pas parfait mais ça suffira pour le bien de notre exemple.

Répartition des Canadiens selon le groupe ethnique et l’état d’incarcération
Noir Autochtone Autre Total
En liberté 1 046 002 1 499 270 32 321 470 34 866 742
En prison 1307 3164 9287 13 758
Total 1 047 309 1 502 434 32 330 757 34 880 500

Étape 1 : formuler les hypothèses

La première étape d’un test du khi-carré consiste à formuler des hypothèses. Par défaut, on considérera qu’il n’y a pas de lien entre les variables et on changera d’avis uniquement si des preuves formelles nous démontrent que les caractéristiques observées sont liées. Les hypothèses auront généralement la forme suivante:

H_0 : Il n’y a pas de lien entre les variables.

H_1 : Il y a un lien entre les variables.

On décidera à l’étape finale laquelle des deux hypothèses sera considérée comme valable.

Étape 2 : calculer les fréquences théoriques

Les fréquences théoriques sont définies comme étant les valeurs que l’on devrait observer si les variables n’étaient pas liées. Pour les calculer, on détermine d’abord la proportion des individus qui font partie des catégories d’une des deux variables. Dans notre exemple, on sait déjà la proportion des Canadiens qui sont noirs, autochtones et d’une autre ethnie. Cela signifie donc qu’on devrait obtenir une proportion de 3% de personnes  noires dans les prisons canadiennes. On devrait ainsi dénombrer 3% de 13 758 prisonniers qui seraient noirs, donc 412 prisonniers. 9,5% des prisonniers devraient être autochtones si les variables n’étaient pas liées. Finalement, les personnes d’autres origines et ethnies devraient représenter 87,5% de la population carcérale (100%-3%-9,5%). Dans le tableau suivant, vous trouverez les effectifs théoriques dans chacune des case, à droite de la barre verticale. Aussi, les valeurs de la catégorie « En liberté » sont les mêmes que les effectifs observés puisque je les ai conçues ainsi en fonction de ce que dit le texte de l’article. Dans des contextes différents, les valeurs observées seraient différentes des valeurs théoriques. Dans le contexte théorique, notez aussi que la fréquence théorique de chaque catégorie doit être plus grande que 5 pour que le test soit valable.

Répartition des Canadiens selon le groupe ethnique et l’état d’incarcération
Noir Autochtone Autre Total
En liberté 1 046 002 | 1 046 002 1 499 270 | 1 499 270 32 321 470 | 32 321 470 34 866 742
En prison 1307        |     412 3164        | 1307 9287          |12 038 13 758
Total 1 047 309 (3%) 1 502 434 (9,5%) 32 330 757 (87,5%) 34 880 500

Étape 3 : calculer la valeur du khi-carré observé

La valeur appelé du khi-carré observé (\chi^{2}_{observe} ) est obtenue en faisant la somme de toutes les expressions de la forme \frac{(O-T)^2}{T} O représente la valeur observée dans chacune des catégories et T représente la valeur théorique calculée à l’étape précédente.

Dans la situation présente, le calcul serait donc, pour la catégorie des personnes noires en prison: \frac{(1307 -412)^2}{412}=1944,24 .

Le calcul du khi-carré observé serait donc, en entier:

\chi^{2}_{observe}=\frac{(1 046 002-1 046 002)^2}{1 046 002}+\frac{(1 499 270-1 499 270)^2}{1 499 270}+\frac{(32 321 470-32 321 470)^2}{32 321 470}+\frac{(1307-412)^2}{412}+\frac{(3164-1307)^2}{1307}+\frac{(9287-12 038)^2}{12 038} =5211,4

Étape 4 : élaborer une règle de décision

Pour prendre une décision à savoir s’il existe un lien entre les variables, on doit avoir un critère objectif qui permette de trancher. Pour ce faire, on va chercher la valeur du khi-carré critique (\chi_{critique}^2 ) associée au problème. Celui-ci s’obtient à partir du nombre de degrés de liberté du problème (dl=(\# \text{cat\'egories de la variable 1} - 1)(\# \text{cat\'egories de la variable 2} - 1) . Ici, comme la variable 1 (origine) possède trois catégories (noir, autochtone ou autre) et la variable 2 (état d’incarcération) en a deux (en prison, en liberté), on trouve dl=(3-1)(2-1)=2 ). Ensuite, à l’aide du degré de signification (une constante donnée dans le problème, ici on la prendra égale à 0,05 ou 5%) et de la table du khi-carré, on peut déterminer la valeur du  \chi^{2}_{critique}.  Dans cette table, en regardant à l’intersection de la colonne 0,05 (notre seuil de signification) et dans la ligne 2 (le nombre de degrés de liberté du problème), on trouve pour notre problème: \chi^{2}_{critique}=5,99.

Pour être clair, le seuil de signification représente le pourcentage de chances de faire une mauvaise décision avec notre règle. Plus le pourcentage est petit, plus on est certain de ne pas se tromper en rejetant l’hypothèse H_0. La plupart des tests de ce genre sont faits avec un niveau de signification de 5% ou de 1%.

Notre critère de décision sera donc : « On choisit H_1 si \chi^{2}_{observe}\geq 5,99. »

Étape 5 : prendre une décision

Lors des 4 précédentes étapes, nous avons recueilli toutes les informations nécessaires pour décider s’il existe un lien entre les variables « Origine ethnique » et « État d’incarcération ». Notre règle de décision nous indique qu’on choisira H_1 si \chi^{2}_{observe}\geq 5,99 et nous avons calculé un \chi^{2}_{observe} de 5211,4. On conclut donc qu’il faut rejeter l’hypothèse H_0 et choisir l’hypothèse H_1: il existe un lien entre les variables. En étudiant les fréquences théoriques trouvées à l’étape 2, on se rend compte qu’effectivement, les noirs et les autochtones sont surreprésentés dans les prisons canadiennes alors que les personnes des autres ethnies sont sous-représentées.

Rappelons-nous ce que nous avons déjà dit dans le billet précédent: dire qu’il existe un lien entre les variables ne signifie pas qu’il existe une causalité. Le fait d’être noir ne cause pas la garantie d’un emprisonnement. Peut-être pourrait-on donner une causalité qui explique le lien entre les variables mais, en utilisant seulement les résultat de notre étude statistique, cela ne serait que spéculation et nécessiterait plus de recherches.

Vous voilà donc maintenant des chefs en calcul du khi-carré. Vous pourrez maintenant l’effectuer à chaque fois que vous allez aux toilettes ou que vous lisez des articles du genre. Essentiellement, ce que vous devez retenir c’est que l’existence d’une différence significative entre le poids d’une sous-catégorie dans un sous-ensemble et celui existant dans l’ensemble de la population est généralement un signe d’un lien entre les variables observées.

Dans mon billet de la semaine prochaine, je démontrerai l’importance d’analyser les questions de sondage qui soutiennent les affirmations qu’on voit dans les médias. Ce billet sera le dernier avant la période des Fêtes. La publication du blog reprendra en janvier.

Attention, ce billet contient une image graphique…

L’utilisation d’un graphique pour illustrer un phénomène est une pratique classique. Le graphique permet souvent de transmettre une grande quantité d’informations en un minimum d’espace et rend un texte plus vivant. Le graphique permet aussi de faire ressortir des tendances, de mettre l’accent sur des phénomènes particuliers. La schématisation des données est élément essentiel dans la publication scientifique et permet aux rédacteurs d’articles scientifique et d’actualité de présenter de façon intéressante le résultat de leurs recherches.

C’est d’ailleurs ce qu’a fait le Journal de Québec dans son édition du 11 novembre dernier. En effet, dans un dossier titré «Des Québécoises forcées de se faire avorter au É.-U» occupant les pages 4 et 5 du journal, on nous explique que des patientes québécoises désirant se faire avorter doivent se rendre aux États-Unis parce que leur grossesse est si avancée que les médecins québécois refusent d’en faire l’interruption. Sans faire la critique de cette situation, observons les chiffres présentés dans l’article. Consigne: en quelques coups d’œil, résumez dans votre tête le contenu des deux graphiques suivant.

Sans titre
Étudions le graphique suivant présenté dans l’article.

Je parie que vous en avez retenu que le nombre d’avortements pratiqués aux États-Unis a largement augmenté et le nombre d’avortements pratiqués au Québec a largement chuté dans les dernières années. C’est tout à fait normal, c’est effectivement l’impression que donne ce graphique. Mais, au-delà de l’impression, que disent vraiment ces graphiques? Approfondissons.

Prenons d’abord le deuxième graphique. Il est mauvais mais vraiment moins mauvais que le premier (que nous nous garderons pour le dessert). Dans ce deuxième graphique, on voit la variation du nombre avortements faits entre 2008 et 2011. Le problème fondamental du graphique vient du fait que l’axe vertical n’est pas identifié et est coupé. Mettons les choses au clair : il ne faut jamais présenter un graphique chronologique (présentant des données qui varient dans le temps) sans axe vertical identifiant les valeurs et il très peu recommandé d’en couper les axes.

Ne pas respecter cette dernière consigne peut rendre la variation relative de la hauteur des bandes trompeuse. Par exemple, comparez visuellement la deuxième et la troisième barre du graphique : la première est deux fois plus grande que la seconde, ce qui semble indiquer qu’il y a eu deux fois moins d’avortements en 2010 par rapport à 2009. Or, quand on fait le calcul, on se rend compte qu’il y a eu une baisse de seulement 1,4% entre les deux années (\frac{26497-26197}{26497}=-0,014=-1,4\% ).

Le graphique montre une modification drastique due à son axe tronqué alors qu’en réalité la tendance est presque négligeable. En fait, la bonne interprétation que vous devriez tirer de ces chiffres est que le nombre d’avortements est relativement stable au Québec, interprétation qui n’est pas du tout évidente au premier coup d’œil (sans regarder les chiffres).

Maintenant, observons le premier graphique. Disons-le clairement, si un étudiant me présentait un tel graphique, il entendrait parler de moi longtemps (et c’est publié dans un journal sérieux…) Depuis au moins l’Antiquité, toutes les langues dérivées du grec et du latin se lisent et s’écrivent de gauche à droite. Demandez à un enfant de vous dessiner une ligne des nombres ou une frise historique et il tracera une flèche dont l’origine est à gauche et l’extrémité fléchée est à droite. La personne qui a conçu ce graphique a choisi de défier cette convention presque universelle. Si je supposais la mauvaise fois des gens, je dirais que ce graphique a été conçu pour nous tromper. En renversant la présentation, on fait dire exactement le contraire de ce que disent les données.

Si vous êtes comme moi, en regardant rapidement ce graphique, vous vous êtes dit: «Oh la la, le nombre d’avortements faits aux États-Unis a beaucoup augmenté dernièrement!» Vous avez fait cette analyse parce que vous avez regardé les nombres d’interruptions de grossesse de gauche à droite, comme pour tous les graphiques qui vous sont présentés dans la vie (même le deuxième graphique de notre exemple!). Or, la réalité est toute autre en fait. Le nombre d’avortements pratiqués aux États-Unis a beaucoup diminué, de 69% plus précisément (\frac{12-42}{42}=-69\% ). Difficile de ne pas penser que cette présentation a été faite pour donner l’impression que le phénomène s’aggrave, justifiant de s’en indigner dans un article. Dans les faits, si les chiffres sont corrects, la tendance est totalement inverse et on peut penser que la situation pourrait se régler d’elle-même.

De façon plus générale, on peut aussi mettre en perspective les chiffres présentés dans l’article. En 2011, 26 248 avortements ont eu lieu. De ce nombre, environ une vingtaine ont dû être effectués du côté américain parce qu’ils ont été refusés au Québec. On parle donc de moins de 1 avortement sur 1000 qui doit être fait à l’étranger. Est-ce une situation alarmante? Assez pour justifier un article aussi noir? Je ne le crois pas, surtout considérant que la tendance est à la baisse depuis 4 ans.

Présenter des données dans un graphique est une chose très positive lorsque cela est bien fait. Cependant, lorsqu’on le fait mal, on peut induire ses lecteurs en erreur en présentant un vision erronée. Comme rédacteur, il faut faire attention d’illustrer ses textes au moyen de graphiques bien construits, facilitant la lecture et présentant l’information de façon juste. Comme lecteur, je vous invite à toujours porter un regard critique sur les données illustrées, particulièrement dans le cas où un axe est absent ou tronqué. Cette vigilance vous sauvera probablement régulièrement d’être enfirouapé par un graphique trompeur.

La semaine prochaine, je compléterai la formation sur le test du khi-carré avec un exemple tiré de l’actualité.

Campagne publicitaire: comment se porte votre test du khi-carré mental?

Une affiche de la SAAQ invite à faire un test du khi-carré mental.

Dans les toilettes de mon cégep, une campagne de publicité de la Société d’assurance automobile du Québec (SAAQ) vient de faire son apparition en invitant les hommes en pleine miction à faire travailler leur test du khi-carré mental. On y lit : « Un tiers des conducteurs et passagers d’automobile décédés ne portaient pas leur ceinture. »

La statistique en elle-même est impressionnante! Il existe encore assez d’utilisateurs de la route qui ne portent pas leur ceinture de sécurité pour que cela représente 33,3 % des personnes qui meurent dans les accidents de la route. Cependant, cette publicité nous invite à aller plus loin en faisant mentalement un test du khi-carré et saisir un message encore plus important: le fait de ne pas porter sa ceinture de sécurité est lié au fait de mourir en cas d’accident de la route. Voyons-le.

Selon un article paru sur Blainville.ca qui cite des intervenants de la SAAQ, « plus de 9 personnes sur 10 portent leur ceinture de sécurité le jour ». Je pense qu’on peut supposer de façon très raisonnable que ce taux ne varie pas énormément dans l’ensemble de la journée ou du moins qu’il ne descend pas en bas de 80 %.

Cela signifie donc que, dans la population en général, au minimum 80 % des conducteurs et passagers de véhicules routiers portent la ceinture de sécurité. Donc, au maximum, 20 % des utilisateurs ne sont pas attachés sur la route. Or, parmi les personnes qui sont décédées, autour de 33 % ne portaient pas leur ceinture.

Si ces variables n’étaient pas liées, on devrait observer la même proportion d’utilisateurs de la route qui ne sont pas attachés dans l’ensemble de la population que parmi le sous-ensemble des personnes qui sont décédées.

Ce n’est pas le cas ici : il existe une différence notable entre les pourcentages observés dans l’ensemble de la population et dans un sous-groupe particulier. C’est sur l’existence d’une telle différence que se base le test du khi-carré pour déterminer si un lien unit les caractéristiques observées. On peut donc supposer qu’il existe un lien entre les variables « Port de la ceinture de sécurité » et « Décès lors d’un accident de la route ». Pour confirmer ce lien, il faudrait faire l’étude des chiffres en détail et faire réellement un test du khi-carré qui nous permettrait de confirmer ce diagnostic. On peut raisonnablement supposer que cela a été fait puisque la SAAQ rappelle qu’« [u]ne augmentation de 1 point de pourcentage du taux de port de la ceinture est associée à une diminution moyenne de 8,5 décès par année ». Les lecteurs intéressés par une explication plus détaillée sur le test du khi-carré peuvent se référer à la page Wikipédia sur le sujet ou à ce document explicatif.

Il est important de rappeler que l’existence d’un lien entre les variables n’implique pas nécessairement une causalité entre les deux. Je ne suis pas en train de vous dire que si vous ne portez pas votre ceinture de sécurité, vous allez mourir dans un grave carambolage. J’affirme (comme la SAAQ dans son message) que si vous ne vous attachez pas, vous faites partie d’un groupe qui est surreprésenté dans les personnes décédées en faisant usage d’un véhicule routier.

Le message de la SAAQ se situe à deux niveaux; le premier nous dit que beaucoup de personnes mortes dans des accidents de la route ne portaient pas leur ceinture. On le comprend assez facilement en lisant la pancarte.

Le second niveau est plus subtil et accessible uniquement avec un peu de réflexion, de recherche et une certaine connaissance du processus du test du khi-carré : il existe un lien entre les variables « Port de la ceinture » et « Mort dans un accident de la route » et les personnes qui ne portent pas la ceinture sont surreprésentées dans l’ensemble des personnes mortes dans un accident. À vous de comprendre le message et de vous attacher lors de votre prochaine promenade.