Sur l’importance de bien choisir sa question

René Lévesque a souvent reçu des critiques sur la formulation de la question référendaire de 1980. Il pourrait certainement témoigner de l’importance de bien choisir sa question… Image : Bouchcl, CC BY-SA 3.0.

En 2009-2010, le gouvernement libéral de Jean Charest était en pleine négrociation de la nouvelle convention collective avec l’ensemble des employés de la fonction publique québécoise. La négociation était à son plus fort et les forces cherchaient des arguments pour justifier leurs demandes et leur position.

Comme le gouvernement provincial est financé par les contribuables québécois, il pouvait être intéressant de savoir quelle était la positions de ceux-ci sur les négociations. Advenant le cas que les syndicats recevaient un fort appui de la population, il aurait été difficile de maintenir la ligne dure pour en venir à une entente avantageuse pour le gouvernement. Inversement, si la population était fortement derrière le gouvernement, il aurait pu se fier sur cet appui pour imposer une convention collective austère, tel qu’il le souhaitait.

C’est dans ce contexte que l’Institut économique de Montréal et Léger Marketing ont publié un sondage fait auprès de 1000 Québécois sur les négociation entre le secteur public et le gouvernement (consulter en ligne : http://www.iedm.org/files/sondage0310_fr_0.pdf ). Sorti le 3 mars 2010, ce rapport de sondage faisait état des résultats de trois questions. On peut lire la méthodologie du sondage dans la seconde page du rapport. On y apprend entre autre qu’il ne s’agit pas d’un sondage probabiliste et qu’il a été mené auprès d’internautes. Dans un autre billet, je pourrai revenir sur la notion de sondage probabiliste.

Ce sur quoi je voudrais attirer votre attention c’est plutôt les conclusions du rapport et les questions sur lesquelles ces affirmations sont basées. En titre de la page consacrée à la première question du sondage, on lit:

La grande majorité des Québécois soutiennent la position du gouvernement Charest dans les négociations avec les syndicats des employés de la fonction publique.

L’affirmation est forte et il convient d’étudier les bases de cette conclusion. Voici la question qui a été posée au internautes pour en arriver à dire que le gouvernement recevait l’appui de 7 Québécois sur 10.

Dans ses négociations avec les syndicats des employés de la fonction publique, le gouvernement Charest devrait-il:

a) accepter intégralement les demandes syndicales (dont une augmentation salariale de 11,25% sur 3 ans), et augmenter les impôts afin de financer ces demandes comme le suggère la CSN ?

b) exiger que les augmentations octroyées soient liées à des gains de productivité des fonctionnaires et à une diminution générale des coûts de fonctionnement du gouvernement ?

c) Ne sait pas.

Hmmm… Je l’avoue, je suis moi-même membre de la fonction publique et, devant cette question, j’ai de la difficulté à choisir raisonnablement la première option plutôt que la seconde. Donc, imaginez le contribuable moyen devant cette question.

Quand on veut savoir l’opinion d’une population sur une question, il faut absolument choisir une formulation la plus neutre possible qui permet au sondé d’exprimer réellement son opinion. Ici, aucun payeur de taxe ne choisira l’option qui aura un effet sur les impôts qu’il paiera. De plus, comment peut-on être contre la vertu qui est présentée dans la deuxième réponse proposée? Comment peut-on refuser qu’une augmentation de salaire des fonctionnaires se traduise par une diminution générale des coût de fonctionnement du gouvernement? Cette question et ces réponses sont tellement réductrices de l’enjeu qu’il n’est pas possible pour le répondant de choisir correctement et la formulation des questions lui indique clairement qu’il devrait choisir la seconde option.

Aussi, il faut que l’ensemble des positions possibles soient proposées dans les choix de réponses d’une question de sondage. Dans le cas qui nous intéresse ici, il n’y a aucune solution mitoyenne proposée. Pour que les choix de réponse soient un peu plus exhaustifs par rapport aux retours possibles. Le sondé qui voudrait répondre quelque chose comme « augmenter un peu le salaire des employés de l’État sans que cela ait un effet sur les impôts des contribuables » ou « trouver une solution qui conviendrait aux deux parties » n’ont aucune catégorie qui leur convient réellement.

Finalement, ces choix de réponse sont en fait ce qu’on appelle un faux dilemme. Aucun des acteurs de la négociation ne souhaitait réellement les résultats nommés par les options qui sont présentées. Les syndicats demandaient une augmentation de leur salaire, le gouvernement souhaitait limiter le plus possible cette augmentation. La partie syndicale ne peut garantir que l’augmentation du salaire de ses membres mènera à une augmentation de la productivité et ne s’opposerait certainement pas à ce que cela se réalise. Inversement, le gouvernement peut accepter une augmentation du salaire de ses employés sans avoir à augmenter les impôts. Il pourrait réduire les dépenses en coupant dans ses programmes pour atteindre ce résultat. Ainsi, les résultats énoncés avec chacune des positions ne sont pas liés avec le choix de solution qui les précèdent.

Au-delà des considérations sur la formulation de la question, la conclusion tirée de l’étude statistique des réponses est assez outrageuse. Avec une question aussi biaisée, il est assez audacieux d’en tirer qu’une majorité des Québécois supportent le gouvernement. Le processus est équivalent, à mon sens, à poser la question « Que préférez-vous : le brocoli ou le gâteau au chocolat? » et d’en tirer la conclusion que les Québécois préfèrent les aliments gras et sucrés par rapport aux légumes. C’est une conclusion sans intérêt qui généralise beaucoup trop la réalité décrite par la question et ses résultats.

Il faut donc réfléchir à une question plus neutre qui permettrait de savoir réellement l’opinion de la population québécoise. Dans le contexte, il est vrai que cela est difficile à faire puisque l’enjeu tient plus de l’idéologie que d’une lecture raisonnée des enjeux de la négociation. Il serait très difficile de mettre en contexte la position de chaque partie de la négociation sans en caricaturer un peu la teneur et revenir à une question qui dirait « Augmenter les salaires des fonctionnaires ou pas? ». La longueur de la question serait aussi problématique à limiter puisqu’il faudrait expliquer de façon neutre la position des deux parties. Simplement, on aurait tout de même pu poser la question suivante:

À la lumière de ce que vous savez sur la négociation qui a lieu entre les syndicats de la fonction publique et le gouvernement, quelle partie obtient votre support?

a) Le gouvernement;

b) la partie syndicale;

c) ne sait pas.

Cette question aurait au moins l’avantage de ne pas orienter la réponse des répondants et permettrait d’affirmer de quel côté va le support des Québécois. Cependant, elle risquerait probablement de recevoir un fort taux de réponses « ne sait pas » puisqu’une infime partie des personnes sondées sont réellement au courant des positions des deux parties.

Bref, la question qui a été posée était biaisée et ne permettait pas de tirer la conclusion qui est énoncée. De plus, il faut savoir que les journaux rapportent généralement les conclusions d’un sondage et non pas les questions et le réponses obtenues dans l’étude. Il est donc très important d’aller consulter les sources des conclusions pour pouvoir poser un regard critique efficace sur ces affirmations. De plus, il est absolument nécessaire de se questionner sur les méthodologies qui ont été utilisées pour réaliser le sondage. Dans un autre billet, j’expliquerai pourquoi, dans ce cas précis et dans bien d’autres cas, il faudrait remettre encore plus en doute les résultats du sondage à cause de la méthodologie utilisée.

Malheureusement, cette publication sera la dernière avant le temps des fêtes. C’est avec plaisir que je reprendrai l’écriture au début de la prochaine session. Sans vous faire de promesses, j’aimerais continuer à expliquer les principaux principes de méthodes quantitatives à l’aide d’exemples concrets. J’explorerai aussi la possibilité de faire des entrevues avec des acteurs du milieu qui nous expliqueront la place des méthodes quantitatives dans leur pratique. Peut-être verrons-nous aussi la publication de billets écrits par des collègues ou de mes étudiants. D’ici là, n’hésitez pas à me faire parvenir vos idées et vos commentaires pour améliorer ce blog. Au plaisir de vous voir en janvier!

Publicités

Khi-carré : puisque vous en redemandez!

Le temps passé en prison permet de faire des tests du khi-carré… Image: Boardhead, CC BY-SA 3.0, source

Mon billet précédent sur l’utilisation du test du khi-carré a suscité plusieurs commentaires me demandant d’expliquer un peu plus clairement ce qu’est ce test et comment on l’utilise pour déterminer s’il existe un lien entre des variables.

Je l’avoue, l’objectif de ce billet était plus d’introduire la notion en surface pour expliquer la publicité plus que d’en faire une explication complète. Puisque cette introduction a laissé mes lecteurs sur leur faim, voici une explication encore plus détaillée du test du khi-carré. Ce billet aura donc une saveur clairement plus mathématique que les précédents et ceux qui viendront. Je n’en ferai cependant pas une habitude, notez-le bien. Cette fois-ci, l’exemple sera basé sur un sujet qui a surgi dans l’actualité depuis la publication de mon dernier billet.

En effet, le 26 novembre dernier, Radio-Canada.ca titrait sur sa page d’accueil: « Noirs et Autochtones surreprésentés dans les prisons« . Ça ne vous rappelle pas quelque chose? Je cite mon dernier billet: « les personnes qui ne portent pas la ceinture sont surreprésentées dans l’ensemble des personnes mortes dans un accident. » Pour arriver à cette conclusion, j’avais utilisé un test du khi-carré mental, en me basant sur des données recueillies à gauche et à droite. Analysons cette fois-ci la nouvelle de Radio-Canada en explicitant le processus du test du khi-carré.

Analyse préalable: recueillons les données

La première chose à faire pour accomplir le test du khi-carré est de faire la cueillette des données pour créer un tableau de distribution à double entrée (qui montre les données pour deux variables en même temps). Pour ce faire, je vais utiliser les informations fournies dans l’article de Radio-Canada et les données publiées par Statistiques Canada. En 2010-2011, 13 758 personnes étaient emprisonnées dans des prisons fédérales canadiennes. Selon l’article de Radio-Canada, les noirs représentent 9,5% de la population carcérale et les autochtones représentent 23% des détenus fédéraux. L’article rappelle aussi que les noirs représentent 3% de la population totale canadienne alors que les autochtones forment un groupe ayant un poids de 4,3% dans cette même population. Sachant qu’il y avait environ 34 880 500 personnes au Canada au 1er juillet 2012, on peut créer le tableau suivant pour représenter la répartition des Canadiens selon leur état d’incarcération et leur groupe ethnique. Ce n’est pas parfait mais ça suffira pour le bien de notre exemple.

Répartition des Canadiens selon le groupe ethnique et l’état d’incarcération
Noir Autochtone Autre Total
En liberté 1 046 002 1 499 270 32 321 470 34 866 742
En prison 1307 3164 9287 13 758
Total 1 047 309 1 502 434 32 330 757 34 880 500

Étape 1 : formuler les hypothèses

La première étape d’un test du khi-carré consiste à formuler des hypothèses. Par défaut, on considérera qu’il n’y a pas de lien entre les variables et on changera d’avis uniquement si des preuves formelles nous démontrent que les caractéristiques observées sont liées. Les hypothèses auront généralement la forme suivante:

H_0 : Il n’y a pas de lien entre les variables.

H_1 : Il y a un lien entre les variables.

On décidera à l’étape finale laquelle des deux hypothèses sera considérée comme valable.

Étape 2 : calculer les fréquences théoriques

Les fréquences théoriques sont définies comme étant les valeurs que l’on devrait observer si les variables n’étaient pas liées. Pour les calculer, on détermine d’abord la proportion des individus qui font partie des catégories d’une des deux variables. Dans notre exemple, on sait déjà la proportion des Canadiens qui sont noirs, autochtones et d’une autre ethnie. Cela signifie donc qu’on devrait obtenir une proportion de 3% de personnes  noires dans les prisons canadiennes. On devrait ainsi dénombrer 3% de 13 758 prisonniers qui seraient noirs, donc 412 prisonniers. 9,5% des prisonniers devraient être autochtones si les variables n’étaient pas liées. Finalement, les personnes d’autres origines et ethnies devraient représenter 87,5% de la population carcérale (100%-3%-9,5%). Dans le tableau suivant, vous trouverez les effectifs théoriques dans chacune des case, à droite de la barre verticale. Aussi, les valeurs de la catégorie « En liberté » sont les mêmes que les effectifs observés puisque je les ai conçues ainsi en fonction de ce que dit le texte de l’article. Dans des contextes différents, les valeurs observées seraient différentes des valeurs théoriques. Dans le contexte théorique, notez aussi que la fréquence théorique de chaque catégorie doit être plus grande que 5 pour que le test soit valable.

Répartition des Canadiens selon le groupe ethnique et l’état d’incarcération
Noir Autochtone Autre Total
En liberté 1 046 002 | 1 046 002 1 499 270 | 1 499 270 32 321 470 | 32 321 470 34 866 742
En prison 1307        |     412 3164        | 1307 9287          |12 038 13 758
Total 1 047 309 (3%) 1 502 434 (9,5%) 32 330 757 (87,5%) 34 880 500

Étape 3 : calculer la valeur du khi-carré observé

La valeur appelé du khi-carré observé (\chi^{2}_{observe} ) est obtenue en faisant la somme de toutes les expressions de la forme \frac{(O-T)^2}{T} O représente la valeur observée dans chacune des catégories et T représente la valeur théorique calculée à l’étape précédente.

Dans la situation présente, le calcul serait donc, pour la catégorie des personnes noires en prison: \frac{(1307 -412)^2}{412}=1944,24 .

Le calcul du khi-carré observé serait donc, en entier:

\chi^{2}_{observe}=\frac{(1 046 002-1 046 002)^2}{1 046 002}+\frac{(1 499 270-1 499 270)^2}{1 499 270}+\frac{(32 321 470-32 321 470)^2}{32 321 470}+\frac{(1307-412)^2}{412}+\frac{(3164-1307)^2}{1307}+\frac{(9287-12 038)^2}{12 038} =5211,4

Étape 4 : élaborer une règle de décision

Pour prendre une décision à savoir s’il existe un lien entre les variables, on doit avoir un critère objectif qui permette de trancher. Pour ce faire, on va chercher la valeur du khi-carré critique (\chi_{critique}^2 ) associée au problème. Celui-ci s’obtient à partir du nombre de degrés de liberté du problème (dl=(\# \text{cat\'egories de la variable 1} - 1)(\# \text{cat\'egories de la variable 2} - 1) . Ici, comme la variable 1 (origine) possède trois catégories (noir, autochtone ou autre) et la variable 2 (état d’incarcération) en a deux (en prison, en liberté), on trouve dl=(3-1)(2-1)=2 ). Ensuite, à l’aide du degré de signification (une constante donnée dans le problème, ici on la prendra égale à 0,05 ou 5%) et de la table du khi-carré, on peut déterminer la valeur du  \chi^{2}_{critique}.  Dans cette table, en regardant à l’intersection de la colonne 0,05 (notre seuil de signification) et dans la ligne 2 (le nombre de degrés de liberté du problème), on trouve pour notre problème: \chi^{2}_{critique}=5,99.

Pour être clair, le seuil de signification représente le pourcentage de chances de faire une mauvaise décision avec notre règle. Plus le pourcentage est petit, plus on est certain de ne pas se tromper en rejetant l’hypothèse H_0. La plupart des tests de ce genre sont faits avec un niveau de signification de 5% ou de 1%.

Notre critère de décision sera donc : « On choisit H_1 si \chi^{2}_{observe}\geq 5,99. »

Étape 5 : prendre une décision

Lors des 4 précédentes étapes, nous avons recueilli toutes les informations nécessaires pour décider s’il existe un lien entre les variables « Origine ethnique » et « État d’incarcération ». Notre règle de décision nous indique qu’on choisira H_1 si \chi^{2}_{observe}\geq 5,99 et nous avons calculé un \chi^{2}_{observe} de 5211,4. On conclut donc qu’il faut rejeter l’hypothèse H_0 et choisir l’hypothèse H_1: il existe un lien entre les variables. En étudiant les fréquences théoriques trouvées à l’étape 2, on se rend compte qu’effectivement, les noirs et les autochtones sont surreprésentés dans les prisons canadiennes alors que les personnes des autres ethnies sont sous-représentées.

Rappelons-nous ce que nous avons déjà dit dans le billet précédent: dire qu’il existe un lien entre les variables ne signifie pas qu’il existe une causalité. Le fait d’être noir ne cause pas la garantie d’un emprisonnement. Peut-être pourrait-on donner une causalité qui explique le lien entre les variables mais, en utilisant seulement les résultat de notre étude statistique, cela ne serait que spéculation et nécessiterait plus de recherches.

Vous voilà donc maintenant des chefs en calcul du khi-carré. Vous pourrez maintenant l’effectuer à chaque fois que vous allez aux toilettes ou que vous lisez des articles du genre. Essentiellement, ce que vous devez retenir c’est que l’existence d’une différence significative entre le poids d’une sous-catégorie dans un sous-ensemble et celui existant dans l’ensemble de la population est généralement un signe d’un lien entre les variables observées.

Dans mon billet de la semaine prochaine, je démontrerai l’importance d’analyser les questions de sondage qui soutiennent les affirmations qu’on voit dans les médias. Ce billet sera le dernier avant la période des Fêtes. La publication du blog reprendra en janvier.

Attention, ce billet contient une image graphique…

L’utilisation d’un graphique pour illustrer un phénomène est une pratique classique. Le graphique permet souvent de transmettre une grande quantité d’informations en un minimum d’espace et rend un texte plus vivant. Le graphique permet aussi de faire ressortir des tendances, de mettre l’accent sur des phénomènes particuliers. La schématisation des données est élément essentiel dans la publication scientifique et permet aux rédacteurs d’articles scientifique et d’actualité de présenter de façon intéressante le résultat de leurs recherches.

C’est d’ailleurs ce qu’a fait le Journal de Québec dans son édition du 11 novembre dernier. En effet, dans un dossier titré «Des Québécoises forcées de se faire avorter au É.-U» occupant les pages 4 et 5 du journal, on nous explique que des patientes québécoises désirant se faire avorter doivent se rendre aux États-Unis parce que leur grossesse est si avancée que les médecins québécois refusent d’en faire l’interruption. Sans faire la critique de cette situation, observons les chiffres présentés dans l’article. Consigne: en quelques coups d’œil, résumez dans votre tête le contenu des deux graphiques suivant.

Sans titre
Étudions le graphique suivant présenté dans l’article.

Je parie que vous en avez retenu que le nombre d’avortements pratiqués aux États-Unis a largement augmenté et le nombre d’avortements pratiqués au Québec a largement chuté dans les dernières années. C’est tout à fait normal, c’est effectivement l’impression que donne ce graphique. Mais, au-delà de l’impression, que disent vraiment ces graphiques? Approfondissons.

Prenons d’abord le deuxième graphique. Il est mauvais mais vraiment moins mauvais que le premier (que nous nous garderons pour le dessert). Dans ce deuxième graphique, on voit la variation du nombre avortements faits entre 2008 et 2011. Le problème fondamental du graphique vient du fait que l’axe vertical n’est pas identifié et est coupé. Mettons les choses au clair : il ne faut jamais présenter un graphique chronologique (présentant des données qui varient dans le temps) sans axe vertical identifiant les valeurs et il très peu recommandé d’en couper les axes.

Ne pas respecter cette dernière consigne peut rendre la variation relative de la hauteur des bandes trompeuse. Par exemple, comparez visuellement la deuxième et la troisième barre du graphique : la première est deux fois plus grande que la seconde, ce qui semble indiquer qu’il y a eu deux fois moins d’avortements en 2010 par rapport à 2009. Or, quand on fait le calcul, on se rend compte qu’il y a eu une baisse de seulement 1,4% entre les deux années (\frac{26497-26197}{26497}=-0,014=-1,4\% ).

Le graphique montre une modification drastique due à son axe tronqué alors qu’en réalité la tendance est presque négligeable. En fait, la bonne interprétation que vous devriez tirer de ces chiffres est que le nombre d’avortements est relativement stable au Québec, interprétation qui n’est pas du tout évidente au premier coup d’œil (sans regarder les chiffres).

Maintenant, observons le premier graphique. Disons-le clairement, si un étudiant me présentait un tel graphique, il entendrait parler de moi longtemps (et c’est publié dans un journal sérieux…) Depuis au moins l’Antiquité, toutes les langues dérivées du grec et du latin se lisent et s’écrivent de gauche à droite. Demandez à un enfant de vous dessiner une ligne des nombres ou une frise historique et il tracera une flèche dont l’origine est à gauche et l’extrémité fléchée est à droite. La personne qui a conçu ce graphique a choisi de défier cette convention presque universelle. Si je supposais la mauvaise fois des gens, je dirais que ce graphique a été conçu pour nous tromper. En renversant la présentation, on fait dire exactement le contraire de ce que disent les données.

Si vous êtes comme moi, en regardant rapidement ce graphique, vous vous êtes dit: «Oh la la, le nombre d’avortements faits aux États-Unis a beaucoup augmenté dernièrement!» Vous avez fait cette analyse parce que vous avez regardé les nombres d’interruptions de grossesse de gauche à droite, comme pour tous les graphiques qui vous sont présentés dans la vie (même le deuxième graphique de notre exemple!). Or, la réalité est toute autre en fait. Le nombre d’avortements pratiqués aux États-Unis a beaucoup diminué, de 69% plus précisément (\frac{12-42}{42}=-69\% ). Difficile de ne pas penser que cette présentation a été faite pour donner l’impression que le phénomène s’aggrave, justifiant de s’en indigner dans un article. Dans les faits, si les chiffres sont corrects, la tendance est totalement inverse et on peut penser que la situation pourrait se régler d’elle-même.

De façon plus générale, on peut aussi mettre en perspective les chiffres présentés dans l’article. En 2011, 26 248 avortements ont eu lieu. De ce nombre, environ une vingtaine ont dû être effectués du côté américain parce qu’ils ont été refusés au Québec. On parle donc de moins de 1 avortement sur 1000 qui doit être fait à l’étranger. Est-ce une situation alarmante? Assez pour justifier un article aussi noir? Je ne le crois pas, surtout considérant que la tendance est à la baisse depuis 4 ans.

Présenter des données dans un graphique est une chose très positive lorsque cela est bien fait. Cependant, lorsqu’on le fait mal, on peut induire ses lecteurs en erreur en présentant un vision erronée. Comme rédacteur, il faut faire attention d’illustrer ses textes au moyen de graphiques bien construits, facilitant la lecture et présentant l’information de façon juste. Comme lecteur, je vous invite à toujours porter un regard critique sur les données illustrées, particulièrement dans le cas où un axe est absent ou tronqué. Cette vigilance vous sauvera probablement régulièrement d’être enfirouapé par un graphique trompeur.

La semaine prochaine, je compléterai la formation sur le test du khi-carré avec un exemple tiré de l’actualité.