Khi-carré : puisque vous en redemandez!

Le temps passé en prison permet de faire des tests du khi-carré… Image: Boardhead, CC BY-SA 3.0, source

Mon billet précédent sur l’utilisation du test du khi-carré a suscité plusieurs commentaires me demandant d’expliquer un peu plus clairement ce qu’est ce test et comment on l’utilise pour déterminer s’il existe un lien entre des variables.

Je l’avoue, l’objectif de ce billet était plus d’introduire la notion en surface pour expliquer la publicité plus que d’en faire une explication complète. Puisque cette introduction a laissé mes lecteurs sur leur faim, voici une explication encore plus détaillée du test du khi-carré. Ce billet aura donc une saveur clairement plus mathématique que les précédents et ceux qui viendront. Je n’en ferai cependant pas une habitude, notez-le bien. Cette fois-ci, l’exemple sera basé sur un sujet qui a surgi dans l’actualité depuis la publication de mon dernier billet.

En effet, le 26 novembre dernier, Radio-Canada.ca titrait sur sa page d’accueil: « Noirs et Autochtones surreprésentés dans les prisons« . Ça ne vous rappelle pas quelque chose? Je cite mon dernier billet: « les personnes qui ne portent pas la ceinture sont surreprésentées dans l’ensemble des personnes mortes dans un accident. » Pour arriver à cette conclusion, j’avais utilisé un test du khi-carré mental, en me basant sur des données recueillies à gauche et à droite. Analysons cette fois-ci la nouvelle de Radio-Canada en explicitant le processus du test du khi-carré.

Analyse préalable: recueillons les données

La première chose à faire pour accomplir le test du khi-carré est de faire la cueillette des données pour créer un tableau de distribution à double entrée (qui montre les données pour deux variables en même temps). Pour ce faire, je vais utiliser les informations fournies dans l’article de Radio-Canada et les données publiées par Statistiques Canada. En 2010-2011, 13 758 personnes étaient emprisonnées dans des prisons fédérales canadiennes. Selon l’article de Radio-Canada, les noirs représentent 9,5% de la population carcérale et les autochtones représentent 23% des détenus fédéraux. L’article rappelle aussi que les noirs représentent 3% de la population totale canadienne alors que les autochtones forment un groupe ayant un poids de 4,3% dans cette même population. Sachant qu’il y avait environ 34 880 500 personnes au Canada au 1er juillet 2012, on peut créer le tableau suivant pour représenter la répartition des Canadiens selon leur état d’incarcération et leur groupe ethnique. Ce n’est pas parfait mais ça suffira pour le bien de notre exemple.

Répartition des Canadiens selon le groupe ethnique et l’état d’incarcération
Noir Autochtone Autre Total
En liberté 1 046 002 1 499 270 32 321 470 34 866 742
En prison 1307 3164 9287 13 758
Total 1 047 309 1 502 434 32 330 757 34 880 500

Étape 1 : formuler les hypothèses

La première étape d’un test du khi-carré consiste à formuler des hypothèses. Par défaut, on considérera qu’il n’y a pas de lien entre les variables et on changera d’avis uniquement si des preuves formelles nous démontrent que les caractéristiques observées sont liées. Les hypothèses auront généralement la forme suivante:

H_0 : Il n’y a pas de lien entre les variables.

H_1 : Il y a un lien entre les variables.

On décidera à l’étape finale laquelle des deux hypothèses sera considérée comme valable.

Étape 2 : calculer les fréquences théoriques

Les fréquences théoriques sont définies comme étant les valeurs que l’on devrait observer si les variables n’étaient pas liées. Pour les calculer, on détermine d’abord la proportion des individus qui font partie des catégories d’une des deux variables. Dans notre exemple, on sait déjà la proportion des Canadiens qui sont noirs, autochtones et d’une autre ethnie. Cela signifie donc qu’on devrait obtenir une proportion de 3% de personnes  noires dans les prisons canadiennes. On devrait ainsi dénombrer 3% de 13 758 prisonniers qui seraient noirs, donc 412 prisonniers. 9,5% des prisonniers devraient être autochtones si les variables n’étaient pas liées. Finalement, les personnes d’autres origines et ethnies devraient représenter 87,5% de la population carcérale (100%-3%-9,5%). Dans le tableau suivant, vous trouverez les effectifs théoriques dans chacune des case, à droite de la barre verticale. Aussi, les valeurs de la catégorie « En liberté » sont les mêmes que les effectifs observés puisque je les ai conçues ainsi en fonction de ce que dit le texte de l’article. Dans des contextes différents, les valeurs observées seraient différentes des valeurs théoriques. Dans le contexte théorique, notez aussi que la fréquence théorique de chaque catégorie doit être plus grande que 5 pour que le test soit valable.

Répartition des Canadiens selon le groupe ethnique et l’état d’incarcération
Noir Autochtone Autre Total
En liberté 1 046 002 | 1 046 002 1 499 270 | 1 499 270 32 321 470 | 32 321 470 34 866 742
En prison 1307        |     412 3164        | 1307 9287          |12 038 13 758
Total 1 047 309 (3%) 1 502 434 (9,5%) 32 330 757 (87,5%) 34 880 500

Étape 3 : calculer la valeur du khi-carré observé

La valeur appelé du khi-carré observé (\chi^{2}_{observe} ) est obtenue en faisant la somme de toutes les expressions de la forme \frac{(O-T)^2}{T} O représente la valeur observée dans chacune des catégories et T représente la valeur théorique calculée à l’étape précédente.

Dans la situation présente, le calcul serait donc, pour la catégorie des personnes noires en prison: \frac{(1307 -412)^2}{412}=1944,24 .

Le calcul du khi-carré observé serait donc, en entier:

\chi^{2}_{observe}=\frac{(1 046 002-1 046 002)^2}{1 046 002}+\frac{(1 499 270-1 499 270)^2}{1 499 270}+\frac{(32 321 470-32 321 470)^2}{32 321 470}+\frac{(1307-412)^2}{412}+\frac{(3164-1307)^2}{1307}+\frac{(9287-12 038)^2}{12 038} =5211,4

Étape 4 : élaborer une règle de décision

Pour prendre une décision à savoir s’il existe un lien entre les variables, on doit avoir un critère objectif qui permette de trancher. Pour ce faire, on va chercher la valeur du khi-carré critique (\chi_{critique}^2 ) associée au problème. Celui-ci s’obtient à partir du nombre de degrés de liberté du problème (dl=(\# \text{cat\'egories de la variable 1} - 1)(\# \text{cat\'egories de la variable 2} - 1) . Ici, comme la variable 1 (origine) possède trois catégories (noir, autochtone ou autre) et la variable 2 (état d’incarcération) en a deux (en prison, en liberté), on trouve dl=(3-1)(2-1)=2 ). Ensuite, à l’aide du degré de signification (une constante donnée dans le problème, ici on la prendra égale à 0,05 ou 5%) et de la table du khi-carré, on peut déterminer la valeur du  \chi^{2}_{critique}.  Dans cette table, en regardant à l’intersection de la colonne 0,05 (notre seuil de signification) et dans la ligne 2 (le nombre de degrés de liberté du problème), on trouve pour notre problème: \chi^{2}_{critique}=5,99.

Pour être clair, le seuil de signification représente le pourcentage de chances de faire une mauvaise décision avec notre règle. Plus le pourcentage est petit, plus on est certain de ne pas se tromper en rejetant l’hypothèse H_0. La plupart des tests de ce genre sont faits avec un niveau de signification de 5% ou de 1%.

Notre critère de décision sera donc : « On choisit H_1 si \chi^{2}_{observe}\geq 5,99. »

Étape 5 : prendre une décision

Lors des 4 précédentes étapes, nous avons recueilli toutes les informations nécessaires pour décider s’il existe un lien entre les variables « Origine ethnique » et « État d’incarcération ». Notre règle de décision nous indique qu’on choisira H_1 si \chi^{2}_{observe}\geq 5,99 et nous avons calculé un \chi^{2}_{observe} de 5211,4. On conclut donc qu’il faut rejeter l’hypothèse H_0 et choisir l’hypothèse H_1: il existe un lien entre les variables. En étudiant les fréquences théoriques trouvées à l’étape 2, on se rend compte qu’effectivement, les noirs et les autochtones sont surreprésentés dans les prisons canadiennes alors que les personnes des autres ethnies sont sous-représentées.

Rappelons-nous ce que nous avons déjà dit dans le billet précédent: dire qu’il existe un lien entre les variables ne signifie pas qu’il existe une causalité. Le fait d’être noir ne cause pas la garantie d’un emprisonnement. Peut-être pourrait-on donner une causalité qui explique le lien entre les variables mais, en utilisant seulement les résultat de notre étude statistique, cela ne serait que spéculation et nécessiterait plus de recherches.

Vous voilà donc maintenant des chefs en calcul du khi-carré. Vous pourrez maintenant l’effectuer à chaque fois que vous allez aux toilettes ou que vous lisez des articles du genre. Essentiellement, ce que vous devez retenir c’est que l’existence d’une différence significative entre le poids d’une sous-catégorie dans un sous-ensemble et celui existant dans l’ensemble de la population est généralement un signe d’un lien entre les variables observées.

Dans mon billet de la semaine prochaine, je démontrerai l’importance d’analyser les questions de sondage qui soutiennent les affirmations qu’on voit dans les médias. Ce billet sera le dernier avant la période des Fêtes. La publication du blog reprendra en janvier.

Publicités

Campagne publicitaire: comment se porte votre test du khi-carré mental?

Une affiche de la SAAQ invite à faire un test du khi-carré mental.

Dans les toilettes de mon cégep, une campagne de publicité de la Société d’assurance automobile du Québec (SAAQ) vient de faire son apparition en invitant les hommes en pleine miction à faire travailler leur test du khi-carré mental. On y lit : « Un tiers des conducteurs et passagers d’automobile décédés ne portaient pas leur ceinture. »

La statistique en elle-même est impressionnante! Il existe encore assez d’utilisateurs de la route qui ne portent pas leur ceinture de sécurité pour que cela représente 33,3 % des personnes qui meurent dans les accidents de la route. Cependant, cette publicité nous invite à aller plus loin en faisant mentalement un test du khi-carré et saisir un message encore plus important: le fait de ne pas porter sa ceinture de sécurité est lié au fait de mourir en cas d’accident de la route. Voyons-le.

Selon un article paru sur Blainville.ca qui cite des intervenants de la SAAQ, « plus de 9 personnes sur 10 portent leur ceinture de sécurité le jour ». Je pense qu’on peut supposer de façon très raisonnable que ce taux ne varie pas énormément dans l’ensemble de la journée ou du moins qu’il ne descend pas en bas de 80 %.

Cela signifie donc que, dans la population en général, au minimum 80 % des conducteurs et passagers de véhicules routiers portent la ceinture de sécurité. Donc, au maximum, 20 % des utilisateurs ne sont pas attachés sur la route. Or, parmi les personnes qui sont décédées, autour de 33 % ne portaient pas leur ceinture.

Si ces variables n’étaient pas liées, on devrait observer la même proportion d’utilisateurs de la route qui ne sont pas attachés dans l’ensemble de la population que parmi le sous-ensemble des personnes qui sont décédées.

Ce n’est pas le cas ici : il existe une différence notable entre les pourcentages observés dans l’ensemble de la population et dans un sous-groupe particulier. C’est sur l’existence d’une telle différence que se base le test du khi-carré pour déterminer si un lien unit les caractéristiques observées. On peut donc supposer qu’il existe un lien entre les variables « Port de la ceinture de sécurité » et « Décès lors d’un accident de la route ». Pour confirmer ce lien, il faudrait faire l’étude des chiffres en détail et faire réellement un test du khi-carré qui nous permettrait de confirmer ce diagnostic. On peut raisonnablement supposer que cela a été fait puisque la SAAQ rappelle qu’« [u]ne augmentation de 1 point de pourcentage du taux de port de la ceinture est associée à une diminution moyenne de 8,5 décès par année ». Les lecteurs intéressés par une explication plus détaillée sur le test du khi-carré peuvent se référer à la page Wikipédia sur le sujet ou à ce document explicatif.

Il est important de rappeler que l’existence d’un lien entre les variables n’implique pas nécessairement une causalité entre les deux. Je ne suis pas en train de vous dire que si vous ne portez pas votre ceinture de sécurité, vous allez mourir dans un grave carambolage. J’affirme (comme la SAAQ dans son message) que si vous ne vous attachez pas, vous faites partie d’un groupe qui est surreprésenté dans les personnes décédées en faisant usage d’un véhicule routier.

Le message de la SAAQ se situe à deux niveaux; le premier nous dit que beaucoup de personnes mortes dans des accidents de la route ne portaient pas leur ceinture. On le comprend assez facilement en lisant la pancarte.

Le second niveau est plus subtil et accessible uniquement avec un peu de réflexion, de recherche et une certaine connaissance du processus du test du khi-carré : il existe un lien entre les variables « Port de la ceinture » et « Mort dans un accident de la route » et les personnes qui ne portent pas la ceinture sont surreprésentées dans l’ensemble des personnes mortes dans un accident. À vous de comprendre le message et de vous attacher lors de votre prochaine promenade.