Khi-carré : puisque vous en redemandez!

Le temps passé en prison permet de faire des tests du khi-carré… Image: Boardhead, CC BY-SA 3.0, source

Mon billet précédent sur l’utilisation du test du khi-carré a suscité plusieurs commentaires me demandant d’expliquer un peu plus clairement ce qu’est ce test et comment on l’utilise pour déterminer s’il existe un lien entre des variables.

Je l’avoue, l’objectif de ce billet était plus d’introduire la notion en surface pour expliquer la publicité plus que d’en faire une explication complète. Puisque cette introduction a laissé mes lecteurs sur leur faim, voici une explication encore plus détaillée du test du khi-carré. Ce billet aura donc une saveur clairement plus mathématique que les précédents et ceux qui viendront. Je n’en ferai cependant pas une habitude, notez-le bien. Cette fois-ci, l’exemple sera basé sur un sujet qui a surgi dans l’actualité depuis la publication de mon dernier billet.

En effet, le 26 novembre dernier, Radio-Canada.ca titrait sur sa page d’accueil: « Noirs et Autochtones surreprésentés dans les prisons« . Ça ne vous rappelle pas quelque chose? Je cite mon dernier billet: « les personnes qui ne portent pas la ceinture sont surreprésentées dans l’ensemble des personnes mortes dans un accident. » Pour arriver à cette conclusion, j’avais utilisé un test du khi-carré mental, en me basant sur des données recueillies à gauche et à droite. Analysons cette fois-ci la nouvelle de Radio-Canada en explicitant le processus du test du khi-carré.

Analyse préalable: recueillons les données

La première chose à faire pour accomplir le test du khi-carré est de faire la cueillette des données pour créer un tableau de distribution à double entrée (qui montre les données pour deux variables en même temps). Pour ce faire, je vais utiliser les informations fournies dans l’article de Radio-Canada et les données publiées par Statistiques Canada. En 2010-2011, 13 758 personnes étaient emprisonnées dans des prisons fédérales canadiennes. Selon l’article de Radio-Canada, les noirs représentent 9,5% de la population carcérale et les autochtones représentent 23% des détenus fédéraux. L’article rappelle aussi que les noirs représentent 3% de la population totale canadienne alors que les autochtones forment un groupe ayant un poids de 4,3% dans cette même population. Sachant qu’il y avait environ 34 880 500 personnes au Canada au 1er juillet 2012, on peut créer le tableau suivant pour représenter la répartition des Canadiens selon leur état d’incarcération et leur groupe ethnique. Ce n’est pas parfait mais ça suffira pour le bien de notre exemple.

Répartition des Canadiens selon le groupe ethnique et l’état d’incarcération
Noir Autochtone Autre Total
En liberté 1 046 002 1 499 270 32 321 470 34 866 742
En prison 1307 3164 9287 13 758
Total 1 047 309 1 502 434 32 330 757 34 880 500

Étape 1 : formuler les hypothèses

La première étape d’un test du khi-carré consiste à formuler des hypothèses. Par défaut, on considérera qu’il n’y a pas de lien entre les variables et on changera d’avis uniquement si des preuves formelles nous démontrent que les caractéristiques observées sont liées. Les hypothèses auront généralement la forme suivante:

H_0 : Il n’y a pas de lien entre les variables.

H_1 : Il y a un lien entre les variables.

On décidera à l’étape finale laquelle des deux hypothèses sera considérée comme valable.

Étape 2 : calculer les fréquences théoriques

Les fréquences théoriques sont définies comme étant les valeurs que l’on devrait observer si les variables n’étaient pas liées. Pour les calculer, on détermine d’abord la proportion des individus qui font partie des catégories d’une des deux variables. Dans notre exemple, on sait déjà la proportion des Canadiens qui sont noirs, autochtones et d’une autre ethnie. Cela signifie donc qu’on devrait obtenir une proportion de 3% de personnes  noires dans les prisons canadiennes. On devrait ainsi dénombrer 3% de 13 758 prisonniers qui seraient noirs, donc 412 prisonniers. 9,5% des prisonniers devraient être autochtones si les variables n’étaient pas liées. Finalement, les personnes d’autres origines et ethnies devraient représenter 87,5% de la population carcérale (100%-3%-9,5%). Dans le tableau suivant, vous trouverez les effectifs théoriques dans chacune des case, à droite de la barre verticale. Aussi, les valeurs de la catégorie « En liberté » sont les mêmes que les effectifs observés puisque je les ai conçues ainsi en fonction de ce que dit le texte de l’article. Dans des contextes différents, les valeurs observées seraient différentes des valeurs théoriques. Dans le contexte théorique, notez aussi que la fréquence théorique de chaque catégorie doit être plus grande que 5 pour que le test soit valable.

Répartition des Canadiens selon le groupe ethnique et l’état d’incarcération
Noir Autochtone Autre Total
En liberté 1 046 002 | 1 046 002 1 499 270 | 1 499 270 32 321 470 | 32 321 470 34 866 742
En prison 1307        |     412 3164        | 1307 9287          |12 038 13 758
Total 1 047 309 (3%) 1 502 434 (9,5%) 32 330 757 (87,5%) 34 880 500

Étape 3 : calculer la valeur du khi-carré observé

La valeur appelé du khi-carré observé (\chi^{2}_{observe} ) est obtenue en faisant la somme de toutes les expressions de la forme \frac{(O-T)^2}{T} O représente la valeur observée dans chacune des catégories et T représente la valeur théorique calculée à l’étape précédente.

Dans la situation présente, le calcul serait donc, pour la catégorie des personnes noires en prison: \frac{(1307 -412)^2}{412}=1944,24 .

Le calcul du khi-carré observé serait donc, en entier:

\chi^{2}_{observe}=\frac{(1 046 002-1 046 002)^2}{1 046 002}+\frac{(1 499 270-1 499 270)^2}{1 499 270}+\frac{(32 321 470-32 321 470)^2}{32 321 470}+\frac{(1307-412)^2}{412}+\frac{(3164-1307)^2}{1307}+\frac{(9287-12 038)^2}{12 038} =5211,4

Étape 4 : élaborer une règle de décision

Pour prendre une décision à savoir s’il existe un lien entre les variables, on doit avoir un critère objectif qui permette de trancher. Pour ce faire, on va chercher la valeur du khi-carré critique (\chi_{critique}^2 ) associée au problème. Celui-ci s’obtient à partir du nombre de degrés de liberté du problème (dl=(\# \text{cat\'egories de la variable 1} - 1)(\# \text{cat\'egories de la variable 2} - 1) . Ici, comme la variable 1 (origine) possède trois catégories (noir, autochtone ou autre) et la variable 2 (état d’incarcération) en a deux (en prison, en liberté), on trouve dl=(3-1)(2-1)=2 ). Ensuite, à l’aide du degré de signification (une constante donnée dans le problème, ici on la prendra égale à 0,05 ou 5%) et de la table du khi-carré, on peut déterminer la valeur du  \chi^{2}_{critique}.  Dans cette table, en regardant à l’intersection de la colonne 0,05 (notre seuil de signification) et dans la ligne 2 (le nombre de degrés de liberté du problème), on trouve pour notre problème: \chi^{2}_{critique}=5,99.

Pour être clair, le seuil de signification représente le pourcentage de chances de faire une mauvaise décision avec notre règle. Plus le pourcentage est petit, plus on est certain de ne pas se tromper en rejetant l’hypothèse H_0. La plupart des tests de ce genre sont faits avec un niveau de signification de 5% ou de 1%.

Notre critère de décision sera donc : « On choisit H_1 si \chi^{2}_{observe}\geq 5,99. »

Étape 5 : prendre une décision

Lors des 4 précédentes étapes, nous avons recueilli toutes les informations nécessaires pour décider s’il existe un lien entre les variables « Origine ethnique » et « État d’incarcération ». Notre règle de décision nous indique qu’on choisira H_1 si \chi^{2}_{observe}\geq 5,99 et nous avons calculé un \chi^{2}_{observe} de 5211,4. On conclut donc qu’il faut rejeter l’hypothèse H_0 et choisir l’hypothèse H_1: il existe un lien entre les variables. En étudiant les fréquences théoriques trouvées à l’étape 2, on se rend compte qu’effectivement, les noirs et les autochtones sont surreprésentés dans les prisons canadiennes alors que les personnes des autres ethnies sont sous-représentées.

Rappelons-nous ce que nous avons déjà dit dans le billet précédent: dire qu’il existe un lien entre les variables ne signifie pas qu’il existe une causalité. Le fait d’être noir ne cause pas la garantie d’un emprisonnement. Peut-être pourrait-on donner une causalité qui explique le lien entre les variables mais, en utilisant seulement les résultat de notre étude statistique, cela ne serait que spéculation et nécessiterait plus de recherches.

Vous voilà donc maintenant des chefs en calcul du khi-carré. Vous pourrez maintenant l’effectuer à chaque fois que vous allez aux toilettes ou que vous lisez des articles du genre. Essentiellement, ce que vous devez retenir c’est que l’existence d’une différence significative entre le poids d’une sous-catégorie dans un sous-ensemble et celui existant dans l’ensemble de la population est généralement un signe d’un lien entre les variables observées.

Dans mon billet de la semaine prochaine, je démontrerai l’importance d’analyser les questions de sondage qui soutiennent les affirmations qu’on voit dans les médias. Ce billet sera le dernier avant la période des Fêtes. La publication du blog reprendra en janvier.