Les données correspondent (pour autant qu'on en soit sur) aux passagers et membres d'équipage du Titanic. On consultera le descriptif du dossier pour prendre connaissance des variables avant de lire ce qui suit.
On s'intéresse aux variables SURV et CLASS. Pour savoir si l'hypothèse d'indépendance entre les modalités de ces variables est vérifiée (ou au contraire s'il y a une liaison entre les classes de cabine et le fait d'avoir ou non survécu), on réalise un test du chideux qui réalise une étude conjointe des variables, ce qui suppose qu'on a déja effectué une analyse séparée des variables (tris à plats, histogrammes...) à savoir :
Analyse du dossier TITANIC avec 2201 individus ============================================== Variable SURV Fréquence Pourcentage ---------------------------------------------- décédé(e) 1490 67.70 vivant(e) 711 32.30 CLASS Fréquence Pourcentage ---------------------------------------------- équipage 885 40.21 troisième ordre 706 32.08 première classe 325 14.77 seconde catégorie 285 12.95
Voici le calcul du chi-deux en SPSS, SAS et R :
Calculs en SPSS CROSSTABS CROSSTABS /TABLES = class BY surv /FORMAT = AVALUE TABLES /STATISTIC = CHISQ /CELLS = COUNT EXPECTED /COUNT ROUND CELL . Tests du Khi-deux Valeur ddl Signification ------------------------------------------------------------ Khi-deux de Pearson 190,401 3 ,000 Rapport de vraisemblance 180,901 3 ,000 Association lin/linéaire ,000 1 ,991 Nombre d'observations valides 2201 Calculs en SAS proc freq data=titanic ; tables surv*class / chisq expected norow nocol nopercent cellchi2 ; Statistique DF Valeur Proba. ---------------------------------------------------------- Khi-2 3 190.4011 <.0001 Test du rapport de vraisemblance 3 180.9014 <.0001 Khi-2 de Mantel-Haenszel 1 0.0001 0.9915 Coefficient Phi 0.2941 Coefficient de contingence 0.2822 V de Cramer 0.2941 Calculs en R chisq.test(table(cabi,surv)) Pearson's Chi-squared test X-squared = 190.4011, df = 3, p-value < 2.2e-16Dans les trois cas, on trouve que la distance entre les valeurs observées dans le tri croisé des variables
morts survivants Total équipage 673 212 885 1ère classe 122 203 325 2ème catégorie 167 118 285 3ème catégorie 528 178 706 Total 1490 711 2201
et les valeurs théoriques obtenues sous hypothèse d'indépendance (c'est à dire en respectant les marges)
morts survivants Total équipage 599 286 885 1ère classe 220 105 325 2ème catégorie 193 92 285 3ème catégorie 478 228 706 Total 1490 711 2201
est d'environ 190. Cette valeur est suffisamment grande pour que la p-value soit celle d'un évènement vraiment très très peu fréquent (probabilité inférieure à 0,0001) ce qui signifie qu'il y a liaison entre les modalités. A titre de comparaison, pour 3 degrés de liberté ce chi-deux, lu dans la table au seuil de 5 % est de 7.81. Si on compare terme à terme les valeurs observées et théoriques à l'aide du tableau suivant
Signe Valeur Pct Ligne Colonne Obs Th + 91.504 48.06 % 1ère classe survivants 203 105.0 - 43.664 22.93 % 1ère classe morts 122 220.0 - 19.095 10.03 % équipage survivants 212 285.9 - 10.989 5.77 % 3ème catégorie survivants 178 228.1 + 9.112 4.79 % équipage morts 673 599.1 + 7.306 3.84 % 2ème catégorie survivants 118 92.1 + 5.244 2.75 % 3ème catégorie morts 528 477.9 - 3.486 1.83 % 2ème catégorie morts 167 192.9
on voit que la liaison est principalement due à la sur-représentation du nombre de survivants en première classe et la sous-représentation du nombre de morts en première classe. On notera que l'histogramme de SURV ventilé par CLAS ne le montre pas trés nettement
alors que l'histogramme de CLAS ventilé par SURV le montre bien :
Retour à la page principale de (gH)