comparaison de QL : le test du chideux

Valid XHTML 1.0!                  

 

Les données correspondent (pour autant qu'on en soit sur) aux passagers et membres d'équipage du Titanic. On consultera le descriptif du dossier pour prendre connaissance des variables avant de lire ce qui suit.

On s'intéresse aux variables SURV et CLASS. Pour savoir si l'hypothèse d'indépendance entre les modalités de ces variables est vérifiée (ou au contraire s'il y a une liaison entre les classes de cabine et le fait d'avoir ou non survécu), on réalise un test du chideux qui réalise une étude conjointe des variables, ce qui suppose qu'on a déja effectué une analyse séparée des variables (tris à plats, histogrammes...) à savoir :


     Analyse du dossier TITANIC avec 2201 individus
     ==============================================


     Variable SURV       Fréquence      Pourcentage
     ----------------------------------------------
     décédé(e)                1490            67.70
     vivant(e)                 711            32.30



     CLASS               Fréquence      Pourcentage
     ----------------------------------------------
     équipage                  885            40.21
     troisième ordre           706            32.08
     première classe           325            14.77
     seconde catégorie         285            12.95


histogramme

Voici le calcul du chi-deux en SPSS, SAS et R :

Calculs en SPSS

CROSSTABS

  CROSSTABS
  /TABLES    = class  BY surv
  /FORMAT    = AVALUE TABLES
  /STATISTIC = CHISQ
  /CELLS     = COUNT EXPECTED
  /COUNT ROUND CELL .


Tests du Khi-deux            Valeur       ddl     Signification
   ------------------------------------------------------------
   Khi-deux de Pearson       190,401        3       ,000
   Rapport de vraisemblance  180,901        3       ,000
   Association lin/linéaire     ,000        1       ,991
   Nombre d'observations valides         2201


Calculs en SAS

proc freq data=titanic ;
   tables surv*class
          / chisq expected norow nocol nopercent cellchi2 ;


   Statistique                       DF      Valeur    Proba.
   ----------------------------------------------------------
   Khi-2                              3    190.4011    <.0001
   Test du rapport de vraisemblance   3    180.9014    <.0001
   Khi-2 de Mantel-Haenszel           1      0.0001    0.9915
   Coefficient Phi                           0.2941
   Coefficient de contingence                0.2822
   V de Cramer                               0.2941


Calculs en R

chisq.test(table(cabi,surv))


   Pearson's Chi-squared test
   X-squared = 190.4011, df = 3, p-value < 2.2e-16


Dans les trois cas, on trouve que la distance entre les valeurs observées dans le tri croisé des variables


                    morts   survivants   Total
   équipage           673          212     885
   1ère classe        122          203     325
   2ème catégorie     167          118     285
   3ème catégorie     528          178     706
   Total             1490          711    2201

et les valeurs théoriques obtenues sous hypothèse d'indépendance (c'est à dire en respectant les marges)


                    morts   survivants   Total
   équipage           599          286     885
   1ère classe        220          105     325
   2ème catégorie     193           92     285
   3ème catégorie     478          228     706
   Total             1490          711    2201

est d'environ 190. Cette valeur est suffisamment grande pour que la p-value soit celle d'un évènement vraiment très très peu fréquent (probabilité inférieure à 0,0001) ce qui signifie qu'il y a liaison entre les modalités. A titre de comparaison, pour 3 degrés de liberté ce chi-deux, lu dans la table au seuil de 5 % est de 7.81. Si on compare terme à terme les valeurs observées et théoriques à l'aide du tableau suivant


    Signe     Valeur    Pct       Ligne            Colonne          Obs       Th
       +       91.504   48.06 %   1ère classe      survivants       203    105.0
       -       43.664   22.93 %   1ère classe      morts            122    220.0
       -       19.095   10.03 %   équipage         survivants       212    285.9
       -       10.989    5.77 %   3ème catégorie   survivants       178    228.1
       +        9.112    4.79 %   équipage         morts            673    599.1
       +        7.306    3.84 %   2ème catégorie   survivants       118     92.1
       +        5.244    2.75 %   3ème catégorie   morts            528    477.9
       -        3.486    1.83 %   2ème catégorie   morts            167    192.9

on voit que la liaison est principalement due à la sur-représentation du nombre de survivants en première classe et la sous-représentation du nombre de morts en première classe. On notera que l'histogramme de SURV ventilé par CLAS ne le montre pas trés nettement

histogramme
alors que l'histogramme de CLAS ventilé par SURV le montre bien :
autre histogramme

 

 

retour gH    Retour à la page principale de   (gH)