Un exemple de classification automatique
 

     (gH) gilles.hunault@univ-angers.fr  

 

Qu'est-ce qu'une classification automatique

Une classification automatique est une méthode pour regrouper des éléments en classes. Nous renvoyons à notre cours de logiciel statistiques (page 7 et suivantes) ou à une présentation générale des méthodes de classification (page 19 et suivantes).

En particulier, il existe des C.A.H. adaptées aux analyses factorielles. Ce sont celles que nous utilisons ici.

 

Exemple de paramètres pour une classification automatique des lignes

Nous présentons ici le fichier des paramètres pour le dossier VINS dont le descriptif des données est ici. Les pays importateurs de vins sont en colonne et les catégories de vins sont en ligne.


$RUN CAH2CO
$L132
$PON
$PAR=.
TITRE CAH (lignes) VINS.DBF ;
PARAM NI=18 NJ=3 IOPT=1 LECIJ=1 ;
OPTIONS HISTO=1 DESCRI=1 ARBRE=1 ;
VAR F1 F2 F3 ;
$PRT=vins.SCL
$F11=vins.FAL
$END

Rappel des données utilisées :


VIN    BELG   NEDE    RFA   ITAL     UK   SUIS    USA CANA
ALSA   2422   1999  17183     57   1127    600    408  241
ANJO   2587    600   2101      0   7582    143    872  131
AOCF    160    246    135      8   1177     26      7    0
AOCX  17200  22806  15979     50  20004   1279   4016  944
BOJO  17465  19840  72977   2364  39919  17327  17487 2346
BORG   3784   2339   4828     98   7885   3191  11791 1188
CHMP   7069   3786  12578   8037  13556   9664  10386  206
GIRO  22986  22183  21023     56  30025   6544  13114 3447
MOS1   2436    586   2006     30   1217    471    997   51
MOS2   3066    290  10439   1413   7214    112   3788  330
MUSC   2016   2908   1529      0  12891     18    716  653
PROV   1375   1150   2514      0    284    401      9  236
RHOF    785   1648   1009      6    775    643    542   35
RHON   7950  10537   7552     24   8172  11691   1369 1798
VDQS   1976   1029   1346      0   2258    212   1017  487
XXFF   2415     74    208      8   1705     12     36   47
XXXF     24   1533    160      0    480      0      0    0
XXXX  38747  19151 191140   7992 101108   1029  2619238503

Statistiques élémentaires sur ces données : (les données ont été divisées par 1000 pour plus de lisibilité)


Affichage par cdv décroissant

   Nom       Num   Taille    Moyenne  Ecart-type  Coef. de variation   Minimum   Maximum
      8    CANADA       18     2.813       8.705               318.4     0.000    38.503
      4    ITALIE       18     1.119       2.511               230.9     0.000     8.037
      3       RFA       18    20.261      44.616               226.6     0.135   191.140
      5        UK       18    14.299      23.616               170.0     0.284   101.108
      6    SUISSE       18     2.965       4.882               169.5     0.000    17.327
      7       USA       18     5.153       7.337               146.5     0.000    26.192
      1  BELGIQUE       18     7.470       9.994               137.7     0.024    38.747
      2 NEDERLAND       18     6.261       8.228               135.2     0.074    22.806

Matrice des corrélations

          BELGIQUE NEDERLAND   RFA ITALIE    UK SUISSE   USA CANADA
BELGIQUE     1.000
NEDERLAND    0.870     1.000
RFA          0.869     0.582 1.000
ITALIE       0.586     0.290 0.700  1.000
UK           0.942     0.700 0.969  0.691 1.000
SUISSE       0.335     0.518 0.198  0.310 0.246  1.000
USA          0.870     0.680 0.848  0.717 0.894  0.468 1.000
CANADA       0.814     0.458 0.948  0.659 0.926 -0.025 0.747  1.000

Meilleure corrélation  0.9692588  pour  UK  et  RFA
Formule  RFA  =      1.831 * UK       -5.921

Coefficients de corrélation par ordre décroissant

    0.969  pour    UK       RFA
    0.948  pour    CANADA   RFA
    0.942  pour    UK       BELGIQUE
    0.926  pour    CANADA   UK
    0.894  pour    USA      UK
    0.870  pour    USA      BELGIQUE
    0.870  pour    NEDERLAND BELGIQUE
    0.869  pour    RFA      BELGIQUE
    0.848  pour    USA      RFA
    0.814  pour    CANADA   BELGIQUE
    0.747  pour    CANADA   USA
    0.717  pour    USA      ITALIE
    0.700  pour    UK       NEDERLAND
    0.700  pour    ITALIE   RFA
    0.691  pour    UK       ITALIE
    0.680  pour    USA      NEDERLAND
    0.659  pour    CANADA   ITALIE
    0.586  pour    ITALIE   BELGIQUE
    0.582  pour    RFA      NEDERLAND
    0.518  pour    SUISSE   NEDERLAND
    0.468  pour    USA      SUISSE
    0.458  pour    CANADA   NEDERLAND
    0.335  pour    SUISSE   BELGIQUE
    0.310  pour    SUISSE   ITALIE
    0.290  pour    ITALIE   NEDERLAND
    0.246  pour    SUISSE   UK
    0.198  pour    SUISSE   RFA
   -0.025  pour    CANADA   SUISSE


Si on avait voulu la classification automatique des colonnes, on aurait utilisé comme paramètres

$RUN CAH2CO
$L132
$PON
$PAR=.
TITRE CAH (colonnes) VINS.DBF ;
PARAM NI=8 NJ=3 IOPT=1 LECIJ=1 ;
OPTIONS HISTO=1 DESCRI=1 ARBRE=1 ;
VAR F1 F2 F3 ;
$PRT=vins.SCC
$F11=vins.FAC
$END

dont les résultats sont affichés après ceux de la classification automatique des lignes.
 

Exemple de résultats pour la classification automatique des lignes

On trouve ici successivement le rappel des paramètres, le détail de la construction des classes, la description du contenu des classes, la représentation graphique dite dendrogramme (ou "dindon").

 ******************************************
 *                                        *
 *  B I B L I O T H E Q U E    A D D A D  *
 *                                        *
 * menhir 16b pour MsWindows 3.1x, 95, NT *
 *                                        *
 * programme:  15 Novembre 1998   93L8p   *
 * exécution le: 15/ 3/2005  à: 13:10:26  *
 ******************************************




 A D D A D  - 89 -

 CLASSIFICATION ASCENDANTE HIERARCHIQUE (CAH2CO)
 METHODE DES VOISINS REDUCTIBLES
 AUTEUR : M.JAMBU


 INS.  1 - TITRE :
           TITRE CAH (LIGNES) VINS.DBF ;

 INS.  2 - PARAM (PARAMETRES GENERAUX) : NI,NJ,NFSTOC,IOPT,NPLACE,LECIJ,STCAH
           PARAM NI=18 NJ=3 IOPT=1 LECIJ=1 ;

 INS.  3 - OPTIONS : HISTO,DESCRI,ARBRE
           OPTIONS HISTO=1 DESCRI=1 ARBRE=1 ;




 SOMME DES INDICES DE NIVEAU    .28359E+00

 --------------------------------------------------------------------------------
 !  J  ! I(J) ! A(J)! B(J)!T(J)!T(Q)! HISTOGRAMME DES INDICES DE NIVEAU
 --------------------------------------------------------------------------------
 !   35!   125!   34!   30! 440! 440!****************************************
 !   34!    59!   33!   31! 208! 649!*******************
 !   33!    39!   28!   32! 138! 787!*************
 !   32!    22!   25!   24!  79! 866!*******
 !   31!    10!   29!   23!  35! 901!***
 !   30!     8!   27!    4!  28! 928!**
 !   29!     6!   22!   26!  20! 948!**
 !   28!     6!    1!    7!  20! 968!**
 !   27!     4!    3!   12!  16! 983!*
 !   26!     2!   10!   17!   5! 989!*
 !   25!     1!   13!    6!   5! 994!*
 !   24!     1!    8!   15!   2! 996!*
 !   23!     0!    9!   20!   2! 997!*
 !   22!     0!    5!   21!   1! 999!*
 !   21!     0!    2!   11!   1!1000!*
 !   20!     0!   18!   19!   0!1000!*
 !   19!     0!   14!   16!   0!1000!*



 ----------------------------------------------------------------------------------------------------------------------------
 !  J  ! I(J) ! A(J)! B(J)! P(J)!     DESCRIPTION DES CLASSES DE LA HIERARCHIE
 ----------------------------------------------------------------------------------------------------------------------------
 !   35!   125!   34!   30!   18!
 ----------------------------------------------------------------------------------------------------------------------------
 !   34!    59!   33!   31!   15! CHMP BORG PROV BOJO RHON RHOF GIRO MOS1 VDQS AOCX XXXF ANJO XXFF MUSC AOCF
 ----------------------------------------------------------------------------------------------------------------------------
 !   33!    39!   28!   32!    6! CHMP BORG PROV BOJO RHON RHOF
 ----------------------------------------------------------------------------------------------------------------------------
 !   32!    22!   25!   24!    4! PROV BOJO RHON RHOF
 ----------------------------------------------------------------------------------------------------------------------------
 !   31!    10!   29!   23!    9! GIRO MOS1 VDQS AOCX XXXF ANJO XXFF MUSC AOCF
 ----------------------------------------------------------------------------------------------------------------------------
 !   30!     8!   27!    4!    3! MOS2 XXXX ALSA
 ----------------------------------------------------------------------------------------------------------------------------
 !   29!     6!   22!   26!    5! GIRO MOS1 VDQS AOCX XXXF
 ----------------------------------------------------------------------------------------------------------------------------
 !   28!     6!    1!    7!    2! CHMP BORG
 ----------------------------------------------------------------------------------------------------------------------------
 !   27!     4!    3!   12!    2! MOS2 XXXX
 ----------------------------------------------------------------------------------------------------------------------------
 !   26!     2!   10!   17!    2! AOCX XXXF
 ----------------------------------------------------------------------------------------------------------------------------
 !   25!     1!   13!    6!    2! PROV BOJO
 ----------------------------------------------------------------------------------------------------------------------------
 !   24!     1!    8!   15!    2! RHON RHOF
 ----------------------------------------------------------------------------------------------------------------------------
 !   23!     0!    9!   20!    4! ANJO XXFF MUSC AOCF
 ----------------------------------------------------------------------------------------------------------------------------
 !   22!     0!    5!   21!    3! GIRO MOS1 VDQS
 ----------------------------------------------------------------------------------------------------------------------------
 !   21!     0!    2!   11!    2! MOS1 VDQS
 ----------------------------------------------------------------------------------------------------------------------------
 !   20!     0!   18!   19!    3! XXFF MUSC AOCF
 ----------------------------------------------------------------------------------------------------------------------------
 !   19!     0!   14!   16!    2! MUSC AOCF
 ----------------------------------------------------------------------------------------------------------------------------


 REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE



                    +--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+



               CHMP ---*--------------------------*---------------*---------------------------------------------------*-
                       !                          !               !                                                   !
               BORG ----                          !               !                                                   !
                                                  !               !                                                   !
               PROV *---------------*--------------               !                                                   !
                    !               !                             !                                                   !
               BOJO -               !                             !                                                   !
                                    !                             !                                                   !
               RHON *----------------                             !                                                   !
                    !                                             !                                                   !
               RHOF -                                             !                                                   !
                                                                  !                                                   !
               GIRO *--*--*----------------------------------------                                                   !
                    !  !  !                                                                                           !
               MOS1 !  !  !                                                                                           !
                    !  !  !                                                                                           !
               VDQS -  !  !                                                                                           !
                       !  !                                                                                           !
               AOCX *---  !                                                                                           !
                    !     !                                                                                           !
               XXXF -     !                                                                                           !
                          !                                                                                           !
               ANJO *------                                                                                           !
                    !                                                                                                 !
               XXFF !                                                                                                 !
                    !                                                                                                 !
               MUSC !                                                                                                 !
                    !                                                                                                 !
               AOCF -                                                                                                 !
                                                                                                                      !
               MOS2 --*--*---------------------------------------------------------------------------------------------
                      !  !
               XXXX ---  !
                         !
               ALSA ------


 le: 15/ 3/2005  à: 13:10:26

 FIN NORMALE DU PROGRAMME CAH2CO

 PLACE MEMOIRE UTILISEE   :       383
 PLACE MEMOIRE DEMANDEE   :     20000



 

Exemple de résultats pour la classification automatique des lignes

On trouve ici successivement le rappel des paramètres, le détail de la construction des classes, la description du contenu des classes, la représentation graphique dite dendrogramme (ou "dindon").


 ******************************************
 *                                        *
 *  B I B L I O T H E Q U E    A D D A D  *
 *                                        *
 * menhir 16b pour MsWindows 3.1x, 95, NT *
 *                                        *
 * programme:  15 Novembre 1998   93L8p   *
 * exécution le: 15/ 3/2005  à: 13:10:31  *
 ******************************************




 A D D A D  - 89 -

 CLASSIFICATION ASCENDANTE HIERARCHIQUE (CAH2CO)
 METHODE DES VOISINS REDUCTIBLES
 AUTEUR : M.JAMBU


 INS.  1 - TITRE :
           TITRE CAH (COLONNES) VINS.DBF ;

 INS.  2 - PARAM (PARAMETRES GENERAUX) : NI,NJ,NFSTOC,IOPT,NPLACE,LECIJ,STCAH
           PARAM NI=8 NJ=3 IOPT=1 LECIJ=1 ;

 INS.  3 - OPTIONS : HISTO,DESCRI,ARBRE
           OPTIONS HISTO=1 DESCRI=1 ARBRE=1 ;



 SOMME DES INDICES DE NIVEAU    .28359E+00

 --------------------------------------------------------------------------------
 !  J  ! I(J) ! A(J)! B(J)!T(J)!T(Q)! HISTOGRAMME DES INDICES DE NIVEAU
 --------------------------------------------------------------------------------
 !   15!   114!   14!    9! 401! 401!****************************************
 !   14!    70!   12!   13! 247! 648!*************************
 !   13!    39!   11!    6! 139! 787!**************
 !   12!    36!   10!    2! 126! 913!*************
 !   11!    12!    4!    7!  41! 953!****
 !   10!     9!    1!    5!  30! 983!***
 !    9!     5!    3!    8!  17!1000!**



 ----------------------------------------------------------------------------------------------------------------------------
 !  J  ! I(J) ! A(J)! B(J)! P(J)!     DESCRIPTION DES CLASSES DE LA HIERARCHIE
 ----------------------------------------------------------------------------------------------------------------------------
 !   15!   114!   14!    9!    8!
 ----------------------------------------------------------------------------------------------------------------------------
 !   14!    70!   12!   13!    6! BELG UK   NEDE ITAL USA  SUIS
 ----------------------------------------------------------------------------------------------------------------------------
 !   13!    39!   11!    6!    3! ITAL USA  SUIS
 ----------------------------------------------------------------------------------------------------------------------------
 !   12!    36!   10!    2!    3! BELG UK   NEDE
 ----------------------------------------------------------------------------------------------------------------------------
 !   11!    12!    4!    7!    2! ITAL USA
 ----------------------------------------------------------------------------------------------------------------------------
 !   10!     9!    1!    5!    2! BELG UK
 ----------------------------------------------------------------------------------------------------------------------------
 !    9!     5!    3!    8!    2! RFA  CANA
 ----------------------------------------------------------------------------------------------------------------------------


 REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE



                    +--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+



               BELG ------*-----------------------*-----------------------------*-------------------------------------*-
                          !                       !                             !                                     !
               UK   -------                       !                             !                                     !
                                                  !                             !                                     !
               NEDE -------------------------------                             !                                     !
                                                                                !                                     !
               ITAL ---------*-----------------------*---------------------------                                     !
                             !                       !                                                                !
               USA  ----------                       !                                                                !
                                                     !                                                                !
               SUIS ----------------------------------                                                                !
                                                                                                                      !
               RFA  ---*-----------------------------------------------------------------------------------------------
                       !
               CANA ----


 le: 15/ 3/2005  à: 13:10:31

 FIN NORMALE DU PROGRAMME CAH2CO

 PLACE MEMOIRE UTILISEE   :       173
 PLACE MEMOIRE DEMANDEE   :     20000