Un exemple de classification automatique
(gH) gilles.hunault@univ-angers.fr
Qu'est-ce qu'une classification automatique
Une classification automatique est une méthode pour regrouper des éléments en classes. Nous renvoyons à notre cours de logiciel statistiques (page 7 et suivantes) ou à une présentation générale des méthodes de classification (page 19 et suivantes).En particulier, il existe des C.A.H. adaptées aux analyses factorielles. Ce sont celles que nous utilisons ici.
Exemple de paramètres pour une classification automatique des lignes
Nous présentons ici le fichier des paramètres pour le dossier VINS dont le descriptif des données est ici. Les pays importateurs de vins sont en colonne et les catégories de vins sont en ligne.
$RUN CAH2CO $L132 $PON $PAR=. TITRE CAH (lignes) VINS.DBF ; PARAM NI=18 NJ=3 IOPT=1 LECIJ=1 ; OPTIONS HISTO=1 DESCRI=1 ARBRE=1 ; VAR F1 F2 F3 ; $PRT=vins.SCL $F11=vins.FAL $ENDRappel des données utilisées :
Statistiques élémentaires sur ces données : (les données ont été divisées par 1000 pour plus de lisibilité)VIN BELG NEDE RFA ITAL UK SUIS USA CANA ALSA 2422 1999 17183 57 1127 600 408 241 ANJO 2587 600 2101 0 7582 143 872 131 AOCF 160 246 135 8 1177 26 7 0 AOCX 17200 22806 15979 50 20004 1279 4016 944 BOJO 17465 19840 72977 2364 39919 17327 17487 2346 BORG 3784 2339 4828 98 7885 3191 11791 1188 CHMP 7069 3786 12578 8037 13556 9664 10386 206 GIRO 22986 22183 21023 56 30025 6544 13114 3447 MOS1 2436 586 2006 30 1217 471 997 51 MOS2 3066 290 10439 1413 7214 112 3788 330 MUSC 2016 2908 1529 0 12891 18 716 653 PROV 1375 1150 2514 0 284 401 9 236 RHOF 785 1648 1009 6 775 643 542 35 RHON 7950 10537 7552 24 8172 11691 1369 1798 VDQS 1976 1029 1346 0 2258 212 1017 487 XXFF 2415 74 208 8 1705 12 36 47 XXXF 24 1533 160 0 480 0 0 0 XXXX 38747 19151 191140 7992 101108 1029 2619238503Si on avait voulu la classification automatique des colonnes, on aurait utilisé comme paramètresAffichage par cdv décroissant Nom Num Taille Moyenne Ecart-type Coef. de variation Minimum Maximum 8 CANADA 18 2.813 8.705 318.4 0.000 38.503 4 ITALIE 18 1.119 2.511 230.9 0.000 8.037 3 RFA 18 20.261 44.616 226.6 0.135 191.140 5 UK 18 14.299 23.616 170.0 0.284 101.108 6 SUISSE 18 2.965 4.882 169.5 0.000 17.327 7 USA 18 5.153 7.337 146.5 0.000 26.192 1 BELGIQUE 18 7.470 9.994 137.7 0.024 38.747 2 NEDERLAND 18 6.261 8.228 135.2 0.074 22.806 Matrice des corrélations BELGIQUE NEDERLAND RFA ITALIE UK SUISSE USA CANADA BELGIQUE 1.000 NEDERLAND 0.870 1.000 RFA 0.869 0.582 1.000 ITALIE 0.586 0.290 0.700 1.000 UK 0.942 0.700 0.969 0.691 1.000 SUISSE 0.335 0.518 0.198 0.310 0.246 1.000 USA 0.870 0.680 0.848 0.717 0.894 0.468 1.000 CANADA 0.814 0.458 0.948 0.659 0.926 -0.025 0.747 1.000 Meilleure corrélation 0.9692588 pour UK et RFA Formule RFA = 1.831 * UK -5.921 Coefficients de corrélation par ordre décroissant 0.969 pour UK RFA 0.948 pour CANADA RFA 0.942 pour UK BELGIQUE 0.926 pour CANADA UK 0.894 pour USA UK 0.870 pour USA BELGIQUE 0.870 pour NEDERLAND BELGIQUE 0.869 pour RFA BELGIQUE 0.848 pour USA RFA 0.814 pour CANADA BELGIQUE 0.747 pour CANADA USA 0.717 pour USA ITALIE 0.700 pour UK NEDERLAND 0.700 pour ITALIE RFA 0.691 pour UK ITALIE 0.680 pour USA NEDERLAND 0.659 pour CANADA ITALIE 0.586 pour ITALIE BELGIQUE 0.582 pour RFA NEDERLAND 0.518 pour SUISSE NEDERLAND 0.468 pour USA SUISSE 0.458 pour CANADA NEDERLAND 0.335 pour SUISSE BELGIQUE 0.310 pour SUISSE ITALIE 0.290 pour ITALIE NEDERLAND 0.246 pour SUISSE UK 0.198 pour SUISSE RFA -0.025 pour CANADA SUISSEdont les résultats sont affichés après ceux de la classification automatique des lignes.$RUN CAH2CO $L132 $PON $PAR=. TITRE CAH (colonnes) VINS.DBF ; PARAM NI=8 NJ=3 IOPT=1 LECIJ=1 ; OPTIONS HISTO=1 DESCRI=1 ARBRE=1 ; VAR F1 F2 F3 ; $PRT=vins.SCC $F11=vins.FAC $END
Exemple de résultats pour la classification automatique des lignes
On trouve ici successivement le rappel des paramètres, le détail de la construction des classes, la description du contenu des classes, la représentation graphique dite dendrogramme (ou "dindon").****************************************** * * * B I B L I O T H E Q U E A D D A D * * * * menhir 16b pour MsWindows 3.1x, 95, NT * * * * programme: 15 Novembre 1998 93L8p * * exécution le: 15/ 3/2005 à: 13:10:26 * ****************************************** A D D A D - 89 - CLASSIFICATION ASCENDANTE HIERARCHIQUE (CAH2CO) METHODE DES VOISINS REDUCTIBLES AUTEUR : M.JAMBU INS. 1 - TITRE : TITRE CAH (LIGNES) VINS.DBF ; INS. 2 - PARAM (PARAMETRES GENERAUX) : NI,NJ,NFSTOC,IOPT,NPLACE,LECIJ,STCAH PARAM NI=18 NJ=3 IOPT=1 LECIJ=1 ; INS. 3 - OPTIONS : HISTO,DESCRI,ARBRE OPTIONS HISTO=1 DESCRI=1 ARBRE=1 ; SOMME DES INDICES DE NIVEAU .28359E+00 -------------------------------------------------------------------------------- ! J ! I(J) ! A(J)! B(J)!T(J)!T(Q)! HISTOGRAMME DES INDICES DE NIVEAU -------------------------------------------------------------------------------- ! 35! 125! 34! 30! 440! 440!**************************************** ! 34! 59! 33! 31! 208! 649!******************* ! 33! 39! 28! 32! 138! 787!************* ! 32! 22! 25! 24! 79! 866!******* ! 31! 10! 29! 23! 35! 901!*** ! 30! 8! 27! 4! 28! 928!** ! 29! 6! 22! 26! 20! 948!** ! 28! 6! 1! 7! 20! 968!** ! 27! 4! 3! 12! 16! 983!* ! 26! 2! 10! 17! 5! 989!* ! 25! 1! 13! 6! 5! 994!* ! 24! 1! 8! 15! 2! 996!* ! 23! 0! 9! 20! 2! 997!* ! 22! 0! 5! 21! 1! 999!* ! 21! 0! 2! 11! 1!1000!* ! 20! 0! 18! 19! 0!1000!* ! 19! 0! 14! 16! 0!1000!* ---------------------------------------------------------------------------------------------------------------------------- ! J ! I(J) ! A(J)! B(J)! P(J)! DESCRIPTION DES CLASSES DE LA HIERARCHIE ---------------------------------------------------------------------------------------------------------------------------- ! 35! 125! 34! 30! 18! ---------------------------------------------------------------------------------------------------------------------------- ! 34! 59! 33! 31! 15! CHMP BORG PROV BOJO RHON RHOF GIRO MOS1 VDQS AOCX XXXF ANJO XXFF MUSC AOCF ---------------------------------------------------------------------------------------------------------------------------- ! 33! 39! 28! 32! 6! CHMP BORG PROV BOJO RHON RHOF ---------------------------------------------------------------------------------------------------------------------------- ! 32! 22! 25! 24! 4! PROV BOJO RHON RHOF ---------------------------------------------------------------------------------------------------------------------------- ! 31! 10! 29! 23! 9! GIRO MOS1 VDQS AOCX XXXF ANJO XXFF MUSC AOCF ---------------------------------------------------------------------------------------------------------------------------- ! 30! 8! 27! 4! 3! MOS2 XXXX ALSA ---------------------------------------------------------------------------------------------------------------------------- ! 29! 6! 22! 26! 5! GIRO MOS1 VDQS AOCX XXXF ---------------------------------------------------------------------------------------------------------------------------- ! 28! 6! 1! 7! 2! CHMP BORG ---------------------------------------------------------------------------------------------------------------------------- ! 27! 4! 3! 12! 2! MOS2 XXXX ---------------------------------------------------------------------------------------------------------------------------- ! 26! 2! 10! 17! 2! AOCX XXXF ---------------------------------------------------------------------------------------------------------------------------- ! 25! 1! 13! 6! 2! PROV BOJO ---------------------------------------------------------------------------------------------------------------------------- ! 24! 1! 8! 15! 2! RHON RHOF ---------------------------------------------------------------------------------------------------------------------------- ! 23! 0! 9! 20! 4! ANJO XXFF MUSC AOCF ---------------------------------------------------------------------------------------------------------------------------- ! 22! 0! 5! 21! 3! GIRO MOS1 VDQS ---------------------------------------------------------------------------------------------------------------------------- ! 21! 0! 2! 11! 2! MOS1 VDQS ---------------------------------------------------------------------------------------------------------------------------- ! 20! 0! 18! 19! 3! XXFF MUSC AOCF ---------------------------------------------------------------------------------------------------------------------------- ! 19! 0! 14! 16! 2! MUSC AOCF ---------------------------------------------------------------------------------------------------------------------------- REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE +--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+ CHMP ---*--------------------------*---------------*---------------------------------------------------*- ! ! ! ! BORG ---- ! ! ! ! ! ! PROV *---------------*-------------- ! ! ! ! ! ! BOJO - ! ! ! ! ! ! RHON *---------------- ! ! ! ! ! RHOF - ! ! ! ! GIRO *--*--*---------------------------------------- ! ! ! ! ! MOS1 ! ! ! ! ! ! ! ! VDQS - ! ! ! ! ! ! AOCX *--- ! ! ! ! ! XXXF - ! ! ! ! ANJO *------ ! ! ! XXFF ! ! ! ! MUSC ! ! ! ! AOCF - ! ! MOS2 --*--*--------------------------------------------------------------------------------------------- ! ! XXXX --- ! ! ALSA ------ le: 15/ 3/2005 à: 13:10:26 FIN NORMALE DU PROGRAMME CAH2CO PLACE MEMOIRE UTILISEE : 383 PLACE MEMOIRE DEMANDEE : 20000
Exemple de résultats pour la classification automatique des lignes
On trouve ici successivement le rappel des paramètres, le détail de la construction des classes, la description du contenu des classes, la représentation graphique dite dendrogramme (ou "dindon").****************************************** * * * B I B L I O T H E Q U E A D D A D * * * * menhir 16b pour MsWindows 3.1x, 95, NT * * * * programme: 15 Novembre 1998 93L8p * * exécution le: 15/ 3/2005 à: 13:10:31 * ****************************************** A D D A D - 89 - CLASSIFICATION ASCENDANTE HIERARCHIQUE (CAH2CO) METHODE DES VOISINS REDUCTIBLES AUTEUR : M.JAMBU INS. 1 - TITRE : TITRE CAH (COLONNES) VINS.DBF ; INS. 2 - PARAM (PARAMETRES GENERAUX) : NI,NJ,NFSTOC,IOPT,NPLACE,LECIJ,STCAH PARAM NI=8 NJ=3 IOPT=1 LECIJ=1 ; INS. 3 - OPTIONS : HISTO,DESCRI,ARBRE OPTIONS HISTO=1 DESCRI=1 ARBRE=1 ; SOMME DES INDICES DE NIVEAU .28359E+00 -------------------------------------------------------------------------------- ! J ! I(J) ! A(J)! B(J)!T(J)!T(Q)! HISTOGRAMME DES INDICES DE NIVEAU -------------------------------------------------------------------------------- ! 15! 114! 14! 9! 401! 401!**************************************** ! 14! 70! 12! 13! 247! 648!************************* ! 13! 39! 11! 6! 139! 787!************** ! 12! 36! 10! 2! 126! 913!************* ! 11! 12! 4! 7! 41! 953!**** ! 10! 9! 1! 5! 30! 983!*** ! 9! 5! 3! 8! 17!1000!** ---------------------------------------------------------------------------------------------------------------------------- ! J ! I(J) ! A(J)! B(J)! P(J)! DESCRIPTION DES CLASSES DE LA HIERARCHIE ---------------------------------------------------------------------------------------------------------------------------- ! 15! 114! 14! 9! 8! ---------------------------------------------------------------------------------------------------------------------------- ! 14! 70! 12! 13! 6! BELG UK NEDE ITAL USA SUIS ---------------------------------------------------------------------------------------------------------------------------- ! 13! 39! 11! 6! 3! ITAL USA SUIS ---------------------------------------------------------------------------------------------------------------------------- ! 12! 36! 10! 2! 3! BELG UK NEDE ---------------------------------------------------------------------------------------------------------------------------- ! 11! 12! 4! 7! 2! ITAL USA ---------------------------------------------------------------------------------------------------------------------------- ! 10! 9! 1! 5! 2! BELG UK ---------------------------------------------------------------------------------------------------------------------------- ! 9! 5! 3! 8! 2! RFA CANA ---------------------------------------------------------------------------------------------------------------------------- REPRESENTATION DE LA CLASSIFICATION HIERARCHIQUE +--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+ BELG ------*-----------------------*-----------------------------*-------------------------------------*- ! ! ! ! UK ------- ! ! ! ! ! ! NEDE ------------------------------- ! ! ! ! ITAL ---------*-----------------------*--------------------------- ! ! ! ! USA ---------- ! ! ! ! SUIS ---------------------------------- ! ! RFA ---*----------------------------------------------------------------------------------------------- ! CANA ---- le: 15/ 3/2005 à: 13:10:31 FIN NORMALE DU PROGRAMME CAH2CO PLACE MEMOIRE UTILISEE : 173 PLACE MEMOIRE DEMANDEE : 20000