Calculs de CCD version 1.45
Table des matières
4. Formulaire de saisie pour calcul
5. Un peu de vocabulaire : discriminant, caractéristique, spécifique
1. Que sont les CCD ?
Un CCD ou Coefficient de Capacité Diagnostique est une valeur numérique comprise entre 0 et 1 associée à une colonne de présence/absence qui permet de quantifier la valeur discriminante de cette colonne pour un ensemble de groupes. En d'autres termes, si on dispose de plusieurs groupes, de plusieurs colonnes et de plusieurs individus et si on sait à quel groupe unique chaque individu appartient, les CCD permettent de savoir quelles colonnes "séparent" au mieux les groupes, ce qui peut permettre de caractériser les groupes (voir la rubrique Un peu de vocabulaire : discriminant, caractéristique, spécifique en fin de document pour plus de détails sur ce sujet).
Par exemple, de façon ultra-simpliste si les hommes boivent du café et les femmes du thé, et si tout le monde prend du sucre, alors la colonne "Sucre" aura un CCD proche de 0 alors que les colonnes "Café" et "Thé" auront chacune, mais pour des raisons différentes, un CCD proche de 1.
Le détail du calcul d'un CCD ne sera pas exposé ici. Il est simple mais technique car basé sur des calculs de probabilités a priori et a posteriori des modalités dans les groupes. L'article qui le présente le mieux est sans doute celui-ci :
Une méthode de choix des caractères d'identification basée
sur le théorème de Bayes et la mesure de l'information.
Descamps, P. & Véron, M. (1981).
Ann. Microbiol. (Paris) 132B, 157-170.
Pour utiliser des CCD, il suffit donc de les ranger par ordre décroissant de valeur et de regarder l'ensemble de la gamme des valeurs de CCD. A partir de groupes de références et de colonnes "candidates" on peut donc retenir les colonnes les plus "significatives" par exemple pour réaliser des identifications probabilistes.
A l'aide du Formulaire de saisie pour calcul en bas de la page, vous pouvez voir le détail des calculs pour les exemples ou pour vos propres données.
2. Exemples pédagogiques
2.1 Des CCD au paradis
Le premier exemple pédagogique se nomme "Paradis" car il met en jeu Adam, Eve et Lilith. Voici les données :
Groupes Numéro Nom 1 Hommes 2 Femmes Colonnes Numéro Nom 1 Café 2 Thé 3 Sucre 4 Confiture 5 Cannelle Données binaires (1=présence, 0=absence) avec indication de groupe Numéro Nom Groupe Données binaires 1 Adam 1 1 0 1 0 0 2 Eve 2 0 1 1 1 0 3 Lilith 2 0 1 1 1 1Il doit être clair que la colonne 1 (Café) permet de caractériser le groupe 1 (Hommes) alors que les colonnes 2 (Thé) et 4 (Confiture) permettent de caractériser le groupe 2 (Femmes). Si la colonne 3 (Sucre) n'apporte aucune information, en revanche la colonne 5 (Cannelle) indique une touche féminine...
Une identification probabiliste utilisant les fréquences de positivité des colonnes permettrait de retrouver pour chaque ligne son groupe d'origine.
A l'aide du Formulaire de saisie pour calcul en bas de la page, vous pouvez voir le détail des calculs.
2.2 Des CCD pour deux groupes
Dans ce deuxième exemple pédagogique on a 2 groupes, 6 colonnes et 5 individus.
Groupes Numéro Nom 1 Groupe_A 2 Groupe_B Colonnes Numéro Nom 1 ne_discrimine_pas 2 peu_discriminant 3 peu_discriminant_non_plus 4 typique_classe_A 5 typique_classe_B 6 ne_discrimine_pas_non_plus Données binaires (1=présence, 0=absence) avec indication de groupe Numéro Nom Groupe Données binaires 1 A1 1 1 1 1 1 0 0 2 A2 1 1 0 0 1 0 0 3 B1 2 1 0 1 0 1 0 4 B2 2 1 0 1 0 1 0 5 B3 2 1 0 0 0 1 0Une identification probabiliste utilisant les fréquences de positivité des colonnes permettrait de retrouver pour chaque ligne son groupe d'origine, sauf pour B3.
A l'aide du Formulaire de saisie pour calcul en bas de la page, vous pouvez voir le détail des calculs.
2.3 Des CCD pour trois groupes
Dans ce troisième exemple pédagogique on a 3 groupes, 6 colonnes et 7 individus. On notera qu'aucune colonne ne permet de caractériser le groupe 3 et que les groupes 1 et 2, identiques à l'exemple 2, ne sont plus caractérisables non plus. Voici les données :
Groupes Numéro Nom 1 Groupe_A 2 Groupe_B 3 Groupe_C Colonnes Numéro Nom 1 ne_discrimine_pas 2 peu_discriminant 3 peu_discriminant_non_plus 4 typique_classe_A 5 typique_classe_B 6 ne_discrimine_pas_non_plus Données binaires (1=présence, 0=absence) avec indication de groupe Numéro Nom Groupe Données binaires 1 A1 1 1 1 1 1 0 0 2 A2 1 1 0 0 1 0 0 3 B1 2 1 0 1 0 1 0 4 B2 2 1 0 1 0 1 0 5 B3 2 1 0 0 0 1 0 6 C1 3 1 1 1 0 0 0 7 C2 3 1 0 0 1 1 0Une identification probabiliste utilisant les fréquences de positivité des colonnes permettrait de retrouver pour les lignes B1, B2, C1 et C2 leur groupe d'origine.
A l'aide du Formulaire de saisie pour calcul en bas de la page, vous pouvez voir le détail des calculs.
3. Exemples de recherche
3.1 Mangez des légumes !
Dans ce premier exemple réel, on a 4 groupes de souches infectées traitées par des antibiotiques, à savoir : des laitues, des carottes, des betteraves et des souches issues d'un milieu de référence. Les colonnes correspondent à des antibiotiques (Ampicilline, Pristinamycine...). La valeur 1 signifie "Résistant à l'antibiotique" et 0 "sensible ou intermédiaire"...
Les CCD sont ici incapables de fournir des colonnes discriminantes des groupes car on a sans doute trop de colonnes équivalentes (les probabilités sont multipliées d'une colonne à l'autre, d'où des valeurs très faibles), ce qui est déja un résultat en soi que l'on peut exprimer ainsi : la galerie n'est sans doute pas adaptée à l'étude...
A l'aide du Formulaire de saisie pour calcul en bas de la page, vous pouvez voir le détail des calculs.
3.2 Scores de fibrose
Dans ce deuxième exemple réel, des patients ont subi une PBH (ponction biopsie hépatique) et on connait leur stade Metavir. On les regroupe selon ce score. On note ensuite des caractéristiques issues de marqueur sanguin : 1 signifie que le marqueur peut être considéré comme anormalement élevé ou anormalement faible, 0 qu'il est considéré comme "correct".
A l'aide du Formulaire de saisie pour calcul en bas de la page, vous pouvez voir le détail des calculs.
4. Formulaire de saisie pour calcul
Vous pouvez au choix indiquer le titre et remplir les trois champs de saisie pour les groupes, les colonnes et les individus ou utiliser les boutons d'exemple.
Pour les groupes et les colonnes, le format par ligne est : numéro nom .
Pour les individus, le format par ligne est : numéro nom groupe données_binaires.
Pour le seuil de coupure des CCD, c'est à dire le choix des colonnes les plus pertinentes à conserver, vous devez entrer une valeur entre 0 et 1 ou la valeur 2 ; par exemple :
- 1 pour ne garder aucune colonne (totalement déconseillé)
- 0.9 pour garder les colonnes les plus importantes (fortement conseillé)
- 0 pour garder toutes les colonnes
- 2 pour essayer la détection du meilleur choix automatique
Boutons d'exemple
5. Un peu de vocabulaire : discriminant, caractéristique, spécifique
Si les CCD permettent de repérer les colonnes discriminantes, ils ne sont pas un outil magique qui permettent de trouver à tous les coups les colonnes caractéristiques et spécifiques. En effet, une colonne est discriminante si elle permet de séparer des groupes, une colonne est caractéristique d'un ou plusieurs groupes si tous les individus du groupe ont la même valeur pour cette colonne ; enfin, une colonne est spécifique d'un groupe si tous les individus du groupe ont la même valeur pour cette colonne et si cette valeur n'apparait nulle part ailleurs (en d'autres termes, la colonne permet d'identifier exactement ce groupe). Les données suivantes devraient montrer la différence entre ces adjectifs :
Nom Groupe V1 V2 V3 V4 V5 A1 1 1 1 1 1 0 A2 1 1 1 1 1 0 A3 1 1 1 1 1 0 A4 1 1 1 1 1 0 A5 1 1 1 1 0 1 B1 2 1 1 0 0 0 B2 2 1 1 0 0 0 B3 2 1 1 0 0 0 B4 2 1 1 0 0 0 B5 2 1 0 0 0 0 C1 3 0 0 0 0 0 C2 3 0 0 0 0 0 C3 3 0 0 0 0 0 D1 4 0 0 0 0 0 D2 4 0 0 0 0 0 D3 4 0 0 0 0 0
La variable V1 est "parfaitement" discriminante puisqu'elle permet de séparer les groupes A et B des groupes C et D ; elle est de plus caractéristique de chaque groupe mais elle n'est spécifique d'aucun. La variable V2 est "un peu "discriminante puisqu'elle permet "presque" de séparer les groupes A et B des groupes C et D ; elle est de plus caractéristique des groupes A, C et D mais spécifique d'aucun groupe. La variable V3 est ce qu'on rêverait d'avoir : elle est spécifique du groupe A car la valeur 1 qui caractérise le groupe A n'apparait nulle part ailleurs.
Il est rare d'avoir des colonnes spécifiques. Par contre, certaines formules logiques avec des ET, des OU peuvent fournir des caractérisations spécifiques. Pour notre exemple, la formule V4 OU V5 est équivalente à V3 et fournit une caractérisation spécifique du groupe 1 (en logique, 0 OU 1 vaut 1 alors que 0 OU 0 vaut 0).
Pour tous ces cas, les CCD sont élevés (proches de 1) mais même pour V1 et V3 le CCD ne vaut pas 1 car un CCD n'exprime que le gain d'information au sens de Shannon entre les fréquences a priori (globale) et a posterori (par groupe). Le nombre d'individus par groupe a donc une certaine importance et le nombre de groupes aussi...
Le programme verifSol vous permet de vérifier si une formule caractérise de façon spécifique un groupe pour les exemples rch4 et rch8.
Retour à la page principale de (gH)