gilles.hunault@univ-angers.fr cabIq Automatique, Bactéries, Classification, Identification, Quarantaine
cabiq est un petit logiciel de classification automatique et d'identification de bactéries de quarantaine qui utilise des fichiers de données au format Dbase. Il est fourni en standard avec des exemples qui permettent de l'utiliser sans avoir à saisir de données.
L'écran principal de cabiq se compose d'une partie gauche fixe pour la création de fichiers et d'une partie droite variable pour réaliser les traitements. Il y a deux panneaux de traitement : un pour les classifications et un pour les identifications. On change de panneau de traitement à l'aide du bouton situé juste au-dessus du bouton "exit". Voici une vue schématique du logiciel :
L'écran de cabiq en mode identification ressemble à
alors qu'en mode classification, il ressemble plutot à
Les calculs proposés par cabiq sont classiques et se rangent en deux catégories : classification et identification. On fournit à chaque fois des indicateurs de validation et d'aide à la décision.
La classification des souches c'est à dire la constitution de groupes de souches (ou "taxons") reprend les méthodes du logiciel taxonum : à partir des DISTANCES de JACCARD-SNEATH entre singletons, on forme des classes regroupées selon le critère UPGMA (unweighted pairgroup method with averages). Le dendrogramme correspondant peut être alors tracé avec le logiciel du domaine public GNUPLOT. La validation interprétative de la classification c'est à dire la recherche des caractères les plus explicites quant à la formation des classes utilise des valeurs de probabilités nommées CCD (ou coefficients de capacité diagnostic).
L'identification d'une souche, c'est à dire son appartenance préférentielle à une classe de référence se calcule par des SCORES d'IDENTICATION au sens de LAPAGE (on dit aussi "probabilités de Wilcox") et les indicateurs de validation sont les valeurs de FREQUENCES MODALES (ou encore "fraction modale de vraisemblance).
Vous pouvez consulter la rubrique Exemples commentés pour voir les résutats des calculs effectués. Vous pouvez également utiliser les formulaires
f_classif.php pour effectuer une classification en ligne f_identif.php pour effectuer une identification en ligne
On peut créer une table soit directement à l'aide du menu Dossier / Nouveau soit en important une base dont l'extension doit être .DBF (menu Dossier / Import). La base doit alors contenir un champ NOM_PHENO et quatre champs RANG_TEST1, RANG_TEST2, RANG_TEST3 et RANG_TEST4, ce qui est le cas si vous utilisez des tables construites par le logiciel TAXONUM. Voici par exemple le début d'une table nommée ARWI qui utilise la galerie BIOTYPE
NOM_PHENO RANG_TEST1 511 1 2 3 4 5 7 8 9 11 12 13 14 15 ... 1453 1 2 3 4 5 7 8 9 12 13 14 15 16 ... 1525 1 2 3 4 5 7 8 9 11 12 13 14 16 ... 1526 1 2 3 4 5 7 8 9 12 13 14 15 16 ... 87-7 1 2 3 4 5 7 8 9 11 12 13 14 15 ... 88-29 1 2 3 4 5 7 8 9 12 15 16 17 18 ... PM2 1 2 3 4 5 7 8 9 12 13 14 15 16 ... CIP009 1 2 3 4 5 7 8 9 12 13 14 15 16 ...
Chaque nombre entier indique qu'il y a eu une réaction positive au caractère correspondant. Pour la souche CIP009 on a donc une réaction positive aux 5 premiers caractères, puis une réponse négative au caractère 6 qui est L(+) Sorbose puis à nouveau des réponses positives aux caractères 7 à 9 etc. Ce codage est équivalent à ce que d'autres logiciels stockent sous forme de la liste
C C C C C C C C C C C C C C C C 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 NOM_PHENO 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 CIP009 + + + + + - + + + - - + + + + + ...
où chaque plus indique une réaction positive et chaque moins une réponse négative. La liste des réponses est d'ailleurs aussi stockée en numérique pour d'autres logiciel sous la forme
C C C C C C C C C C C C C C C C 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 NOM_PHENO 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 CIP009 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 1 ...
où chaque 1 indique une réaction positive et chaque 0 une réponse négative.
cabiq n'assure aucune conversion entre ces différentes types de listes. Il utilise la liste des indices des caractères positifs car c'est la forme la plus courte à la saisie.
Lorsqu'on ouvre un dossier, cabiq vérifie systématiquement la présence de la galerie associée, la présence de la table avant d'auroriser à poursuivre les calculs. Il vérifie aussi un certain nombre de points pour assurer que le dossier est cohérent. En particulier cabiq vérifie :
- que la table contient au moins deux souches, - que toute souche a un nom, - qu'il n'y a pas deux fois le même nom de souche, - que chaque souche a au moins 1 caractère positif, - qu'on n'utilise que des numéros de caractères valides pour la galerie.