Partie Statistiques du cours de BioInformatique
Master BTV, UFR Sciences - Université d'Angers
Solutions du TD numéro 2 (énoncés)
Pour comparer deux QT, on utilise un test d'hypothèse paramétrique ou non paramétrique suivant la normalité de la distribution des échantillons : pour des données normales non appariées, on utilise le test t de Student qui est équivalent à une ANOVA à un facteur ; pour des données normales appariées, on utilise le test t de Student adapté aux données appariées ; pour des données non normales non appariées, on utilise le test de Mann-Whitney ; pour des données non normales appariées, on utilise le test de Wilcox.
Voici le tableau résumé de ces divers cas pour comparer deux QT :
Données non appariées Données appariées Données normales test t de Student (ou anova) test t de Student adapté Données non normales test de Mann-Whitney test de Wilcox Pour comparer plus de deux QT, on utilise comme tests d'hypothèse paramétriques des anova, ancova, manova et autre mancova (donc pour des données normales) ; dans le cas non paramétrique, on utilise le test de Kruskal-Wallis pour des données non normales non appariées et le test de Friedman pour des données non normales appariées.
Voici le tableau résumé de ces divers cas pour comparer plus de deux QT :
Données non appariées Données appariées Données normales anova, ancova etc. anova, ancova etc. Données non normales test de Kruskal-Wallis test de Friedman En termes de graphiques, il est d'usage de tracer des boites à moustaches simultanées des QT, avec éventuellements des encoches (qui illustrent le test d'égalité des moyennes).
Il faut noter que, pour plus de deux QT, lorsque les tests d'hypothèses montrent des différences significatives entre les QT, on doit effectuer des tests post hoc pour déterminer quelles QT sont significativement différentes. De plus, ces comparaisons s'effectuent plutôt sur des groupes à l'intérieur d'une même QT que sur des QT différentes.
Pour étudier conjointement deux QL, on effectue un tri croisé puis un test d'indépendance du khi-deux sur ce tri croisé si les effectifs présents le permettent. En termes de graphiques, il est d'usage de tracer les histogrammes des effectifs des deux tris à plats et du tri croisé dans les deux sens afin de détecter d'éventuelles dépendances (changements de profils).
L'analyse conjointe de deux QT se fait impérativement après l'analyse séparée de chacune des deux QT. Ensuite, après l'étude de la normalité de chacune des distributions, on étudie, en cas de normalité, la corrélation linéaire à l'aide du coefficient de corrélation linéaire et, si le coefficient est significativement différent de zéro, on peut calculer les droites de régression. On doit aussi se poser la question de la causalité entre les QT ou la dépendance linéaire à une même troisième variable. S'il n'y a pas normalité, on s'intéressera à la corrélation des rangs (au sens de Spearman ou de Kendall).
Au niveau des graphiques, on tracera une QT en fonction de l'autre (diagramme de dispersion ou scatterplot) avec éventuellement la droite de régression linéaire.
Pour plus de deux QT, il faut dresser un tableau récapitulatif "bien trié" qui résume l'analyse séparée des QT puis calculer la matrice des coefficients de corrélation linéaire et s'intéresser aux plus forts coefficients. En terme de graphiques, un tracé systématique de tous les diagrammes deux à deux peut se révéler intéressant... On peut aussi réaliser une ACP (Analyse en Composantes Principales) mais sa lecture demande des compétences statistiques complémentaires.
Au lieu d'utiliser la fonction decritQT pour chaque règne, nous utiliserons la fonction decritQTparFacteurTexte de statgh.r comme suit :
source("statgh.r") lea2<-lit.dar("lea2.dar") attach(lea2) les4r <- as.character( sort(unique(reign2)) ) decritQTparFacteurTexte("LONGUEUR dans LEA2",length2,"aa","REGNE",reign2,les4r,TRUE) detach(lea2)dont voici les résultats
VARIABLE QT LONGUEUR dans LEA2 unité, : aa VARIABLE QL REGNE, labels : Bacteria Fungi Metazoa Viridiplantae N Moy Unite Ect Cdv Q1 Med Q3 EIQ Min Max Global 770 204.6325 aa 146.9473 72 128.5 168 234.8 106.2 68 1864 Bacteria 38 252.7105 aa 145.0865 57 157.8 195 290.5 132.8 102 647 Fungi 11 663.1818 aa 571.9613 86 245.5 417 960 714.5 138 1864 Metazoa 23 274.4348 aa 193.8123 71 102 182 376.5 274.5 70 742 Viridiplantae 698 192.4885 aa 111.9559 58 127.2 165.5 227 99.75 68 1429 Analysis of Variance Table Response: length2 Df Sum Sq Mean Sq F value Pr(>F) reign2 3 2615781 871927 47.669 < 2.2e-16 *** Residuals 766 14011214 18291 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1L'examen des calculs et graphiques mène à penser que Fungi est différent des autres règnes ; on se méfiera que sur le graphique, ce ne sont pas les moyennes mais les médianes qui sont affichées. A titre de comparaison, voici les boites à moustaches basées sur la médiane (à gauche) et basées sur la moyenne (à droite) fournies par le logiciel Statistica :
Au vu des histogrammes des variables bact et meta (non présentés ici), les données ne semblent pas normales. Comme de plus on a peu de données (moins de 50 pour chaque règne), on effectue un test (non paramétrique) de Mann-Whitney (nommé "test de Wilcox non apparié" par R) :
wilcox.test(bact,meta,paired=FALSE,exact=FALSE)Ce qu'affiche R permet de conclure qu'il n'y a pas de différence significative entre les longueurs de protéines au seuil de 5 % (car la "p-value" 0.7042 est supérieure à 0,05) :
Wilcoxon rank sum test with continuity correction data: bact and meta W = 463, p-value = 0.7042 alternative hypothesis: true location shift is not equal to 0
Le test d'hypothèse à utiliser est prop.test() mais nous lui préférons notre fonction compPourc() :
source("statgh.r") # les valeurs 557, 580 et 773 ont été calculées précédemment compPourc("CDD et PFAM non renseignés",557,773,580,773)dont voici les résultats
COMPARAISON DE POURCENTAGES CDD et PFAM non renseignés population A, 557 individus marqués sur 773 soit une proportion de 72.05692 % population B, 580 individus marqués sur 773 soit une proportion de 75.03234 % globalisation, 1137 individus marqués sur 1546 soit une proportion de 73.54463 % écart-réduit : 1.3261 ; "p-value" associée : 0.2046246 au seuil de 5 % soit 1.96, on peut accepter l'hypothèse d'égalité des pourcentages. En d'autres termes, il n'y a pas de différence significative entre les pourcentages au seuil de 5 %.L'exécution de l'instruction R suggérée par compPourc() en fin d'affichage est :
prop.test( c( 557 , 580 ) , c( 773 , 773 ) )et fournit comme résultats :
Exact binomial test data: c(557, 580) number of successes = 557, number of trials = 1137, p-value = 0.5141 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.4604473 0.5193765 sample estimates: probability of success 0.4898857Ce qui permet de conclure, là encore, qu'il n'y a pas de différence significative entre les pourcentages au seuil de 5 %.
La question "Pourquoi y a-t-il autant de CDD (ou de PFAM) non renseignés ?" n'est pas une question de statistiques et aucune formule ni aucun logiciel ne peut y répondre. De plus, l'indication N/A indique seulement que notre lecture automatisée des fichiers Genpept du NCBI n'a pas permis de trouver de valeur pour CDD (ou pour PFAM). Ce qui peut s'interpréter de deux façons : soit la personne qui a déposé la séquence au NCBI n'a pas trouvé de CDD satisfaisant après les avoir tous passés en revue soit elle n'a même pas cherché.
Au lieu de l'instruction R nommée table qui sert aussi bien pour les tris à plat que les tris croisés, nous utiliserons nos fonctions decritQL et triCroise :
options(width=450) source("statgh.r") lea3<-lit.dar("lea3.dar") attach(lea3) labelCdd <- as.character(sort(unique(cdd3))) labelPfam <- as.character(sort(unique(pfam3))) decritQL("CDD renseigné",cdd3,labelCdd,TRUE) decritQL("PFAM renseigné",pfam3,labelPfam,TRUE) triCroise("PFAM renseigné",pfam3,labelPfam,"CDD renseigné",cdd3,labelCdd) detach(lea3)Nous obtenons alors :
> decritQL("CDD renseigné",cdd3,labelCdd,TRUE) QUESTION : CDD renseigné (ordre des modalités) 35153 66403 66647 66818 66886 67378 68499 68610 69026 69056 70305 84648 84797 85782 86004 88803 88917 91016 109320 Total Effectif 1 2 3 24 38 45 8 1 1 2 7 10 41 1 1 2 4 1 1 193 Frequence (en %) 1 1 2 12 20 23 4 1 1 1 4 5 21 1 1 1 2 1 1 103 QUESTION : CDD renseigné (par fréquence décroissante) 67378 84797 66886 66818 84648 68499 70305 88917 66647 66403 69056 88803 35153 68610 69026 85782 86004 91016 109320 Total Effectif 45 41 38 24 10 8 7 4 3 2 2 2 1 1 1 1 1 1 1 193 Frequence (en %) 23 21 20 12 5 4 4 2 2 1 1 1 1 1 1 1 1 1 1 103 > decritQL("PFAM renseigné",pfam3,labelPfam,TRUE) QUESTION : PFAM renseigné (ordre des modalités) 257 477 1442 1936 2496 2714 2987 3168 3242 3760 4927 5042 5478 5512 6830 Total Effectif 13 45 1 1 1 3 3 24 38 45 8 1 1 2 7 193 Frequence (en %) 7 23 1 1 1 2 2 12 20 23 4 1 1 1 4 103 QUESTION : PFAM renseigné (par fréquence décroissante) 477 3760 3242 3168 257 4927 6830 2714 2987 5512 1442 1936 2496 5042 5478 Total Effectif 45 45 38 24 13 8 7 3 3 2 1 1 1 1 1 193 Frequence (en %) 23 23 20 12 7 4 4 2 2 1 1 1 1 1 1 103 > triCroise("PFAM renseigné",pfam3,labelPfam,"CDD renseigné",cdd3,labelCdd) TRI CROISE DES QUESTIONS : PFAM renseigné (en ligne) CDD renseigné (en colonne) Effectifs 35153 66403 66647 66818 66886 67378 68499 68610 69026 69056 70305 84648 84797 85782 86004 88803 88917 91016 109320 257 0 0 0 0 0 0 0 0 0 0 0 10 0 0 0 2 0 0 1 477 0 0 0 0 0 0 0 0 0 0 0 0 41 0 0 0 4 0 0 1442 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1936 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 2496 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 2714 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2987 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3168 0 0 0 24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3242 0 0 0 0 38 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3760 0 0 0 0 0 45 0 0 0 0 0 0 0 0 0 0 0 0 0 4927 0 0 0 0 0 0 8 0 0 0 0 0 0 0 0 0 0 0 0 5042 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 5478 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 5512 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 6830 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 Valeurs en % du total 35153 66403 66647 66818 66886 67378 68499 68610 69026 69056 70305 84648 84797 85782 86004 88803 88917 91016 109320 TOTAL 257 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0 1 0 0 1 7 477 0 0 0 0 0 0 0 0 0 0 0 0 21 0 0 0 2 0 0 23 1442 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1936 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 2496 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 2714 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2987 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 3168 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 3242 0 0 0 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20 3760 0 0 0 0 0 23 0 0 0 0 0 0 0 0 0 0 0 0 0 23 4927 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 4 5042 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 5478 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 5512 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 6830 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 4 TOTAL 1 1 2 12 20 23 4 1 1 1 4 5 21 1 1 1 2 1 1 100La lecture des tris à plats et du tri croisé montre que certains CDD et PFAM sont spécifiques à une protéine car de nombreux effectifs sont inférieurs à 5. Si on se limite aux effectifs supérieurs à 5, on obtient le tableau restreint suivant qui indique que CDD et PFAM "fonctionnent ensemble" :
66818 66886 67378 84648 84797 3168 24 0 0 0 0 3242 0 38 0 0 0 3760 0 0 45 0 0 257 0 0 0 10 0 477 0 0 0 0 41En toute rigueur, il n'est pas possible d'effectuer un test du khi-deux car de nombreux effectifs théoriques sont inférieurs à 5 :
CALCUL DU CHI-DEUX D'INDEPENDANCE ================================= TABLEAU DES DONNEES 257 477 1442 1936 2496 2714 2987 3168 3242 3760 4927 5042 5478 5512 6830 Total 35153 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 66403 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 2 66647 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 3 66818 0 0 0 0 0 0 0 24 0 0 0 0 0 0 0 24 66886 0 0 0 0 0 0 0 0 38 0 0 0 0 0 0 38 67378 0 0 0 0 0 0 0 0 0 45 0 0 0 0 0 45 68499 0 0 0 0 0 0 0 0 0 0 8 0 0 0 0 8 68610 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 69026 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 69056 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 2 70305 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 7 84648 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 10 84797 0 41 0 0 0 0 0 0 0 0 0 0 0 0 0 41 85782 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 86004 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 88803 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 88917 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 4 91016 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 109320 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 Total 13 45 1 1 1 3 3 24 38 45 8 1 1 2 7 193 VALEURS ATTENDUES et MARGES 257 477 1442 1936 2496 2714 2987 3168 3242 3760 4927 5042 5478 5512 6830 Total 35153 0.067 0.23 0.0052 0.0052 0.0052 0.016 0.016 0.12 0.20 0.23 0.041 0.0052 0.0052 0.010 0.036 1 66403 0.135 0.47 0.0104 0.0104 0.0104 0.031 0.031 0.25 0.39 0.47 0.083 0.0104 0.0104 0.021 0.073 2 66647 0.202 0.70 0.0155 0.0155 0.0155 0.047 0.047 0.37 0.59 0.70 0.124 0.0155 0.0155 0.031 0.109 3 66818 1.617 5.60 0.1244 0.1244 0.1244 0.373 0.373 2.98 4.73 5.60 0.995 0.1244 0.1244 0.249 0.870 24 66886 2.560 8.86 0.1969 0.1969 0.1969 0.591 0.591 4.73 7.48 8.86 1.575 0.1969 0.1969 0.394 1.378 38 67378 3.031 10.49 0.2332 0.2332 0.2332 0.699 0.699 5.60 8.86 10.49 1.865 0.2332 0.2332 0.466 1.632 45 68499 0.539 1.87 0.0415 0.0415 0.0415 0.124 0.124 0.99 1.58 1.87 0.332 0.0415 0.0415 0.083 0.290 8 68610 0.067 0.23 0.0052 0.0052 0.0052 0.016 0.016 0.12 0.20 0.23 0.041 0.0052 0.0052 0.010 0.036 1 69026 0.067 0.23 0.0052 0.0052 0.0052 0.016 0.016 0.12 0.20 0.23 0.041 0.0052 0.0052 0.010 0.036 1 69056 0.135 0.47 0.0104 0.0104 0.0104 0.031 0.031 0.25 0.39 0.47 0.083 0.0104 0.0104 0.021 0.073 2 70305 0.472 1.63 0.0363 0.0363 0.0363 0.109 0.109 0.87 1.38 1.63 0.290 0.0363 0.0363 0.073 0.254 7 84648 0.674 2.33 0.0518 0.0518 0.0518 0.155 0.155 1.24 1.97 2.33 0.415 0.0518 0.0518 0.104 0.363 10 84797 2.762 9.56 0.2124 0.2124 0.2124 0.637 0.637 5.10 8.07 9.56 1.699 0.2124 0.2124 0.425 1.487 41 85782 0.067 0.23 0.0052 0.0052 0.0052 0.016 0.016 0.12 0.20 0.23 0.041 0.0052 0.0052 0.010 0.036 1 86004 0.067 0.23 0.0052 0.0052 0.0052 0.016 0.016 0.12 0.20 0.23 0.041 0.0052 0.0052 0.010 0.036 1 88803 0.135 0.47 0.0104 0.0104 0.0104 0.031 0.031 0.25 0.39 0.47 0.083 0.0104 0.0104 0.021 0.073 2 88917 0.269 0.93 0.0207 0.0207 0.0207 0.062 0.062 0.50 0.79 0.93 0.166 0.0207 0.0207 0.041 0.145 4 91016 0.067 0.23 0.0052 0.0052 0.0052 0.016 0.016 0.12 0.20 0.23 0.041 0.0052 0.0052 0.010 0.036 1 109320 0.067 0.23 0.0052 0.0052 0.0052 0.016 0.016 0.12 0.20 0.23 0.041 0.0052 0.0052 0.010 0.036 1 Total 13.000 45.00 1.0000 1.0000 1.0000 3.000 3.000 24.00 38.00 45.00 8.000 1.0000 1.0000 2.000 7.000 193Toutefois notre fonction triCroise() permet de passer en revue les contributions au calcul de la distance du khi-deux : et montre bien que l'hypothèse d'indépendance ne peut pas être retenue en fournissant les plus fortes dépendances entre les modalités de CDD et PFAM pour des effectifs théoriques supérieurs à 5 :
Valeur du chi-deux 2702 Le chi-deux max (table) à 5 % est 290.0285 ; p-value 0 pour 252 degrés de liberte PLUS FORTES CONTRIBUTIONS AVEC SIGNE DE DIFFERENCE (EXTRAIT) Signe Valeur Pct CDD PFAM Ligne Colonne Obs Th + 124.482 4.61 % 66886 3242 5 9 38 7.5 + 113.492 4.20 % 67378 3760 6 10 45 10.5 + 103.404 3.83 % 84797 477 13 2 41 9.6 - 10.492 0.39 % 67378 477 6 2 0 10.5 - 9.560 0.35 % 84797 3760 13 10 0 9.6
Plutôt que d'utiliser deux fois decritQT(), une fois pour length et une fois pour mw, nous utiliserons notre fonction allQT qui fournit un affichage plus compact puis notre fonction anaLin :
source("statgh.r") lea<-lit.dar("lea.dar") lengthmw <- lea[,c(1,7)] print(head(lengthmw)) allQT(lengthmw,"length mw","aa uma") attach(lea) anaLin("Longueur",length,"aa","Poids moléculaire",mw,"uma",TRUE) detach(lea)En voici les résultats
ANALYSE DES VARAIABLES QUANTITATIVES Par cdv décroissant Num Nom Taille Moyenne Unite Ecart-type Coef. de var. Minimum Maximum 2 mw 773 21838.965 uma 16041.950 73.46 % -9.000 197129.312 1 length 773 205.688 aa 148.596 72.24 % 68.000 1864.000 Par ordre d'entrée Num Nom Taille Moyenne Unite Ecart-type Coef. de var. Minimum Maximum 1 length 773 205.688 aa 148.596 72.24 % 68.000 1864.000 2 mw 773 21838.965 uma 16041.950 73.46 % -9.000 197129.312 Par moyenne décroissante Num Nom Taille Moyenne Unite Ecart-type Coef. de var. Minimum Maximum 2 mw 773 21838.965 uma 16041.950 73.46 % -9.000 197129.312 1 length 773 205.688 aa 148.596 72.24 % 68.000 1864.000 ANALYSE DE LA LIAISON LINEAIRE ENTRE Longueur ET Poids moléculaire coefficient de corrélation : 0.9922021 donc R2 = 0.984465 p-value associée : 0 équation : Poids moléculaire = 107.11 * Longueur - 193.30 équation : Longueur = 0.01 * Poids moléculaire + 4.97L'examen des calculs et graphiques montre qu'il y a une corrélation linéaire significative entre length et mw. Avec une longueur moyenne d'environ 206 aa et un écart-type d'environ 149 aa, soit un cdv de 72 %, les protéines semblent globalement assez homogènes au niveau de la longueur. La même remarque s'applique au poids moléculaire.
Remarque : sans nos fonctions, l'étude de la relation linéaire entre length et mw peut se faire sous R via
print(summary(lengthmw)) lg <- lea[,1] mw <- lea[,7] cat("Analyse de la corrélation : r = ",cor(lg,mw),"\n") print(cor.test(lg,mw)) an <- lm(mw~lg) print(an) print(anova(an)) par(mfrow=c(2, 2)) plot(an) par(mfrow=c(1,1))dont les résultats sont
length mw Min. : 68.0 Min. : -9 1st Qu.: 130.0 1st Qu.: 13961 Median : 168.0 Median : 17447 Mean : 205.7 Mean : 21839 3rd Qu.: 236.0 3rd Qu.: 25100 Max. :1864.0 Max. :197129 Analyse de la corrélation : r = 0.9922021 Pearson's product-moment correlation data: lg and mw t = 221.0406, df = 771, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.9910242 0.9932259 sample estimates: cor 0.9922021 Call: lm(formula = mw ~ lg) Coefficients: (Intercept) lg -193.3 107.1 Analysis of Variance Table Response: mw Df Sum Sq Mean Sq F value Pr(>F) lg 1 1.9584e+11 1.9584e+11 48859 < 2.2e-16 *** Residuals 771 3.0903e+09 4.0082e+06 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' 'Et un tracé élémentaire de mw en fonction de lg aurait été obtenu par :
plot(lg,mw) plot(lg,mw,main=" tracé de mw en fonction de lg") abline(lm(mw~lg),col="red")On pourra s'étonner du minimum -9 pour mw (qui est un "code" pour indiquer que la donnée est manquante) et remarquer que la masse moléculaire moyenne s'obtient globalement en prenant 107 fois la longueur et en retirant 193 (chaque aa ajoutant 107 à cette masse). La causalité ici est particulièrement évidente : plus la longueur augmente, plus la masse moléculaire augmentera, la réciproque n'étant pas vraie : peu de "gros aa" (Arginine et Tryptophane) augmentent sensiblement la masse moléculaire mais pas la longueur. Par contre, la linéarité n'était pas "évidente" et surtout pas avec un tel coefficient de corrélation linéaire.
Puisque le fichier des données contient des données manquantes (code -9), il faut les supprimer. Le fichier lea4.dar contient le fichier correct des données. Il faut recommencer l'étude de régression. Voici donc les "vrais" résultats qui, heureusement, changent peu des précédents :
source("statgh.r") lea<-lit.dar("lea4.dar") lengthmw <- lea[,c(1,7)] print(head(lengthmw)) allQT(lengthmw,"length mw","aa uma") attach(lea) anaLin("Longueur",length4,"aa","Poids moléculaire",mw4,"uma",TRUE) detach(lea)ANALYSE DES VARAIABLES QUANTITATIVES Par cdv décroissant Num Nom Taille Moyenne Unite Ecart-type Coef. de var. Minimum Maximum 2 mw 765 21858.953 uma 15795.787 72.26 % 7521.360 197129.312 1 length 765 204.797 aa 147.303 71.93 % 68.000 1864.000 Par ordre d'entrée Num Nom Taille Moyenne Unite Ecart-type Coef. de var. Minimum Maximum 1 length 765 204.797 aa 147.303 71.93 % 68.000 1864.000 2 mw 765 21858.953 uma 15795.787 72.26 % 7521.360 197129.312 Par moyenne décroissante Num Nom Taille Moyenne Unite Ecart-type Coef. de var. Minimum Maximum 2 mw 765 21858.953 uma 15795.787 72.26 % 7521.360 197129.312 1 length 765 204.797 aa 147.303 71.93 % 68.000 1864.000 Matrice des corrélations length mw length 1.000 mw 0.997 1.000 Meilleure corrélation 0.9974722 pour mw et length Formules length = 0.009 * mw + 1.468 et mw = 106.962 * length -46.679 ANALYSE DE LA LIAISON LINEAIRE ENTRE Longueur ET Poids moléculaire coefficient de corrélation : 0.9974722 donc R2 = 0.9949508 p-value associée : 0 équation : Poids moléculaire = 106.96 * Longueur - 46.68 équation : Longueur = 0.01 * Poids moléculaire + 1.47
Retour à la page principale de (gH)