Partie Statistiques du cours de BioInformatique
Master BTV, UFR Sciences - Université d'Angers
Enoncés du TD numéro 2 (solutions)
Comment fait-on statistiquement pour comparer : deux QT ? plus de deux QT ?
Comment fait-on statistiquement pour étudier conjointement deux QL ?
Comment fait-on statistiquement pour étudier conjointement : deux QT ? plus de deux QT ?
Comment fait-on statistiquement pour étudier conjointement une QT et une QL ? Etudier la variable longueur pour les quatre règnes les plus fréquents. Y a-t-il une différence significative entre les moyennes des longueurs pour Bacteria et pour Metazoa ?
Afin de se restreindre aux 4 règnes, on pourra utliser le fichier lea2.dar qui ne contient pas les protéines de règne Alveolata Euryarchaeota Parabasalidea ou on pourra créer des variables pour les quatres règnes via les instructions R suivantes :
# création de 4 variables correspondant aux 4 règnes les plus fréquents bact <- length[ reign=="Bacteria" ] # il y en a 38 en principe fung <- length[ reign=="Fungi" ] # il y en a 11 meta <- length[ reign=="Metazoa" ] # il y en a 23 viri <- length[ reign=="Viridiplantae" ] # il y en a 698
Peut-on considérer que la proportion de pfam non renseignés (valeur N/A) est la même que celle de cdd non renseignés (valeur N/A) ? Pourquoi y en a-t-il autant ?
On pourra compter le nombre de N/A pour pfam et cdd via les instructions R suivantes :
# nombre de N/A pour les variables cdd et pfam sum(cdd=="N/A") ; # on doit trouver 557 N/A pour 773 protéines en tout sum(pfam=="N/A") ; # on doit trouver 580 N/A
Etudier les variables pfam et cdd séparément puis conjointement dans lea3.dar qui ne contient que des protéines avec les champs cdd et pfam renseignés.
Etudier séparément puis conjointement les variables length et mw ; peut-on envisager une certaine "causalité" ? Si oui, laquelle ? On pourra utiliser une matrice avec les deux QT en colonnes via les instructions R :
# lecture des fonctions gH source("statgh.r") # lecture de toutes les données LEA lea <- lit.dar("lea.dar") # construction d'une matrice avec length et mw en colonnes, # respectivement colonne 1 et colonne 7 du "dataframe" lea lengthmw <- lea[,c(1,7)]
Retour à la page principale de (gH)