Stats. BioInfo. Master BTV

Partie Statistiques du cours de BioInformatique

Master BTV, UFR Sciences - Université d'Angers

gilles.hunault "at" univ-angers.fr

Enoncés du TD numéro 2 (solutions)
Comment fait-on statistiquement pour comparer : deux QT ? plus de deux QT ?

Comment fait-on statistiquement pour étudier conjointement deux QL ?

Comment fait-on statistiquement pour étudier conjointement : deux QT ? plus de deux QT ?
Comment fait-on statistiquement pour étudier conjointement une QT et une QL ? Etudier la variable longueur pour les quatre règnes les plus fréquents. Y a-t-il une différence significative entre les moyennes des longueurs pour Bacteria et pour Metazoa ?

Afin de se restreindre aux 4 règnes, on pourra utliser le fichier lea2.dar qui ne contient pas les protéines de règne Alveolata Euryarchaeota Parabasalidea ou on pourra créer des variables pour les quatres règnes via les instructions R suivantes :
          
          # création de 4 variables correspondant aux 4 règnes les plus fréquents     
          
          bact <- length[ reign=="Bacteria" ]          # il y en a 38 en principe     
          fung <- length[ reign=="Fungi" ]             # il y en a 11     
          meta <- length[ reign=="Metazoa" ]           # il y en a 23     
          viri <- length[ reign=="Viridiplantae" ]     # il y en a 698     
          
          
          
Peut-on considérer que la proportion de pfam non renseignés (valeur N/A) est la même que celle de cdd non renseignés (valeur N/A) ? Pourquoi y en a-t-il autant ?

On pourra compter le nombre de N/A pour pfam et cdd via les instructions R suivantes :
          
          # nombre de N/A pour les variables cdd et pfam     
          
            sum(cdd=="N/A")  ; # on doit trouver 557 N/A pour 773 protéines en tout     
          
            sum(pfam=="N/A") ; # on doit trouver 580 N/A     
          
          
          
Etudier les variables pfam et cdd séparément puis conjointement dans lea3.dar qui ne contient que des protéines avec les champs cdd et pfam renseignés.
Etudier séparément puis conjointement les variables length et mw ; peut-on envisager une certaine "causalité" ? Si oui, laquelle ? On pourra utiliser une matrice avec les deux QT en colonnes via les instructions R :
          
          # lecture des fonctions gH     
          
          source("statgh.r")     
          
          # lecture de toutes les données LEA     
          
          lea <- lit.dar("lea.dar")     
          
          # construction d'une matrice avec length et mw en colonnes,     
          # respectivement colonne 1 et colonne 7 du "dataframe" lea     
          
          lengthmw <- lea[,c(1,7)]     
          
          
          
Solutions des exercices Retour à la page principale du cours
Retour à la page principale de (gH)