Valid XHTML     Valid CSS2    

 

Partie Statistiques du cours de BioInformatique

Master BTV, UFR Sciences - Université d'Angers

Enoncés du TD numéro 2 (solutions)

  1. Comment fait-on statistiquement pour comparer : deux QT ? plus de deux QT ?

  2. Comment fait-on statistiquement pour étudier conjointement deux QL ?

  3. Comment fait-on statistiquement pour étudier conjointement : deux QT ? plus de deux QT ?

  4. Comment fait-on statistiquement pour étudier conjointement une QT et une QL ? Etudier la variable longueur pour les quatre règnes les plus fréquents. Y a-t-il une différence significative entre les moyennes des longueurs pour Bacteria et pour Metazoa ?

    Afin de se restreindre aux 4 règnes, on pourra utliser le fichier lea2.dar qui ne contient pas les protéines de règne Alveolata Euryarchaeota Parabasalidea ou on pourra créer des variables pour les quatres règnes via les instructions R suivantes :

    
              
              # création de 4 variables correspondant aux 4 règnes les plus fréquents     
              
              bact <- length[ reign=="Bacteria" ]          # il y en a 38 en principe     
              fung <- length[ reign=="Fungi" ]             # il y en a 11     
              meta <- length[ reign=="Metazoa" ]           # il y en a 23     
              viri <- length[ reign=="Viridiplantae" ]     # il y en a 698     
              
              
              
    

     

  5. Peut-on considérer que la proportion de pfam non renseignés (valeur N/A) est la même que celle de cdd non renseignés (valeur N/A) ? Pourquoi y en a-t-il autant ?

    On pourra compter le nombre de N/A pour pfam et cdd via les instructions R suivantes :

    
              
              # nombre de N/A pour les variables cdd et pfam     
              
                sum(cdd=="N/A")  ; # on doit trouver 557 N/A pour 773 protéines en tout     
              
                sum(pfam=="N/A") ; # on doit trouver 580 N/A     
              
              
              
    

     

  6. Etudier les variables pfam et cdd séparément puis conjointement dans lea3.dar qui ne contient que des protéines avec les champs cdd et pfam renseignés.

  7. Etudier séparément puis conjointement les variables length et mw ; peut-on envisager une certaine "causalité" ? Si oui, laquelle ? On pourra utiliser une matrice avec les deux QT en colonnes via les instructions R :

    
              
              # lecture des fonctions gH     
              
              source("statgh.r")     
              
              # lecture de toutes les données LEA     
              
              lea <- lit.dar("lea.dar")     
              
              # construction d'une matrice avec length et mw en colonnes,     
              # respectivement colonne 1 et colonne 7 du "dataframe" lea     
              
              lengthmw <- lea[,c(1,7)]     
              
              
              
    

     

 

 

 

retour gH    Retour à la page principale de   (gH)