Partie Statistiques du cours de BioInformatique
Master BTV, UFR Sciences - Université d'Angers
Enoncés du TD numéro 1 (solutions)
Rappeler à quoi servent les statistiques.
Qu'est-ce qu'une variable QT ? Et une variable QL ? et une QX ?
Quels calculs peut-on effectuer sur une variable QT ?
Quels graphiques permettent de décrire une variable QT ?
Quels calculs peut-on effectuer sur une variable QL ?
Quels graphiques permettent de décrire une variable QL ?
Pourquoi ne peut-on pas vraiment utiliser Excel pour faire des calculs statistiques ?
Pour les données sur les protéines LEA, quel est le type des variables ?
Etudier avec le logiciel R les variables length et reign du fichier lea.dar : dans un premier temps utiliser les fonctions de base de R puis dans un deuxième temps utiliser les fonctions de statgh.r dont une présentation est ici. La liste des fonctions est disponible là.
On pourra accéder aux données via les instructions R suivantes :
# 1. Lecture des données dans le fichier lea.dar # 1.1 si les données sont au dans le répertoire courant : lea <- read.table("lea.dar", head=TRUE,row.names=1) # 1.2 si les données sont sur le disque D: dans le répertoire D:\Lea # (noter l'inversion de \ en //) lea <- read.table("D://Lea//lea.dar", head=TRUE,row.names=1) # 1.3 avec un accès à internet : lea <- read.table("http://forge.info.univ-angers.fr/~gh/Datasets/lea.dar", head=TRUE,row.names=1) # 1.4 avec les fonctions de statgh.r : source("statgh.r") lea <- lit.dar("lea.dar") # 1.5 avec le package Rcmdr : utiliser le menu Données # /Importer des Données / depuis un fichier texte # et cocher Noms de variables dans le fichier, # Système de fichier local, Espaces et Point puis # sélectionner le fichier dans le panneau qui s'ouvre library("Rcmdr") # si le package Rcmdr n'est pas installé, exécutez # install.packages("Rcmdr") et choisir dans la liste # qui s'affiche un site français, comme par exemple ceux de Lyon # 2. Transfert de length et reign dans des variables # (décaler les colonnes de 1 si on a utilisé Rcmdr, # par exemple : lng <- lea[,2]) lng <- lea[,1] reg <- lea[,2] # affichages à titre de vérification : print( head(lng) ) print( tail(reg,n=5) )
Peut-on étudier la longueur des protéines pour chaque règne rencontré ? Quel est l'intervalle de confiance de la longueur à 5 % ? et à 1 % ? Peut-on supposer que les longueurs suivent une distribution normale ?
Quel livre en français, court et pas cher peut-on lire sur R et les calculs statistiques sous R ?
Retour à la page principale de (gH)