Module de Biostatistiques,
partie 1
Ecole Doctorale Biologie Santé
gilles.hunault "at" univ-angers.fr
Enoncés pour la séance numéro 4 (solutions)
Quelle la différence entre la densité et la répartition d'une loi probabiliste discrète ?
Comment traduit-on ces termes en anglais ?
Comment obtient-on ces fonctions sous R pour la loi binomiale ? Comment utiliser runif ?
Que fait la fonction suivante, nommée approx ? Comment l'utilise-t-on ?
############################################ approx <- function(n,p,lx="") { ############################################ xb <- 0:n vb <- dbinom(xb,n,p) # valeurs de la loi binomiale if (missing(lx)) { lx <- c(0,n) } ; # fin si titre <- paste("Approximations n=",n," et p=",p,sep="") plot(xb,vb,col="red",main=titre,xlim=lx) m <- n*p s <- sqrt(m*(1-p)) lambda <- m xp <- 0:(3*n) vp <- dpois(xp,lambda) points(xp,vp,col="blue") nbp <- 100 xn <- ((0:(2*nbp*n)) -nbp*n)/nbp vn <- dnorm(xn,mean=m,sd=s) points(xn,vn,col="black",pch=".") } # fin de fonction approxQu'est-ce que l'équiprobabilité ? Quelle est la loi probabiliste discrète sous-jacente ? Comment calcule-t-on les probabilités théoriques et les fréquences théoriques attendues sous hypothèse d'équiprobabilité ?
En admettant que les toxicités de grade I, II et III pour le traitement du cancer colorectal sont équiprobables au premier cycle en cas d'utilisation du 5-fluorouracile, combien doit-on obtenir de toxicités de grade I, II et III pour 670 patients au premier cycle de cure ? Que manque-t-il à cet exercice pour être réaliste ?
Quelles sont les lois probabilistes discrètes autres que la loi binomiale et la loi uniforme ? Vers quoi convergent-elles ?
Quelles sont les lois probabilistes continues autres que la loi normale ? Quelles sont leurs rapports avec la loi normale ?
Un interne en médecine décide de tester l'équiprobabilité des sexes à la naissance. Pour cela, il consigne par écrit le sexe des enfants nés pour les 50 premières naissances de la semaine à la maternité où il effectue ses gardes. Il obtient 21 garçons et 29 filles. Que peut-il en conclure ?
Son directeur de thèse estime que 50 enfants n'est pas un nombre suffisant et lui demande de de consigner les naissances jusqu'à un total de 500 naissances. Pour éviter de retourner à la maternité, notre (mauvais) étudiant décide de multiplier les résultats précédents par 10 et de les modifier légèrement : il prétend alors avoir enregistré la naissance de 212 garçons et 288 filles. Comme il s'agit de comparer les proportions de garçons et de filles et qu'il a en gros tout multiplié par 10, il annonce fièrement à son directeur qu'on trouve la même chose que précédemment. A-t-il raison ?
Voici les résutats d'une enquête régionale effectuée auprès de 110 familles de 4 enfants portant sur le nombre de filles dans une famille de 4 enfants :
Nombre de filles dans la famille 0 1 2 3 4 Nombre de familles avec ce nombre de filles 18 55 21 12 4 Quelle est la loi probabiliste sous-jacente au nombre de filles dans une famille de n enfants si la probabilité d'avoir une fille à la naissance est p ?
Ces résultats sont-ils conformes à ce qu'on pourrait en attendre sous hypothèse d'équiprobabilité du sexe à la naissance ? On détaillera les contributions au Chi-deux.
Les conclusions sont-elles modifiées si on admet le sex-ratio européen suivant : 106 garçons pour 100 filles ? Et avec le ratio chinois : 117 garçons pour 100 filles ?
On étudie deux caractères qualitatifs, à savoir le sexe (Femme/Homme) et la résistance (Oui/Non) à la tétracycline (antibiotique) sachant que le sexe peut être considéré comme équiprobable et que la résistance à la tétracycline est d'environ 5 % dans la population globale (valeur lue dans un magazine généraliste et sans doute erronée). Calculer, sous l'hypothèse d'indépendance des deux caractères, les effectifs théoriques attendus pour une population totale de 820 personnes.
On s'intéresse maintenant aux QL nommées SEXE et RESIST du fichier tetracyclin.dar dont les modalités sont : Homme (SEXE=1) et Femme (SEXE=2), Non (RESIST=0) et Oui (RESIST=1). Etudiez ces variables séparément (tris à plat et histogrammes de fréquences) puis conjointement (tri croisé, histogramme de fréquences accolées). Y a-t-il dépendance entre le sexe et la résistance à la tétracycline ?
Quelle est la différence entre un Chi-deux d'indépendance et un Chi-deux d'homogénéité ?
En 1954, Paul MEIER de l'Université de Chicago a effectué un célèbre essai clinique pour le vaccin Salk (contre la poliomélite) avec un groupe "traitement" et un groupe "placebo". En voici les résultats :
A eu la poliomélite Ne l'a pas eu Groupe traitement 33 200712 Groupe placebo 115 201114 Que peut-on en conclure ? On fournira, si besoin est, le détail du calcul des contributions au Chi-deux.
Il vaut mieux ne pas utiliser le fichier des données polio.dar car il contient 401 975 lignes (un peu plus de quatre cent mille lignes)...
Y a-t-il exactement le même nombre d'adénines, cytosines, guanines et thymines dans le gène X94991.1 ?
De nombreux tests non paramétriques de comparaison utilisent les données directement (au lieu de comparer les moyennes et les écarts-types comme dans les tests paramétriques) après avoir trié les données. Comment trie-on des vecteurs indépendants en R ? Comment trie-on des colonnes appariées en R ? On pourra utiliser les vecteurs suivants par copier/coller :
# données sans ex-aequo ech1 <- c(145, 130, 140, 135, 136, 138, 132, 125) ech2 <- c(127, 132, 133, 136, 139, 141, 145, 148) # données avec ex-aequo jour1 <- c(125, 130, 132, 132, 136, 138, 140, 145) jour2 <- c(127, 132, 133, 136, 139, 141, 145, 145)D'autres tests non paramétriques de comparaison utilisent les rangs des données au lieu des données, c'est-à-dire les ordres de classement (rang 1, rang2...). Comment calcule-t-on les rangs en R ? Comment fait-on pour les ex-aequo ? On pourra utiliser les vecteurs précédents.
Rappel : la page d'aide sur le Web pour les fonctions R de base est ici et la page d'aide sur le Web pour les fonctions R élémentaires en statistique est là mais bien sûr, cela ne vaut pas la commande R help.start().
On pose deux séries de questions différentes à 16 patients afin d'évaluer leur aptitudes cognitives. Le résultat de chaque patient est reproduit ici, sous forme d'un nombre entre 0 ("tout faux") et 100 ("tout bon"). Le fichier correspondant est nommé cognitif.dar.
Patient Série_1 Série_2 P01 78 78 P02 24 24 P03 64 62 P04 45 48 P05 64 68 P06 52 56 P07 30 25 P08 50 44 P09 64 56 P10 50 40 P11 78 68 P12 22 36 P13 84 68 P14 40 20 P15 90 58 P16 72 32Décrire les deux séries de données, séparément puis conjointement. Calculer ensuite les différences terme à terme Di (pour i de 1 à 16) puis multiplier le rang des valeurs absolues des Di non nuls par le signe de Di et enfin sommer ces valeurs. Combien obtient-on ? Quel statistique de test a-t-on calculé ainsi ? Comment finir ce test non paramétrique ?
Quels sont les tests non paramétriques usuels à utiliser à la place des tests paramétriques pour des QT ? Comme les utilise-t-on en R ?
Comparer les résultats des calculs dans les instructions R suivantes :
# lecture des données series <- lit.dar("http://forge.info.univ-angers.fr/~gh/wstat/Eda/cognitif.dar") attach(series) SERIE1 <- Série_1 SERIE2 <- Série_2 # calculs cor( SERIE1, SERIE2, method="pearson") cor( rank(SERIE1), rank(SERIE2)) cor( rank(SERIE1), rank(SERIE2), method="pearson") cor( SERIE1, SERIE2, method="spearman") # libération des données detach(series)Que peut-on en conclure sur la corrélation des rangs ?
Qu'est-ce que la spécificité ? et la sensibilité ? et une courbe ROC ? Comme fait-on ce genre de calcul en R ?
Retour à la page principale de (gH)