Statistiques pour l'Ecole Doctorale

Module de Biostatistiques,

partie 1

Ecole Doctorale Biologie Santé

gilles.hunault "at" univ-angers.fr

Enoncés pour la séance numéro 4 (solutions)
Quelle la différence entre la densité et la répartition d'une loi probabiliste discrète ?

Comment traduit-on ces termes en anglais ?

Comment obtient-on ces fonctions sous R pour la loi binomiale ? Comment utiliser runif ?

Que fait la fonction suivante, nommée approx ? Comment l'utilise-t-on ?
          
     ############################################     
          
     approx <- function(n,p,lx="") {     
          
     ############################################     
          
     xb  <- 0:n     
     vb  <- dbinom(xb,n,p) # valeurs de la loi binomiale     
          
     if (missing(lx)) {     
       lx <- c(0,n)     
     } ; # fin si     
          
     titre <- paste("Approximations n=",n," et p=",p,sep="")     
     plot(xb,vb,col="red",main=titre,xlim=lx)     
          
     m <- n*p     
     s <- sqrt(m*(1-p))     
          
     lambda <- m     
          
     xp <- 0:(3*n)     
     vp <- dpois(xp,lambda)     
          
     points(xp,vp,col="blue")     
          
     nbp <- 100     
     xn  <- ((0:(2*nbp*n)) -nbp*n)/nbp     
     vn  <- dnorm(xn,mean=m,sd=s)     
          
     points(xn,vn,col="black",pch=".")     
          
     } # fin de fonction approx     
          
          
Qu'est-ce que l'équiprobabilité ? Quelle est la loi probabiliste discrète sous-jacente ? Comment calcule-t-on les probabilités théoriques et les fréquences théoriques attendues sous hypothèse d'équiprobabilité ?

En admettant que les toxicités de grade I, II et III pour le traitement du cancer colorectal sont équiprobables au premier cycle en cas d'utilisation du 5-fluorouracile, combien doit-on obtenir de toxicités de grade I, II et III pour 670 patients au premier cycle de cure ? Que manque-t-il à cet exercice pour être réaliste ?

Quelles sont les lois probabilistes discrètes autres que la loi binomiale et la loi uniforme ? Vers quoi convergent-elles ?

Quelles sont les lois probabilistes continues autres que la loi normale ? Quelles sont leurs rapports avec la loi normale ?

Un interne en médecine décide de tester l'équiprobabilité des sexes à la naissance. Pour cela, il consigne par écrit le sexe des enfants nés pour les 50 premières naissances de la semaine à la maternité où il effectue ses gardes. Il obtient 21 garçons et 29 filles. Que peut-il en conclure ?

Son directeur de thèse estime que 50 enfants n'est pas un nombre suffisant et lui demande de de consigner les naissances jusqu'à un total de 500 naissances. Pour éviter de retourner à la maternité, notre (mauvais) étudiant décide de multiplier les résultats précédents par 10 et de les modifier légèrement : il prétend alors avoir enregistré la naissance de 212 garçons et 288 filles. Comme il s'agit de comparer les proportions de garçons et de filles et qu'il a en gros tout multiplié par 10, il annonce fièrement à son directeur qu'on trouve la même chose que précédemment. A-t-il raison ?

Voici les résutats d'une enquête régionale effectuée auprès de 110 familles de 4 enfants portant sur le nombre de filles dans une famille de 4 enfants :

Nombre de filles dans la famille 0 1 2 3 4

Nombre de familles avec ce nombre de filles 18 55 21 12 4

Quelle est la loi probabiliste sous-jacente au nombre de filles dans une famille de n enfants si la probabilité d'avoir une fille à la naissance est p ?

Ces résultats sont-ils conformes à ce qu'on pourrait en attendre sous hypothèse d'équiprobabilité du sexe à la naissance ? On détaillera les contributions au Chi-deux.

Les conclusions sont-elles modifiées si on admet le sex-ratio européen suivant : 106 garçons pour 100 filles ? Et avec le ratio chinois : 117 garçons pour 100 filles ?

On étudie deux caractères qualitatifs, à savoir le sexe (Femme/Homme) et la résistance (Oui/Non) à la tétracycline (antibiotique) sachant que le sexe peut être considéré comme équiprobable et que la résistance à la tétracycline est d'environ 5 % dans la population globale (valeur lue dans un magazine généraliste et sans doute erronée). Calculer, sous l'hypothèse d'indépendance des deux caractères, les effectifs théoriques attendus pour une population totale de 820 personnes.

On s'intéresse maintenant aux QL nommées SEXE et RESIST du fichier tetracyclin.dar dont les modalités sont : Homme (SEXE=1) et Femme (SEXE=2), Non (RESIST=0) et Oui (RESIST=1). Etudiez ces variables séparément (tris à plat et histogrammes de fréquences) puis conjointement (tri croisé, histogramme de fréquences accolées). Y a-t-il dépendance entre le sexe et la résistance à la tétracycline ?

Quelle est la différence entre un Chi-deux d'indépendance et un Chi-deux d'homogénéité ?

En 1954, Paul MEIER de l'Université de Chicago a effectué un célèbre essai clinique pour le vaccin Salk (contre la poliomélite) avec un groupe "traitement" et un groupe "placebo". En voici les résultats :

A eu la poliomélite Ne l'a pas eu

Groupe traitement 33 200712

Groupe placebo 115 201114

Que peut-on en conclure ? On fournira, si besoin est, le détail du calcul des contributions au Chi-deux.

Il vaut mieux ne pas utiliser le fichier des données polio.dar car il contient 401 975 lignes (un peu plus de quatre cent mille lignes)...

Y a-t-il exactement le même nombre d'adénines, cytosines, guanines et thymines dans le gène X94991.1 ?
De nombreux tests non paramétriques de comparaison utilisent les données directement (au lieu de comparer les moyennes et les écarts-types comme dans les tests paramétriques) après avoir trié les données. Comment trie-on des vecteurs indépendants en R ? Comment trie-on des colonnes appariées en R ? On pourra utiliser les vecteurs suivants par copier/coller :
          
     #  données sans ex-aequo     
          
     ech1 <- c(145, 130, 140, 135, 136, 138, 132, 125)     
     ech2 <- c(127, 132, 133, 136, 139, 141, 145, 148)     
          
     #  données avec ex-aequo     
          
     jour1 <- c(125, 130, 132, 132, 136, 138, 140, 145)     
     jour2 <- c(127, 132, 133, 136, 139, 141, 145, 145)     
          
          
          
D'autres tests non paramétriques de comparaison utilisent les rangs des données au lieu des données, c'est-à-dire les ordres de classement (rang 1, rang2...). Comment calcule-t-on les rangs en R ? Comment fait-on pour les ex-aequo ? On pourra utiliser les vecteurs précédents.

Rappel : la page d'aide sur le Web pour les fonctions R de base est ici et la page d'aide sur le Web pour les fonctions R élémentaires en statistique est là mais bien sûr, cela ne vaut pas la commande R help.start().
On pose deux séries de questions différentes à 16 patients afin d'évaluer leur aptitudes cognitives. Le résultat de chaque patient est reproduit ici, sous forme d'un nombre entre 0 ("tout faux") et 100 ("tout bon"). Le fichier correspondant est nommé cognitif.dar.
          
     Patient Série_1 Série_2     
     P01         78    78     
     P02         24    24     
     P03         64    62     
     P04         45    48     
     P05         64    68     
     P06         52    56     
     P07         30    25     
     P08         50    44     
     P09         64    56     
     P10         50    40     
     P11         78    68     
     P12         22    36     
     P13         84    68     
     P14         40    20     
     P15         90    58     
     P16         72    32     
          
          
          
Décrire les deux séries de données, séparément puis conjointement. Calculer ensuite les différences terme à terme Di (pour i de 1 à 16) puis multiplier le rang des valeurs absolues des Di non nuls par le signe de Di et enfin sommer ces valeurs. Combien obtient-on ? Quel statistique de test a-t-on calculé ainsi ? Comment finir ce test non paramétrique ?
Quels sont les tests non paramétriques usuels à utiliser à la place des tests paramétriques pour des QT ? Comme les utilise-t-on en R ?
Comparer les résultats des calculs dans les instructions R suivantes :
          
      # lecture des données     
          
         series <- lit.dar("http://forge.info.univ-angers.fr/~gh/wstat/Eda/cognitif.dar")     
         attach(series)     
          
         SERIE1 <- Série_1     
         SERIE2 <- Série_2     
          
      # calculs     
          
         cor( SERIE1, SERIE2, method="pearson")     
         cor( rank(SERIE1), rank(SERIE2))     
         cor( rank(SERIE1), rank(SERIE2), method="pearson")     
         cor( SERIE1, SERIE2, method="spearman")     
          
      # libération des données     
          
         detach(series)     
          
          
          
Que peut-on en conclure sur la corrélation des rangs ?
Qu'est-ce que la spécificité ? et la sensibilité ? et une courbe ROC ? Comme fait-on ce genre de calcul en R ?
Solutions de la séance Retour à la page principale du cours
Retour à la page principale de (gH)