Valid XHTML     Valid CSS2    

Module de Biostatistiques,

partie 2

Ecole Doctorale Biologie Santé

gilles.hunault "at" univ-angers.fr

      

Les dates de formation sont ici.

 

Enoncés pour la séance numéro 2  solutions 

  1. Après avoir vu la documentation de la fonction lm() du package stats essayer de réaliser la modélisation par une relation linéaire la dépendance entre la variable consommation d'essence et la variable distance parcourue dans le jeu de données km.dar (sans transformation des données).

    Dans quel ordre doit-on lire les résultats  ? Faut-il regarder en premier le R2, la p-value de F, les coefficients ?

    Y a-t-il des représentations graphiques associées ? Pourquoi y a-t-il 4 graphiques produits avec plot(lm(modele)) alors qu'on pourrait en avoir 6 ? Comment obtenir les 6 tracés ? A quoi correspondent-ils ?

    Faut-il envisager une relation de causalité ? Quelles sont les valeurs prédites par le modèle pour 100 et 250 km ? Quelle est l'augmentation de la consommation si la distance augmente de 1 km ?

              xm 1          xm 2

  2. Qu'est-ce qu'un outlier ? Y en a-t-il dans le jeu de données km.dar ? Si oui, que faut-il en faire ? Qu'est-ce que cela change pour la régression ?

    Faut-il transformer les variables ? Si oui, quelles transformations utiliser ? Qu'est-ce que cela change pour la régression ?

    Les conditions d'application des calculs d'une régression sont-elles respectées ?

    Quel serait le modèle si on enlevait le point trajet6 (50,12) ?

  3. Effectuer maintenant une régression linéaire simple de SBP en fonction de age dans les données hersdata.xls de l'ouvrage Regression Methods in Biostatistics. On essaiera d'être exhaustif. En particulier, on discutera de la qualité de la régression, on tracera les intervalles de confiance associés.

    Obtient-on de meilleurs résultats si on se restreint aux moyennes de SBP par décile d'AGE ?

    Références pour HERS :

    design, methods, and baseline characteristics of the HERS study

    the HERS Trial Results: Paradigms Lost?

  4. Essayer de régresser la variable AGE en fonction de la variable MYST pour les données noml.dar reproduites ci-dessous. Où est le problème ?

    
         iden age   myst
         p1   18    10
         p2   19    20
         p3   20    30
         p4   18    40
         p5   19    50
         p6   20    60
         p7   18    70
         p8   19    80
         p9   20    90
         
    
  5. Comment calcule-t-on les coefficients a et b du modèle linéaire Y = a * X + b ? Quelle conséquence cela a-t-il pour le point M(moyenne de X, moyenne de Y) ? Quelles conséquences cela a-t-il sur le modèle de régression linéaire simple ?

  6. Voici les «célèbres données d'Anscombe» (fichier anscombe.dar) :

    
         ID     X      Y1       Y2       Y3    X4       Y4
          a     4     4.26     3.10     5.39   19       12.50
          b     5     5.68     4.74     5.73    8        6.89
          c     6     7.24     6.13     6.08    8        5.25
          d     7     4.82     7.26     6.42    8        7.91
          e     8     6.95     8.14     6.77    8        5.76
          f     9     8.81     8.77     7.11    8        8.84
          g    10     8.04     9.14     7.46    8        6.58
          h    11     8.33     9.26     7.81    8        8.47
          i    12     10.84    9.13     8.15    8        5.56
          j    13     7.58     8.74    12.74    8        7.71
          k    14     9.96     8.10     8.84    8        7.04
         
    

    Analyser les liaisons linéaires de Y1, Y2, Y3 en fonction de X et de Y4 en fonction de X4.

    Que nous apprennent ces données d'Anscombe sur les calculs et les graphiques en régression linéaire simple ?

              anscombe 1          anscombe 2

  7. Quelles sont les limites de prédiction d'une régression linéaire simple ? Peut-on «extrapoler», «généraliser» ?

    Quelle serait la consommation en essence pour 1 000 km, 3 000 km pour le modèle linéaire de l'exercice 1 ?

  8. On veut modéliser par une régression linéaire simple la variable NIDS dans le dossier chenilles. Quelle est la meilleure régression si on utilise les 10 premières variables, de ALT à MELAN ?

    On pourra commencer par écrire une fonction pour extraire le critère de qualité de la régression.

 

 

retour gH    Retour à la page principale de   (gH)