Valid XHTML     Valid CSS2    

Module de Biostatistiques,

partie 2

Ecole Doctorale Biologie Santé

gilles.hunault "at" univ-angers.fr

      

Les dates de formation sont ici.

 

Enoncés pour la séance numéro 3  solutions 

  1. Effectuez "sans précaution" une régression linéaire multiple RLM de la variable LN_NID en fonction de toutes les autres variables sauf NIDS dans le dossier CHENILLES. Qu'obtient-on ?

    Peut-on prévoir le signe de chaque coefficient de régression ?

              chenille 1

    Tracer les valeurs obtenues par cette régression en fonction des valeurs initiales.

    Pourquoi utiliser LN_NID plutôt que NIDS ?

  2. Effectuez une première RLM de LN_NID en fonction de ALT, PENTE, HAUT et DIAM, puis une seconde en utilisant seulement ALT, PENTE et HAUT, puis une troisième avec ALT, PENTE et DIAM dans le dossier CHENILLES.

    Tracer sur un même graphique mais avec des couleurs différentes les valeurs obtenues par ces régressions en fonction des valeurs initiales.

    Y a-t-il une différence au niveau du signe des coefficients calculés ?

    Quel est le meilleur de ces trois modèles ? Faut-il distinguer le meilleur modèle prédictif du meilleur modèle explicatif ?

    Comment produire sans boucle un "beau" tableau de comparaisons des 3 modèles ?

    Que peut-on en conclure sur l'influence de la colinéarité des variables dans une RLM ?

              chenille 2

  3. On modélise linéairement Z en fonction de X et Y. On trouve Z = 3*X + 2*Y + 5. Réécrire cette relation sous la forme Z = 4*X +γY + δ si on admet que X et Y sont liés par Y = X + 1. Que faut-il en conclure sur la colinéarité des variables en RLM ?

    Reprendre avec Z = -4*X - 2*Y + 3 et Y = 5 - 7*X

    On modélise linéairement Z en fonction de U, V et W. On trouve Z = 3*U +4*V + 2*W + 5. Réécrire cette relation sous la forme Z = U + V + 3*W + δ si on admet que U, V et W sont liés par W = 2*U + 3*V. Que faut-il en conclure sur la mutlicolinéarité des variables en RLM ?

    Comment fait-on pour traiter ce problème de multicolinéarité ?

  4. Avec n variables prédicteurs, combien de modèles linéaires sont possibles avec un sous-ensemble de p variables (p de 0 à n) ? Cela fait combien pour le dossier chenilles avec 10 variables prédicteurs ?

  5. Essayer de réaliser une "vraie" régression linéaire multiple de la variable NIDS en fonction de toutes les autres variables sauf LN_NID dans le dossier CHENILLES.

    On commencera donc par analyser et décrire les variables, puis par les transformer éventuellement.

    Quelle serait la meilleure régression linéaire multiple si on peut supprimer des variables ? Et si on peut transformer des variables ?

    Remarque : on pourra utiliser la fonction step() du package stats.

    Qu'indique l'analyse des résidus ? On fournira les 6 tracés usuels.

  6. Effectuer une RLM de glucose en fonction de exercice, age, drinkany et BMI pour les personnes sans diabète puis pour les personnes avec diabète dans les données hersdata.xls de l'ouvrage Regression Methods in Biostatistics.

    Reprendre avec l'ensemble des personnes, qu'elles aient du diabète ou non. Qu'est-ce que cela change ?

  7. Effectuer une RLM de glucose en fonction de toutes les autres variables pour les personnes sans diabète dans les données hersdata.xls de l'ouvrage Regression Methods in Biostatistics.

 

 

retour gH    Retour à la page principale de   (gH)