Valid XHTML     Valid CSS2    

Module de Biostatistiques,

partie 2

Ecole Doctorale Biologie Santé

gilles.hunault "at" univ-angers.fr

      

Les dates de formation sont ici.

 

Enoncés pour la séance numéro 4  solutions 

  1. Que nomme-t-on cote d'un évènement binaire ? Comment la définit-on en fonction de la probabilité de l'évènement ?

    Qu'est-ce que le rapport de côtes ou odds ratio pour deux évènements binaires ? Ecrire les deux fonctions proba2cote(pr) et cote2proba(co).

  2. Que modélise-t-on en régression logistique ? Pourquoi parle-t-on de modèle linéaire généralisé ?

    Comment fait-on en R pour effectuer une régression logistique ?

    Quelles fonctions faut-il utiliser en R pour décrire et analyser un modèle de régression logistique ?

  3. Effectuer une régression logistique avec les données "naïves" nommées pg.dar si on veut modéliser la variable qualitative GROUPE (modalités 0 et 1) en fonction de la variable quantitative TAILLE exprimée en centimètres. Les données sont listées ci-dessous :

    
         ID   TAILLE  GROUPE
         A01  130       0
         A02  140       0
         C01  162       0
         C02  160       1
         A03  136       0
         C03  165       1
         A04  130       0
         A05  135       0
         A06  140       0
         A07  135       0
         C04  161       1
         A08  136       0
         C05  180       1
         C06  190       1
         A09  132       0
         A10  141       1
         C07  165       1
         C08  168       1
         C09  182       1
         C10  177       1
         C11  170       1
         C12  168       1
         C13  175       1
         C14  181       1
         C15  173       1
         C16  169       1
         C17  178       1
         C18  179       1
         C19  175       1
         C20  164       1
         
    

    Vous essaierez pour le modèle de la question précécente d'afficher les valeurs de la variable binaire avec deux couleurs différentes. Vous essaierez de prédire le groupe des individus dont la taille respective est 120 et 150 cm.

  4. En admettant qu'on utilise le seuil de séparation 0,5 afficher le groupe prédit pour chaque individu pour la régression précédente. Quel est alors le taux de bien-classés ?

    Reprendre avec 0,15 comme seuil de séparation et comparer les résultats. On affichera au passage les matrices de confusion.

  5. Réaliser la régression de la variable de cardiopathie coronarienne (CHD69) à l'aide de la seule variable AGE dans le dossier WCGS. Est-ce un bon modèle ?

    Quel est le rapport de côte pour une augmentation de l'age d'un an ? Et pour 10 ans ?

    Quelle est la probabilité d'avoir l'évènement pour une personne de 55 ans ?

    Données :   wcgs.dar ; on peut aussi installler le package epitools.

              chd69

  6. Comment fait-on pour visualiser la courbe du modèle d'une régression logistique ? Vous essaierez pour le modèle de la question précécente d'afficher les valeurs de la variable binaire avec deux couleurs différentes.

  7. Que sont la sensibilité et la spécificité ? Rappeler ce qu'est l'AUROC (nommée aussi AUC) et la calculer pour les données de l'exercice précédent. Que peut-on en conclure ?

    Quel seuil serait le plus adapté pour utiliser la RLB ? Donner la sensibilité et la spécificité associées.

  8. Peut-on réaliser la régression de la variable de cardiopathie coronarienne (CHD69) à l'aide de la variable binaire de gérontoxon (arcus senilis) dans le dossier WCGS ?

    Et à l'aide la variable classe d'age (agec) qui comporte 5 modalités ?

  9. On veut réaliser la régression de la variable de cardiopathie coronarienne (CHD69) à l'aide des 5 variables AGE, CHOL, SBP, BMI et SMOKE dans le dossier WCGS. Quelle est la meilleure régression logistique binaire si on n'utilise qu'une seule variable ?

    Si on ajoute aussi les variables ARCUS et DIBPAT , quel est le meilleur modèle qui utilise tout ou partie de ces 7 variables ?

    Quel est l'équivalent pour une régression logistique binaire multiple de la fonction step() de la régression linéaire multiple ? Quel est le meilleur sous-ensemble issu des 5 variables précédentes pour cette régression ?

 

 

retour gH    Retour à la page principale de   (gH)