Module de Biostatistiques,
partie 2
Ecole Doctorale Biologie Santé
gilles.hunault "at" univ-angers.fr
Les dates de formation sont ici.
Enoncés pour la séance numéro 4 solutions
Que nomme-t-on cote d'un évènement binaire ? Comment la définit-on en fonction de la probabilité de l'évènement ?
Qu'est-ce que le rapport de côtes ou odds ratio pour deux évènements binaires ? Ecrire les deux fonctions proba2cote(pr) et cote2proba(co).
Que modélise-t-on en régression logistique ? Pourquoi parle-t-on de modèle linéaire généralisé ?
Comment fait-on en R pour effectuer une régression logistique ?
Quelles fonctions faut-il utiliser en R pour décrire et analyser un modèle de régression logistique ?
Effectuer une régression logistique avec les données "naïves" nommées pg.dar si on veut modéliser la variable qualitative GROUPE (modalités 0 et 1) en fonction de la variable quantitative TAILLE exprimée en centimètres. Les données sont listées ci-dessous :
ID TAILLE GROUPE A01 130 0 A02 140 0 C01 162 0 C02 160 1 A03 136 0 C03 165 1 A04 130 0 A05 135 0 A06 140 0 A07 135 0 C04 161 1 A08 136 0 C05 180 1 C06 190 1 A09 132 0 A10 141 1 C07 165 1 C08 168 1 C09 182 1 C10 177 1 C11 170 1 C12 168 1 C13 175 1 C14 181 1 C15 173 1 C16 169 1 C17 178 1 C18 179 1 C19 175 1 C20 164 1Vous essaierez pour le modèle de la question précécente d'afficher les valeurs de la variable binaire avec deux couleurs différentes. Vous essaierez de prédire le groupe des individus dont la taille respective est 120 et 150 cm.
En admettant qu'on utilise le seuil de séparation 0,5 afficher le groupe prédit pour chaque individu pour la régression précédente. Quel est alors le taux de bien-classés ?
Reprendre avec 0,15 comme seuil de séparation et comparer les résultats. On affichera au passage les matrices de confusion.
Réaliser la régression de la variable de cardiopathie coronarienne (CHD69) à l'aide de la seule variable AGE dans le dossier WCGS. Est-ce un bon modèle ?
Quel est le rapport de côte pour une augmentation de l'age d'un an ? Et pour 10 ans ?
Quelle est la probabilité d'avoir l'évènement pour une personne de 55 ans ?
Données : wcgs.dar ; on peut aussi installler le package epitools.
Comment fait-on pour visualiser la courbe du modèle d'une régression logistique ? Vous essaierez pour le modèle de la question précécente d'afficher les valeurs de la variable binaire avec deux couleurs différentes.
Que sont la sensibilité et la spécificité ? Rappeler ce qu'est l'AUROC (nommée aussi AUC) et la calculer pour les données de l'exercice précédent. Que peut-on en conclure ?
Quel seuil serait le plus adapté pour utiliser la RLB ? Donner la sensibilité et la spécificité associées.
Peut-on réaliser la régression de la variable de cardiopathie coronarienne (CHD69) à l'aide de la variable binaire de gérontoxon (arcus senilis) dans le dossier WCGS ?
Et à l'aide la variable classe d'age (agec) qui comporte 5 modalités ?
On veut réaliser la régression de la variable de cardiopathie coronarienne (CHD69) à l'aide des 5 variables AGE, CHOL, SBP, BMI et SMOKE dans le dossier WCGS. Quelle est la meilleure régression logistique binaire si on n'utilise qu'une seule variable ?
Si on ajoute aussi les variables ARCUS et DIBPAT , quel est le meilleur modèle qui utilise tout ou partie de ces 7 variables ?
Quel est l'équivalent pour une régression logistique binaire multiple de la fonction step() de la régression linéaire multiple ? Quel est le meilleur sous-ensemble issu des 5 variables précédentes pour cette régression ?
Retour à la page principale de (gH)