Valid XHTML     Valid CSS2    

Logiciel R, séances de perfectionnement

    en 4 demi-journées

Séance 3 : Modélisation (régression linéaire, logistique, simple, multiple)

                     gilles.hunault "at" univ-angers.fr

 

Table des matières cliquable

  1. Notion de régression (simple, multiple, linéaire, logistique)

  2. Régression linéaire simple

  3. Régression linéaire multiple

  4. Régression logistique simple

  5. Régression logistique multiple

 

Il est possible d'afficher toutes les solutions via ?solutions=1 et de toutes les masquer avec via ?solutions=0.

 

1. Notion de régression (simple, multiple, linéaire, logistique)

Comment effectue-t-on une régression en R ? Quelles sont les principales fonctions génériques ?

Solution :  

 

2. Régression linéaire simple

Après avoir vu la documentation de la fonction lm() du package stats essayer de réaliser la modélisation par une relation linéaire la dépendance entre la variable consommation d'essence et la variable distance parcourue dans le jeu de données km.dar (sans transformation des données).

Dans quel ordre doit-on lire les résultats  ? Faut-il regarder en premier le R2, la p-value de F, les coefficients ?

Y a-t-il des représentations graphiques associées ? Pourquoi y a-t-il 4 graphiques produits avec plot(lm(modele)) alors qu'on pourrait en avoir 6 ? Comment obtenir les 6 tracés ? A quoi correspondent-ils ?

Faut-il envisager une relation de causalité ? Quelles sont les valeurs prédites par le modèle pour 100 et 250 km ? Quelle est l'augmentation de la consommation si la distance augmente de 1 km ?

Solution :  

 

3. Régression linéaire multiple

Effectuez une première RLM (Régression Linéaire Multiple de LN_NID en fonction de ALT, PENTE, HAUT et DIAM, puis une seconde en utilisant seulement ALT, PENTE et HAUT, puis une troisième avec ALT, PENTE et DIAM dans le dossier CHENILLES.

Y a-t-il une différence au niveau du signe des coefficients calculés ?

Quel est le meilleur de ces trois modèles ? Faut-il distinguer le meilleur modèle prédictif du meilleur modèle explicatif ?

Que peut-on en conclure sur l'influence de la colinéarité des variables dans une RLM ?

Comment demander à R de calculer le meilleur modèle pour LN_NID à partir des quatre variables ALT, PENTE, HAUT et DIAM ?

Solution :  

 

4. Régression logistique simple

Réaliser la régression de la variable binaire de cardiopathie coronarienne (CHD69) à l'aide de la seule variable AGE dans le dossier WCGS.

Quel est le rapport de côte pour une augmentation de l'age d'un an ? Et pour 10 ans ?

Quelle est la probabilité d'avoir l'évènement pour une personne de 55 ans ?

Données :   wcgs.dar.

Solution :  

 

5. Régression logistique multiple

Réalisez la régression de la variable de cardiopathie coronarienne (CHD69) à l'aide des 5 variables age, chol, sbp, bmi et smoke dans le dossier WCGS.

Quel est le meilleur modèle ?

Solution :  

 

 

Code-source php de cette page. Retour à la page principale du cours.

 

 

retour gH    Retour à la page principale de   (gH)