Valid XHTML     Valid CSS2    

Cours CMI / M1 Statistiques - séance 2

 

Résumé de la séance 2

Dans cette séance, on introduit le vocabulaire classique de la régression et on explique comment on résoud mathématiquement le problème linéaire à l'aide d'un exemple simple. On y présente aussi tout ce qui est lié à la régression : le choix des régresseurs, l'analyse de la qualité de la régression... Des exemples sur données réelles complètent cette séance.

 

Liens utiles

Sur la notion de régression en général, on peut lire notre page EDA2 CRS1 et le document siab5 dont une copie est ici.

Comme premier exemple de régression linéaire simple, on utilisera EDA2 CRS2 et le document modStat_C1 dont une copie est ici.

Pour la régression linéaire multiple, on consultera la fin du document siab5 (à partir de la page 51), notre cours EDA2 CRS3, et le document modStat_C2 dont une copie est ici.

Exercices de régression linéaire simple

  1. Si ml est le résultat d'une régression linéaire simple, quelle est la différence entre les trois instructions ci-dessous :

    
         # remarque : ml est ici issu d'un calcul de régression linéaire,
         # comme par exemple ml <- lm( y ~ . , data=...)
         
         print(ml)
         
         print(anova(ml))
         
         print(summary(ml))
         
    
  2. Effectuer, par copier/coller à partir de EDA2 CRS2, tous les calculs et graphiques pour la modélisation linéaire essence en fonction de distance. Faire une fonction nommée reglin() qui permet d'automatiser les traitements usuels d'une régression linéaire.

  3. Essayer de modéliser linéairement Sepal.Length à l'aide la variable Sepal.Width pour les données iris. Est-ce un "bon" modèle  ? Est-ce graphiquement satisfaisant ?

  4. Essayer de modéliser linéairement Sepal.Length à l'aide la variable Petal.Width pour les données iris. Est-ce un "bon" modèle  ? Est-ce graphiquement satisfaisant ?

  5. Pour les données LEA, essayer de modéliser linéairement MW à l'aide la variable LENGTH. Est-ce un "bon" modèle  ? Y a-t-il causalité ? Est-ce graphiquement satisfaisant ? Peut-on fournir une explication biologique aux coefficients ? Ou était le piège ?

  6. Toujours pour ces données LEA, avec la modélisation linéaire de MW à l'aide la variable LENGTH, quels sont les points-levier les plus importants ? Et les points influents les plus importants ?

 Solutions 

Exercices de régression linéaire multiple

  1. Comment calculer et analyser la matrice des coefficients de corrélation linéaire pour les données iris ?

  2. Comment utiliser la fonction pairsi() de statgh.r au lieu de la simple fonction pairs() de R pour les données iris ?

  3. Ecrire une fonction nommée mrls() qui, étant donné un data.frame qui contient en colonne 1 une variable à expliquer et ensuite les variables explicatives, fournit un tableau résumé de toutes les régressions linéaires simples associées. Quel est le meilleur critère de tri pour les lignes du tableau ? Pour mettre au point la fonction, on utilisera les données chenilles de EDA2CR2 avec LN_NID comme cible car on en connait les résultats. On retirera la variable NIDS. On pourra consulter, si besoin est, la page Linear Regression with R.

  4. Quelle est la meilleure régression linéaire simple possible pour expliquer la variable PI parmi toutes les régressions linéaires simples possibles dans les données LEA ? On pourra utiliser la fonction mrls() de la question précédente. On commencera par ne retenir que les données "propres" pour les variables quantitatives.

    Effectuer ensuite une régression linéaire multiple de PI en fonction de toutes les variables. Que faut-il en conclure ?

    Les résultats sont-ils meilleurs si on se restreint aux protéines dont la longueur est inférieure à 900 acides aminés ?

  5. Quelle est la meilleure régression linéaire multiple pour expliquer la variable MW parmi toutes les régressions linéaires simples possibles dans les données LEA ?

    Comment tester si le modèle qui utilise pi length foldindex gravy est significativement meilleur que celui qui utilise length foldindex gravy seulement ?

 Solutions 

 

Cliquer  ici  pour revenir à la page de départ des cours CMI / M1 Statistiques.

 

 

retour gH    Retour à la page principale de   (gH)