Valid XHTML     Valid CSS2    

Introduction non élémentaire au logiciel R

    en 4 demi-journées

4. Calculs statistiques de base via R

                     gilles.hunault "at" univ-angers.fr

 

Attention : il y a un risque que cette page s'affiche lentement à cause des nombreux graphiques qu'elle contient.

 

Table des matières cliquable

  1. Rappels sur les indicateurs (moyenne, médiane...) et leur usage

  2. Utilisation de R, Rstudio, Rcmdr et rkward

  3. Calculs statistiques par série

  4. Tris à plat et tris croisés

  5. Exemples de régressions (linéaire, logistique...) et d'analyse de variance

  6. Exemples de tests statistiques

  7. Analyse de données : ACP, AFC et CAH

  8. Export de résultats en PDF avec Sweave

  9. Non présentation (!) du package stats

 

Il est possible d'afficher toutes les solutions via ?solutions=1.

 

1. Rappels sur les indicateurs (moyenne, médiane...) et leur usage

Pour calculer la moyenne d'une série de valeurs en R, on utilise la fonction mean() et pour en calculer la médiane, la fonction median(). Quelle est la différence statistique entre ces deux indicateurs-résumés ? Pourquoi calcule-t-on en général pour des humains la moyenne de la taille et la médiane des poids ? Pourquoi le minimum et le maximum ne sont-ils pas considérés comme des «bons» indicateurs statistiques ?

Comment faire s'il y a des valeurs NA dans les données ?

On pourra utiliser comme jeu d'essai le vecteur défini par v <- c(5,1:8,2,NA,30:50,5) avant d'effectuer ces calculs sur des données plus importantes comme la longueur en résidus (acides aminés) des protéines du dossier LEA.

Y a-t-il des représentations graphiques associées ?

Solution :  

 

2. Utilisation de R, Rstudio, Rcmdr et rkward

Réaliser les calculs et tracer les graphiques de l'exercice précédent avec les 4 interfaces R, Rstudio, Rcmdr et rkward pour les données longueur des protéines dans la LEAdb. Pour la lecture des données, on pourra charger lea.Rdata.

Qu'en déduisez-vous sur ces interfaces ?

Solution :  

 

3. Calculs statistiques par série

Comment calculer les moyennes des colonnes d'un data frame ? Et leurs médianes ?

Comment rajouter ces informations en bas du data frame ?

Comme données d'essai, on pourra utiliser les variables de prix par année dans le dossier LOGEMENT.

Comment calculer des moyennes par classe, par exemple des moyennes d'ages par sexe dans le dossier HER ?

Y a-t-il des représentations graphiques associées ?

Solution :  

 

4. Tris à plat et tris croisés

Qu'est-ce qu'un tri à plat ? Et un tri croisé ? Comment les calculer en R ?

Y a-t-il des représentations graphiques associées ?

Comment ajouter des marges à un tableau de comptages, à un tableau de fréquences ?

Comme données d'essai, on pourra utiliser les variables survie et classe du dossier TITANIC.

Solution :  

 

5. Exemples de régressions (linéaire, logistique...) et d'analyse de variance

Rappeler la différence entre régression linéaire et régression logistique, entre régression simple et régression multiple.

Modéliser par une relation linéaire la dépendance entre la variable consommation d'essence et la variable distance parcourue dans le jeu de données km.dar. Y a-t-il des représentations graphiques associées ? Pourquoi y a-t-il 4 graphiques produits avec plot(lm(modele)) alors qu'on pourrait en avoir 6 ?

plotlm

Faut-il envisager une relation de causalité ? Quelles sont les valeurs prédites par le modèle pour 100 et 250 km  ?

Peut-on prédire l'appartenance d'une personne au groupe à partir de sa taille, par exemple 166 cm, dans les données pg.dar ?

Peut-on prédire le sexe d'une personne à partir de son age, par exemple 50 ans, dans le dossier ELF ?

Comparer les ages entre les hommes et les femmes dans ce même dossier. On utilisera un seuil α de première espèce de 5 %.

Y a-t-il des représentations graphiques associées ?

Y a-t-il des rapports entre régression linéaire et analyse de la variance ?

Quelles sont les différences entre régression et corrélation ?

Solution :  

 

6. Exemples de tests statistiques

millot

Qu'est-ce qu'un test statistique ?

Quels sont les principaux tests disponibles sous R ?

Y a-t-il des représentations graphiques associées ?

Combien y a-t-il de pages dans l'ouvrage Comprendre et réaliser les tests statistiques à l'aide de R de G. MILLOT ?

Qu'est-ce qu'un test t ? Que peut-on déduire d'un calcul fait avec la fonction t.test() ?

Solution :  

 

7. Analyse de données : ACP, AFC et CAH

Qu'est-ce que l'Analyse des Donnéees au sens de JPB ?

benzécri,
     Jean-Paul Benzécri, octobre 2006, INA-PG
     (photo Guiseppe Giordano-Univ. Salerne)

Comment réalise-t-on une ACP, une AFC et une CAH avec R ?

Y a-t-il des représentations graphiques associées, des packages spécifiques, des ouvrages dédiés en R ?

Solution :  

 

8. Export de résultats en PDF avec Sweave

Comment produire rapidement un document PDF des résultats et graphiques ?

Que sont Markdown et Sweave ? et knitr ?

Solution :  

 

9. Non présentation (!) du package stats

Que contient le package stats ? Quelles en sont les fonctions les plus importantes ?

Solution :  

 

 

Code-source php de cette page ; code javascript utilisé. Retour à la page principale du cours.

 

 

retour gH    Retour à la page principale de   (gH)