Valid XHTML     Valid CSS2    

Statistiques élémentaires avec le logiciel R

-- Session de formation continue pour l'université d'Angers --

Exercices du module 3

 

Table des matières cliquable

  1. Comptages ou pourcentages ? Avec ou sans valeur manquantes ?

  2. Calculs sur croisement de modalités

  3. Bien ordonner les résultats de tris à plat

  4. Variables qualitatives ordonnées

  5. Tris à plat et tris croisés

  6. Utilisation des fonctions (gH)

 

Il est possible d'afficher toutes les solutions via ?solutions=1 et de les masquer via ?solutions=0.

 

1. Comptages ou pourcentages ? Avec ou sans valeur manquantes ?

Pour analyser une QL, il est équivalent mathématiquement de fournir soit les comptages soit les pourcentages et l'effectif total. Concrètement, que doit-on afficher comme résultats ? Juste les comptages ? Juste les pourcentages ? Les deux ? Et faut-il tenir compte des valeurs manquantes quand on calcule les pourcentages ?

Solution :  

 

2. Calculs sur croisement de modalités

Réaliser un tri croisé, c'est juste compter les croisements des modalités de deux variables. Il arrive qu'on ait besoin d'aller plus loin dans les calculs, comme par exemple calculer la moyenne d'une troisième variable pour chaque croisement. Comment réalise-t-on cela avec R et Rcmdr ?

Application : calculer la moyenne de l'âge pour les croisements SEXE/ETUD dans le dossier ELF.

Solution :  

 

3. Bien ordonner les résultats de tris à plat

On dispose des résultats suivants de tris à plat obtenus via l'ordre historique des variables et des modalités.

NOM Mode Effectif Modalité Effectif Modalité Effectif
SEXE Femme 45.88888 % Homme 54.11111 %
SUD Oui 29.212121 % Non 71.787878 %
RACE Hispanique 5.27532 % Blanche 82.17123 % Autre 12.55345 %
SNDIAT Non membre 82.01876 % Membre 17.98123 %
SECTE Autre 77 % Manufact. 18.54 %
ST.MARITAL Oui 66 % Non 34.46 %
OCCPN Profess. 20.1234 % Religieux 18.2368 % Autre 29.6741 %

Réordonner les lignes et les colonnes afin de faciliter l'interprétation de ces comptages et pourcentages.

Solution :  

 

4. Variables qualitatives ordonnées

Qu'est-ce qu'une variable qualitative ordonnée ? La traite-on différement d'une variable qualitative «classique» ? Comment prévenir R qu'une variable qualitative est ordonnée ?

Application : traiter la variable ETUD du dossier ELF.

Solution :  

 

5. Tris à plat et tris croisés

Dans le cadre d'un mémoire sur la pré-validation du test ODETAB (Outil de DEpistage d'un Trouble Auditif dans le Bruit), les sujets étudiés sont répartis en sourds et non-sourds. Comment s'est effectuée cette séparation ? Le terme est-il bien choisi ? Voici un extrait des données (fichier odetabExtrait1.xls) :


     Individu Sourd Age PlainteOui PlainteNon
         P001   non  22          0          5
         P002   non  21          0          5
         P003   non  21          0          5
         P004   non  32          0          5
         P005   non  37          0          5
         P006   non  26          1          4
         P007   non  21          1          4
         P008   non  20          0          5
         P009   non  19          1          4
         P010   non  19          0          5
         P011   non  19          0          5
         P012   non  21          2          3
         P013   non  20          0          5
         P014   non  21          0          5
         P015   non  19          0          5
         P016   oui  65          3          2
         P017   oui  54          1          4
         P018   oui  74          2          3
         P019   oui  68          4          1
         P020   oui  78          4          1
         P021   oui  78          0          5
         P022   oui  58          3          2
         P023   oui  65          3          2
         P024   oui  71          1          4
         P025   oui  59          1          4
         P026   oui  53          3          2
         P027   oui  57          3          2
     

Construire une variable qualitative ordonnée nommée CLAG (CLasse d'AGe) pour ces données puis analyser les deux variables Sourd et CLAG. Que peut-on en conclure ?

Indication : pour choisir le nombre de classes et les bornes de classes d'age, on pourra utiliser les fonctions de R nommées stem() et dotchart() du package graphics qui permet de réaliser un diagramme en tiges et feuilles.

Solution :  

 

6. Utilisation des fonctions (gH)

Visiblement, analyser une variable QL oblige à effectuer quelques calculs et affichages systématiques, comme celui des effectifs et pourcentages par effectif décroissant, le tracé de l'histogramme des pourcentages avec un axe vertical qui va de 0 % à 100 %. Il faut utiliser plusieurs fonctions de R pour cela, notamment table(), sum(), round(), barplot()... N'y aurait-il pas moyen d'automatiser tout cela afin d'aller rapidement à l'essentiel ?

Solution :  

 

 

       retour au plan de cours  

 

 

retour gH    Retour à la page principale de   (gH)