Valid XHTML     Valid CSS2    

Introduction non élémentaire au logiciel R

    en 4 demi-journées

2. Manipulations élémentaires de données avec R

                     gilles.hunault "at" univ-angers.fr

 

Table des matières cliquable

  1. Répertoires, scripts et fonctions (gH)

  2. Lecture de fichiers textes, bureautique et gestion des accents

  3. Listes en R

  4. Variables quantitatives et qualitatives

  5. Récupération de tableaux HTML

  6. Regroupement et fusion de données

  7. Indiçage, filtrage et sélection de données

  8. Conversion de structures de données en R

  9. Gestion des données manquantes

10. Export de données en HTML et LaTeX

11. R et SQL

12. Non présentation (!) des packages base, gdata, tools, foreign et utils

 

Il est possible d'afficher toutes les solutions via ?solutions=1.

 

1. Répertoires, scripts et fonctions (gH)

Comment dire à R qu'on veut changer de répertoire ? Et connaitre le répertoire en cours ? Qu'est-ce qu'un script ? Faut-il programmer pour écrire un script ? A quoi servent les fonctions source() et sink() ? Comment charger les fonctions (gH)  ?

Solution :  

 

2. Lecture de fichiers textes, bureautique et gestion des accents

Comment lire un fichier-texte de valeurs numériques comme elf.txt avec R ? Et un fichier Excel comme elf.xls ou elf.xlsx ? Et un fichier Open Office Calc comme elf.ods ? Et un fichier avec des valeurs caractères comme elf2.txt ? Et un fichier CSV ou un fichier délimité avec des points-virgules ?

R sait-il lire des fichiers avec des accents Windows ? des accents ISO, UTF  ?

Comment lire du texte "brut" ?

Questions spécialisées :

«Mes données ont parfois des lignes vides et des commentaires, comme ci-dessous (fichier dataspec.txt) :


     -- ##  Entete standard (5 lignes)
     -- ##  Projet
     -- ##  Date
     -- ##  Auteur
     -- ##  Version
     
     # data manip 1
     
       A35 617 552 1
       A37 417 652 1
     
       # sous-série 1A
     
       A38 410 565 1A
       A39 390 700 1A
       A40 500 540 1A
     
       # sous-série 1B
     
       A60 500 540 1B
       A61 480 408 1B
     
     # data manip 2
     
       A92 480 408 2
       A93 480 408 2
       A94 480 408 2
       A95 480 408 2
       A96 480 408 2
       A97 480 408 2
       A98 480 408 2
       A99 480 408 2
     
     

Comment les lire avec R ?»

«Moi, j'utilise souvent des données issues du site web PLACE et mes données ressemblent à


     Web Signal Scan Program
     
     Database Searched: PLACE
     
     This is the sequence you submitted
     >nc|dna|Medtr4g055610_upstream parent=4 chrom=4 range=17080451-17081950 length=1500 strand=1  sp=Medicago_truncatula, 1500 bases, A9ED66C3 checksum.
     AAACAAAATAAATTTACAGTCAGCGTGCCACATTAGCGAAAATGCGCATT
     CAGATGACCTATGGGGTATTTTGAAACAATTTTCTTTTACAAGAACCGAA
     TTGAATTTTTTTTATAGGAGGCAAACCAGGAAAAAAACTATATATTATAG
     GAGGG...
     
     RESULTS OF YOUR SIGNAL SCAN SEARCH REQUEST
     
     ../../tmp/sigscan//signaldone.10566: 1500 base pairs
     Signal Database File: user.dat
     
          Factor or Site Name          Loc.(Str.)       Signal Sequence             SITE #
     _____________________________________________________________________________________
     -300ELEMENT               site     84 (-) TGHAAARK                             S000122
     2SSEEDPROTBANAPA          site   1149 (+) CAAACAC                              S000143
     2SSEEDPROTBANAPA          site    589 (-) CAAACAC                              S000143
     ...
     WRKY71OS                  site     55 (+) TGAC                                 S000447
     WRKY71OS                  site    201 (+) TGAC                                 S000447
     WRKY71OS                  site    835 (+) TGAC                                 S000447
     WRKY71OS                  site   1075 (+) TGAC                                 S000447
     WRKY71OS                  site   1206 (+) TGAC                                 S000447
     WRKY71OS                  site   1437 (+) TGAC                                 S000447
     WRKY71OS                  site     19 (-) TGAC                                 S000447
     WRKY71OS                  site    287 (-) TGAC                                 S000447
     WRKY71OS                  site    322 (-) TGAC                                 S000447
     WRKY71OS                  site    814 (-) TGAC                                 S000447
     WRKY71OS                  site    987 (-) TGAC                                 S000447
     WRKY71OS                  site   1003 (-) TGAC                                 S000447
     WRKY71OS                  site   1040 (-) TGAC                                 S000447
     WRKY71OS                  site   1058 (-) TGAC                                 S000447
     WRKY71OS                  site   1319 (-) TGAC                                 S000447
     
     
     
     -------------------------------------------
     
     o If you use this program in published research, please cite:
       - Higo, K., Y. Ugawa, M. Iwamoto and T. Korenaga (1999) Plant cis-acting
         regulatory DNA elements (PLACE) database:1999. Nucleic Acids Research
         Vol.27 No.1 pp. 297-300.
       - Prestridge, D.S. (1991) SIGNAL SCAN: A computer program that scans DNA
         sequences for eukaryotic transcriptional elements. CABIOS 7, 203-206.
     

Comment récupérer juste les indications de comptage et de localisation de site ?»

Solution :  

 

3. Listes en R

Quelle est la différence entre une liste et un vecteur ? Comment utilise-t-on les listes en R  ?

Solution :  

 

4. Variables quantitatives et qualitatives

Comment R gère-t-il les variables qualitatives et quantitatives ? Qu'obtient-on quand on lit des données dans un fichier, du quantitatif ou du qualitatif ?

Solution :  

 

5. Récupération de tableaux HTML

Si on lit la page du wiki anglais sur les acides aminés, soit [...]wiki/Amino_acid les tableaux 2 (classification) et 4 (propriétés) semblent très intéressants. Comment récupérer leur contenu dans un data frame ?

Reprendre avec le tableau 4 (propriétés) de la page correspondante du wiki français.

Solution :  

 

6. Regroupement et fusion de données

On veut fusionner horizontalement (dans le sens des lignes) les fichiers datah1.txt et datah2.txt. Quel code R faut-il écrire ? Et si on veut fusionner verticalement (dans le sens des colonnes) les fichiers datav1.txt et datav2.txt ?

Plus généralement, comment fusionner des données selon une colonne commune, par exemple pour partie1.txt et partie2.txt  ?

Solution :  

 

7. Indiçage, filtrage et sélection de données

Comment obtenir la valeur du n-ième élément d'une structure ? le maximum ? que les valeurs positives ?

Solution :  

 

8. Conversion de structures de données en R

Quelles sont les différentes structures de données en R et comment passe-t-on des unes aux autres ?

Solution :  

 

9. Gestion des données manquantes

Il arrive quand on importe des données, qu'il ait des "trous", ce qui aboutit à des données manquantes. Comment fait-on pour les gérer en R ?

Y a-t-il un impact sur les calculs ?

Solution :  

 

10. Export de données en HTML et LaTeX

Comment faire pour exporter un data frame dans un fichier-texte  ? Et dans un fichier Excel (Open Office Calc) ? Et au format LaTeX ?

Et dans une page Web ? Et au format Word (Open Office Write) ?

Et si ce n'est pas un data frame mais juste une liste de calculs, ou un vecteur ?

Solution :  

 

11. R et SQL

Peut-on et faut-il interfacer R et SQL ?

Solution :  

 

12. Non présentation (!) des packages base, gdata, tools, foreign et utils

Que contiennent les packages base, gdata, tools et utils ?

Quelles en sont les fonctions les plus importantes ? Quels jeux de données sont fournis par ces packages ?

Solution :  

 

 

Code-source php de cette page ; code javascript utilisé. Retour à la page principale du cours.

 

 

retour gH    Retour à la page principale de   (gH)