Valid XHTML     Valid CSS2    

PROGRAMMATION R AVANCEE :

EXERCICES LONGS

 

Les exercices proposés ici demandent nettement plus de réflexion et d'investissement que les petits exercices présentés précédemment. L'exécution des scripts R correspondant dure parfois plusieurs minutes. Il sera donc indispensable de prévoir des paramétrages des fonctions pour tester des petits jeux d'essais, voire d'effectuer un "profilage" des temps passés dans chaque fonction afin d'obtenir un script réutilisable et "assez rapide".

Il s'agit bien sûr de données réelles traitées avec des collègues ou des doctorant(e)s.

 

Table des matières cliquable

  1. Comptages de sites en génomique

  2. Production automatique de graphiques en protéinique

 

Il est possible d'afficher toutes les solutions via ?solutions=1.

 

1. Comptages de sites en génomique

Une bioinformaticienne vient d'utiliser le site PLACE. Elle se retrouve avec une quatre-vingtaine de fichiers dans le dossier de longévité et un peu plus de mille six cent fichiers dans le répertoire de réseau. On trouvera ces fichiers dans l'archive exercicePLACE.zip (8 Mo en compressés, 60 Mo décompressés). Il faudrait produire un fichier de comptage de chaque site précédé de la lettre L pour longévité et de la lettre N pour réseau (network) sachant que tous les sites indiqués dans les fichiers ne sont pas tous présents de la même façon.

On trouvera dans placexmp_long.txt un exemple de fichier à traiter (le fichier 20.txt), dont voici une présentation simplifiée :


     Web Signal Scan Program
     
     Database Searched: PLACE
     
     This is the sequence you submitted
     >nc|dna|Medtr4g055610_upstream parent=4 chrom=4 range=17080451-17081950 length=1500 strand=1  sp=Medicago_truncatula, 1500 bases, A9ED66C3 checksum.
     AAACAAAATAAATTTACAGTCAGCGTGCCACATTAGCGAAAATGCGCATT
     CAGATGACCTATGGGGTATTTTGAAACAATTTTCTTTTACAAGAACCGAA
     TTGAATTTTTTTTATAGGAGGCAAACCAGGAAAAAAACTATATATTATAG
     GAGGG...
     
     RESULTS OF YOUR SIGNAL SCAN SEARCH REQUEST
     
     ../../tmp/sigscan//signaldone.10566: 1500 base pairs
     Signal Database File: user.dat
     
          Factor or Site Name          Loc.(Str.)       Signal Sequence             SITE #
     _____________________________________________________________________________________
     -300ELEMENT               site     84 (-) TGHAAARK                             S000122
     2SSEEDPROTBANAPA          site   1149 (+) CAAACAC                              S000143
     2SSEEDPROTBANAPA          site    589 (-) CAAACAC                              S000143
     ...
     WRKY71OS                  site     55 (+) TGAC                                 S000447
     WRKY71OS                  site    201 (+) TGAC                                 S000447
     WRKY71OS                  site    835 (+) TGAC                                 S000447
     WRKY71OS                  site   1075 (+) TGAC                                 S000447
     WRKY71OS                  site   1206 (+) TGAC                                 S000447
     WRKY71OS                  site   1437 (+) TGAC                                 S000447
     WRKY71OS                  site     19 (-) TGAC                                 S000447
     WRKY71OS                  site    287 (-) TGAC                                 S000447
     WRKY71OS                  site    322 (-) TGAC                                 S000447
     WRKY71OS                  site    814 (-) TGAC                                 S000447
     WRKY71OS                  site    987 (-) TGAC                                 S000447
     WRKY71OS                  site   1003 (-) TGAC                                 S000447
     WRKY71OS                  site   1040 (-) TGAC                                 S000447
     WRKY71OS                  site   1058 (-) TGAC                                 S000447
     WRKY71OS                  site   1319 (-) TGAC                                 S000447
     
     
     
     -------------------------------------------
     
     o If you use this program in published research, please cite:
       - Higo, K., Y. Ugawa, M. Iwamoto and T. Korenaga (1999) Plant cis-acting
         regulatory DNA elements (PLACE) database:1999. Nucleic Acids Research
         Vol.27 No.1 pp. 297-300.
       - Prestridge, D.S. (1991) SIGNAL SCAN: A computer program that scans DNA
         sequences for eukaryotic transcriptional elements. CABIOS 7, 203-206.
     

On doit ici comptabiliser 1 occurence de -300ELEMENT, 2 occurences de 2SSEEDPROTBANAPA et 15 occurences de WRKY71OS.

On trouvera dans exoLong01.csv (1,2 Mo) le résultat à obtenir... soit 1708 lignes et 344 colonnes.

Avec un peu de patience, votre navigateur en affichera la version texte. En voici un extrait :


     Fichier     -10PEHVPSBD   2SSEEDPROTBANAPA   -300CORE   -300ELEMENT   -300MOTIFZMZEIN   5256BOXLELAT5256   5659BOXLELAT5659   AACACOREOSGLUB1
     L_2.txt      1            1                   0         1   0   0   0   3
     L_3.txt      4            0                   0         0   0   0   0   2
     L_4.txt      1            2                   0         2   0   0   0   0
     L_5.txt      2            0                   0         4   0   0   0   2
     L_6.txt      2            0                   1         3   0   0   0   0
     L_7.txt      2            0                   0         2   0   0   0   1
     L_8.txt      5            0                   0         3   0   0   0   0
     ...
     L_82.txt     1            0                   0         0   0   0   0   0
     L_83.txt     2            0                   0         0   0   0   0   0
     L_84.txt     0            0                   0         1   0   0   0   0
     L_85.txt     1            0                   1         2   0   0   0   0
     N_1.txt      3            0                   1         4   0   0   0   3
     N_2.txt      2            1                   1         0   0   0   0   0
     N_3.txt      2            1                   0         0   0   0   0   2
     N_4.txt      0            3                   0         4   0   0   0   0
     N_5.txt      3            1                   0         1   0   0   0   2
     N_6.txt      4            0                   1         3   0   0   0   0
     ...
     N_1621.txt   3            0                   0         5   0   0   0   1
     N_1622.txt   4            2                   1         3   0   0   0   2
     N_1623.txt   0            0                   0         4   0   0   0   1
     N_1624.txt   2            1                   1         2   0   0   0   2
     

Données gentiment fournies par Karima RIGHETTI dans le cadre d'un travail de post doctorat encadré par Julia BUITINK sur Medicago truncatula.

Solution :  

 

2. Production automatique de graphiques en protéinique

Un bioinformaticien dispose de 7 groupes de séquences Fasta de protéines. Grâce au site protpc il arrive à produire 7 fichiers .CSV de propriétés physico-chimiques relatives aux acides aminés. Ces fichiers sont disponibles dans l'archive exercicePROTPC.zip. Il faudrait construire un fichier global protpc7grps.Rdata avec indication du numéro de groupe sachant que les groupes doivent être dans l'ordre Pool1, Pool2, Pool3, WHy, Class8, IDP, FS avant de produire des graphiques systématiquement en boxplot et, quand c'est possible, en beanplot, de façon à réaliser un manuel des graphiques comme protpc7grps.pdf.

On voudrait également un tableau résumé des analyses par groupe paramétrique (ANOVA) et non paramétrique (KRUSKAL-WALLIS) sous la forme d'un tableau de p-values et un tableau d'interprétation de médianes (+1 si la médiane du groupe est supérieure à la médiane globale, -1 si inférieure, avec une tolérance de 5 %).

Voici un extrait des données issues de PROTPC :


     PROTID               ; LENGTH   ;  PI        ;  MW        ;  FI        ;  GRAVY     ;  CHARGE    ;  HYDROPHI
     AAA34137             ;      115 ;     6.9400 ; 13131.4200 ;    -0.1392 ;    -1.1739 ...
     AAA86052             ;      263 ;     4.7100 ; 29054.3800 ;    -0.3565 ;    -1.6008 ...
     AAB72175             ;      114 ;     9.7800 ; 12395.7300 ;    -0.0245 ;    -0.6895 ...
     AAC41651             ;      282 ;    11.1400 ; 29984.7300 ;    -0.1937 ;    -0.7762 ...
     AAP37981             ;      112 ;     6.7000 ; 12607.6100 ;    -0.1874 ;    -1.2705 ...
     AAT38812             ;      800 ;     6.0900 ; 85093.8400 ;    -0.2181 ;    -1.4731 ...
     AAT42177             ;      224 ;     8.3900 ; 25340.7000 ;    -0.0740 ;    -0.9473 ...
     AAV76001             ;      234 ;     8.1700 ; 26084.3900 ;    -0.0820 ;    -1.0316 ...
     AAX96480             ;      138 ;     6.2600 ; 15466.9100 ;    -0.1940 ;    -1.2435 ...
     AAY97997             ;      111 ;     6.5800 ; 12693.7400 ;    -0.2028 ;    -1.2901 ...
     ABD28662             ;      320 ;     7.0300 ; 35549.3400 ;    -0.0260 ;    -0.8544 ...
     ABN09808             ;      124 ;     6.0800 ; 13977.0900 ;    -0.1533 ;    -1.1976 ...
     ACG35620             ;      103 ;     6.9400 ; 11689.4800 ;    -0.1910 ;    -1.3350 ...
     ACG48760             ;      192 ;    10.5700 ; 20260.9600 ;    -0.1944 ;    -1.2234 ...
     ACJ37937             ;       95 ;     6.1900 ; 10630.0800 ;    -0.2549 ;    -1.4000 ...
     ACP28171             ;      322 ;     7.0100 ; 35062.2100 ;    -0.0833 ;    -1.0497 ...
     ACZ60123             ;      143 ;     6.1400 ; 16202.7800 ;    -0.2028 ;    -1.2098 ...
     ACZ60133             ;      143 ;     6.1900 ; 16179.7800 ;    -0.1975 ;    -1.2154 ...
     ADG57880             ;      185 ;     9.3700 ; 20486.4900 ;    -0.1327 ;    -1.0870 ...
     ADJ67682             ;      732 ;     6.0800 ; 79198.5900 ;    -0.2202 ;    -1.4656 ...
     AED91653             ;      168 ;    10.0100 ; 18465.6200 ;    -0.1568 ;    -1.2101 ...
     AED94821             ;      338 ;     9.5700 ; 37685.5000 ;    -0.0562 ;    -0.8568 ...
     AED96183             ;      211 ;     4.2900 ; 23351.2000 ;    -0.1877 ;    -1.0654 ...
     ...
     

le début du tableau résumé des analyses que l'on veut obtenir


     Variable        p ANOVA    p KRUSKAL
     LENGTH     5.391201e-24   1.779741e-89
     PI         1.320983e-16   1.779741e-89
     MW         3.782924e-24   1.779741e-89
     FI         1.273242e-198  1.779741e-89
     GRAVY      2.158512e-231  1.779741e-89
     CHARGE     2.651195e-11   1.779741e-89
     HYDROPHI   2.368096e-157  1.779741e-89
     HYDROPHO   1.145593e-210  1.779741e-89
     FLEXI      2.719533e-54   1.779741e-89
     BULKI      7.618586e-72   1.779741e-89
     BURIED     5.963329e-120  1.779741e-89
     ACCESS     9.461772e-93   1.779741e-89
     ...
     

et le tableau désiré des médianes avec leur interprétations :


            LENGTH    PI       MW       FI    GRAVY   CHARGE HYDROPHI HYDROPHO   FLEXI    BULKI  BURIED  ACCESS   TRANSM MW.LENGTH
     Pool1   209.5 5.185 23737.33 -0.32370 -1.59640 -0.03640  1.12865 -0.35960 0.46365 14.25390 4.58020 6.64730 -1.50985  113.2551
     Pool2   151.0 7.250 16497.14  0.05990 -0.46520  0.00200  0.34690 -0.10550 0.43980 14.39760 6.23110 6.26940 -0.74830  107.0611
     Pool3   168.0 6.950 19028.07 -0.23160 -1.25980  0.00030  0.52810 -0.28750 0.46110 13.80100 4.99080 6.30480 -1.09600  112.5941
     WHy     101.0 5.040 10934.49  0.24415  0.07425 -0.01880 -0.06240  0.12275 0.44665 15.13515 6.81935 5.70590 -0.31495  108.6133
     Class8  183.0 8.190 20858.55  0.24800  0.07255  0.01080 -0.05565  0.08750 0.44245 15.17150 6.54400 5.71060 -0.33710  109.9836
     IDP     192.5 6.915 21291.82 -0.14625 -1.10885 -0.00335  0.53445 -0.17925 0.44725 14.12460 5.32515 6.02880 -0.99945  111.2180
     FS      161.0 6.110 17772.35  0.12730 -0.28835 -0.01195 -0.00600  0.03350 0.44115 14.88665 6.12510 5.65365 -0.47205  110.5061
     global  157.5 6.380 17013.33  0.15535 -0.16695 -0.00710  0.00465  0.05410 0.44380 14.86335 6.23540 5.74650 -0.44615  110.0492
     
            LENGTH PI MW FI GRAVY CHARGE HYDROPHI HYDROPHO FLEXI BULKI BURIED ACCESS TRANSM MW.LENGTH
     Pool1  +1     -1 +1 -1 -1    -1     +1       -1        0     0    -1     +1     -1      0
     Pool2   0     +1  0 -1 -1    +1     +1       -1        0     0     0     +1     -1      0
     Pool3  +1     +1 +1 -1 -1    +1     +1       -1        0    -1    -1     +1     -1      0
     WHy    -1     -1 -1 +1 +1    -1     -1       +1        0     0    +1      0     +1      0
     Class8 +1     +1 +1 +1 +1    +1     -1       +1        0     0     0      0     +1      0
     IDP    +1     +1 +1 -1 -1    +1     +1       -1        0     0    -1      0     -1      0
     FS      0      0  0 -1 -1    -1     -1       -1        0     0     0      0     -1      0
     relative tolerance:  5  %
     

Données fournies par Emmanuel JASPARD pour un article sur des protéines LEA.

Solution :  

 

 

 

retour gH    Retour à la page principale de   (gH)