Valid XHTML     Valid CSS2    

1055 génomes

Le fichier 1055genomes.csv contient la liste des génomes de bactéries rapatriés par MB sur le site IMG (Integrated Microbial Genomes and Metagenomes). Le séparateur est la virgule.

Voici les génomes vu plus de 5 fois par genre (taille en nt x 1000) :


                          NbGénomes MinTaille MoyTaille MaxTaille EctTaille
     Streptococcus               31      1852      2089      2388       140
     Pseudomonas                 25      4174      5851      7075       731
     Mycoplasma                  25       564       894      1359       185
     unclassified                23      1237      3498      8469      1961
     Bacillus                    21      3073      4332      5583       653
     Clostridium                 20      2548      4141      6001      1000
     Helicobacter                15      1577      1692      2240       160
     Synechococcus               14      2225      2597      3047       238
     Lactobacillus               14      1865      2229      3198       477
     Shewanella                  12      4306      4994      5935       469
     Streptomyces                11      6842      8575     11937      1439
     Prochlorococcus             11      1642      1859      2683       350
     Bifidobacterium             11      1933      2294      2833       276
     Corynebacterium             10      2032      2621      3433       441
     Mycobacterium                9      3268      5497      6988      1173
     Paenibacillus                8      5395      6836      8770       981
     Desulfovibrio                8      2873      3791      4290       451
     Treponema                    7      1140      3012      4060       950
     Frankia                      7      5323      7218      8982      1459
     Desulfotomaculum             7      3053      4288      6384      1106
     Thermotoga                   6      1810      1936      2135       124
     Rickettsia                   6      1112      1239      1529       158
     Rhodopseudomonas             6      4893      5399      5744       284
     Listeria                     6      2798      2895      2977        79
     Geobacter                    6      3714      4632      5277       572
     Enterobacter                 6      4672      4872      5143       172
     Chlorobium                   6      1967      2555      3134       428
     Caldicellulosiruptor         6      2429      2703      2970       200
     Bradyrhizobium               6      7232      8139      9207       837
     Bartonella                   6      1445      1648      1931       183
     Amycolatopsis                6      5551      9046     10859      1877
     

Voici les génomes dont les espèces sont répétées 4 fois ou plus avec le nombre de répétitions :


     unclassified                 26
     Helicobacter pylori          10
     Prochlorococcus marinus      11
     Pseudomonas putida            5
     Rhodopseudomonas palustris    6
     

Si on se focalise sur Pseudomonas on trouve :


     Pseudomonas putida           5
     Pseudomonas fluorescens      3
     Pseudomonas stutzeri         3
     Pseudomonas aeruginosa       2
     Pseudomonas mendocina        2
     Pseudomonas syringae         2
     Pseudomonas brassicacearum   1
     Pseudomonas denitrificans    1
     Pseudomonas entomophila      1
     Pseudomonas fulva            1
     Pseudomonas poae             1
     Pseudomonas protegens        1
     Pseudomonas sp. FGI182       1
     Pseudomonas sp. UW4          1
     

Pour les prototypes et petites démonstrations, nous travaillerons donc avec Pseudomonas putida qui est, sauf erreur de ma part, saprophyte, psychrophile (donc dans LEAdb), pathogène opportuniste de l'homme et présente dans de nombreux sols.

Pour les impatient(e)s, voici le génome de Pseudomonas putida GB-1 soit sans doute 6 078 430 nucléotides (6 millions !) dans une archive zip de 1,8 Mb pour un volume de 5,9 Mb une fois décompressé. Un «petit Big Data» en somme.

Pour la suite du projet, voici l'ordre d'analyse prévu :

  1. Pseudomonas putida séquencé en 5 exemplaires putidas.fasta.zip
  2. les 25 génomes séquencés du genre Pseudomonas pseudomonas.fasta.zip
  3. le seul génome séquencé de Helicobacter hepaticus (comme «outgroup») hepaticus.fasta.zip
  4. les 10 génomes séquencés de Helicobacter pylori pyloris.fasta.zip
  5. le génome de Fusobacterium nucleatum nucleatum.fasta.zip

Voici les noms, tailles et GC% de ces génomes (par taille croissante) :


                                                  Taille   GC
                                                  (/1000)
        Helicobacter pylori B38                   1576     39 %
        Helicobacter pylori Shi169                1616     38 %
        Helicobacter pylori SouthAfrica20         1622     38 %
        Helicobacter pylori J99                   1643     39 %
        Helicobacter pylori SJM180                1658     38 %
        Helicobacter pylori PeCan18               1660     39 %
        Helicobacter pylori 26695                 1667     38 %
        Helicobacter pylori Hp A-11               1668     38 %
        Helicobacter pylori India7                1675     38 %
        Helicobacter pylori UM037                 1694     38 %
        Helicobacter hepaticus 3B1, ATCC 51       1799     35 %
     
        Fusobacterium nucleatum nucleatum A       2174     27 %
     
        Pseudomonas stutzeri JM3000, DSM 10       4174     63 %
        Pseudomonas stutzeri Lautrop AB 201       4547     63 %
        Pseudomonas stutzeri AN10, CCUG 292       4709     62 %
        Pseudomonas fulva 12-X                    4920     63 %
        Pseudomonas mendocina ymp                 5072     64 %
        Pseudomonas mendocina NK-01               5434     62 %
        Pseudomonas poae RE*1-1-14                5512     60 %
        Pseudomonas denitrificans ATCC 1386       5696     65 %
        Pseudomonas putida BIRD-1                 5731     61 %
        Pseudomonas putida W619                   5774     61 %
        Pseudomonas entomophila L48               5888     64 %
        Pseudomonas sp. FGI182                    5891     63 %
        Pseudomonas syringae pv. syringae B       5930     58 %
        Pseudomonas putida S16                    5984     62 %
        Pseudomonas putida GB-1                   6078     61 %
        Pseudomonas syringae pv. syringae B       6093     59 %
        Pseudomonas putida NBRC 14164             6156     62 %
        Pseudomonas sp. UW4                       6183     60 %
        Pseudomonas fluorescens R124              6299     59 %
        Pseudomonas aeruginosa DK2                6402     66 %
        Pseudomonas fluorescens Pf0-1             6438     60 %
        Pseudomonas aeruginosa sv. O12 PA7        6588     66 %
        Pseudomonas brassicacearum brassica       6843     60 %
        Pseudomonas fluorescens F113              6845     60 %
        Pseudomonas protegens Pf-5                7074     63 %
     

 

 

retour gH    Retour à la page principale de   (gH)