1055 génomes
Le fichier 1055genomes.csv contient la liste des génomes de bactéries rapatriés par MB sur le site IMG (Integrated Microbial Genomes and Metagenomes). Le séparateur est la virgule.
Voici les génomes vu plus de 5 fois par genre (taille en nt x 1000) :
NbGénomes MinTaille MoyTaille MaxTaille EctTaille Streptococcus 31 1852 2089 2388 140 Pseudomonas 25 4174 5851 7075 731 Mycoplasma 25 564 894 1359 185 unclassified 23 1237 3498 8469 1961 Bacillus 21 3073 4332 5583 653 Clostridium 20 2548 4141 6001 1000 Helicobacter 15 1577 1692 2240 160 Synechococcus 14 2225 2597 3047 238 Lactobacillus 14 1865 2229 3198 477 Shewanella 12 4306 4994 5935 469 Streptomyces 11 6842 8575 11937 1439 Prochlorococcus 11 1642 1859 2683 350 Bifidobacterium 11 1933 2294 2833 276 Corynebacterium 10 2032 2621 3433 441 Mycobacterium 9 3268 5497 6988 1173 Paenibacillus 8 5395 6836 8770 981 Desulfovibrio 8 2873 3791 4290 451 Treponema 7 1140 3012 4060 950 Frankia 7 5323 7218 8982 1459 Desulfotomaculum 7 3053 4288 6384 1106 Thermotoga 6 1810 1936 2135 124 Rickettsia 6 1112 1239 1529 158 Rhodopseudomonas 6 4893 5399 5744 284 Listeria 6 2798 2895 2977 79 Geobacter 6 3714 4632 5277 572 Enterobacter 6 4672 4872 5143 172 Chlorobium 6 1967 2555 3134 428 Caldicellulosiruptor 6 2429 2703 2970 200 Bradyrhizobium 6 7232 8139 9207 837 Bartonella 6 1445 1648 1931 183 Amycolatopsis 6 5551 9046 10859 1877Voici les génomes dont les espèces sont répétées 4 fois ou plus avec le nombre de répétitions :
unclassified 26 Helicobacter pylori 10 Prochlorococcus marinus 11 Pseudomonas putida 5 Rhodopseudomonas palustris 6Si on se focalise sur Pseudomonas on trouve :
Pseudomonas putida 5 Pseudomonas fluorescens 3 Pseudomonas stutzeri 3 Pseudomonas aeruginosa 2 Pseudomonas mendocina 2 Pseudomonas syringae 2 Pseudomonas brassicacearum 1 Pseudomonas denitrificans 1 Pseudomonas entomophila 1 Pseudomonas fulva 1 Pseudomonas poae 1 Pseudomonas protegens 1 Pseudomonas sp. FGI182 1 Pseudomonas sp. UW4 1Pour les prototypes et petites démonstrations, nous travaillerons donc avec Pseudomonas putida qui est, sauf erreur de ma part, saprophyte, psychrophile (donc dans LEAdb), pathogène opportuniste de l'homme et présente dans de nombreux sols.
Pour les impatient(e)s, voici le génome de Pseudomonas putida GB-1 soit sans doute 6 078 430 nucléotides (6 millions !) dans une archive zip de 1,8 Mb pour un volume de 5,9 Mb une fois décompressé. Un «petit Big Data» en somme.
Pour la suite du projet, voici l'ordre d'analyse prévu :
- Pseudomonas putida séquencé en 5 exemplaires putidas.fasta.zip
- les 25 génomes séquencés du genre Pseudomonas pseudomonas.fasta.zip
- le seul génome séquencé de Helicobacter hepaticus (comme «outgroup») hepaticus.fasta.zip
- les 10 génomes séquencés de Helicobacter pylori pyloris.fasta.zip
- le génome de Fusobacterium nucleatum nucleatum.fasta.zip
Voici les noms, tailles et GC% de ces génomes (par taille croissante) :
Taille GC (/1000) Helicobacter pylori B38 1576 39 % Helicobacter pylori Shi169 1616 38 % Helicobacter pylori SouthAfrica20 1622 38 % Helicobacter pylori J99 1643 39 % Helicobacter pylori SJM180 1658 38 % Helicobacter pylori PeCan18 1660 39 % Helicobacter pylori 26695 1667 38 % Helicobacter pylori Hp A-11 1668 38 % Helicobacter pylori India7 1675 38 % Helicobacter pylori UM037 1694 38 % Helicobacter hepaticus 3B1, ATCC 51 1799 35 % Fusobacterium nucleatum nucleatum A 2174 27 % Pseudomonas stutzeri JM3000, DSM 10 4174 63 % Pseudomonas stutzeri Lautrop AB 201 4547 63 % Pseudomonas stutzeri AN10, CCUG 292 4709 62 % Pseudomonas fulva 12-X 4920 63 % Pseudomonas mendocina ymp 5072 64 % Pseudomonas mendocina NK-01 5434 62 % Pseudomonas poae RE*1-1-14 5512 60 % Pseudomonas denitrificans ATCC 1386 5696 65 % Pseudomonas putida BIRD-1 5731 61 % Pseudomonas putida W619 5774 61 % Pseudomonas entomophila L48 5888 64 % Pseudomonas sp. FGI182 5891 63 % Pseudomonas syringae pv. syringae B 5930 58 % Pseudomonas putida S16 5984 62 % Pseudomonas putida GB-1 6078 61 % Pseudomonas syringae pv. syringae B 6093 59 % Pseudomonas putida NBRC 14164 6156 62 % Pseudomonas sp. UW4 6183 60 % Pseudomonas fluorescens R124 6299 59 % Pseudomonas aeruginosa DK2 6402 66 % Pseudomonas fluorescens Pf0-1 6438 60 % Pseudomonas aeruginosa sv. O12 PA7 6588 66 % Pseudomonas brassicacearum brassica 6843 60 % Pseudomonas fluorescens F113 6845 60 % Pseudomonas protegens Pf-5 7074 63 %
Retour à la page principale de (gH)