Projet de programmation en Master 1 Informatique
(année 2018/2019)
K-mers et génomes bactériens
Présentation informelle
Le centre INRA d'Angers aimerait calculer des indices d'écart et des distances entre de nombreux génomes, comme par exemple le pourcentages de K-mers partagés 2 à 2. Il existe déjà un programme qui réalise ce genre de calculs : Simka v1.4 (GATB tools). A titre indicatif, le temps de calcul pour une matrice 1 000 x 1 000 est de 2 heures sur un serveur Power Edge R510 avec 2 processeurs Intel Xeon Quad-Core E5620 2,26 GHz.
La difficulté du projet est qu'il faudrait calculer tous ces écarts et distances pour les 150 000 génomes bactériens disponibles actuelllement (soit 600 Go) et qu'il faudrait envisager une mise à jour annuelle ou pluri-annuelle car il semble qu'en 2019 de 20 000 à 80 000 génomes sont rajoutés par an.
Objectif du stage
Le ou la stagiaire devra commencer par bien réfléchir au mode et au temps de calcul (par bloc de 2 x 100 x 100 ou ??), au stockage des données et des résultats, sachant qu'un matrice 150 000 x 150 000 ne tient pas en mémoire et qu'on n'aura pas besoin de toute la matrice à chaque fois ni de stocker des calculs symétriques. Il faudra donc réaliser une analyse fine détaillée et bien rédigée à faire valider après une série de tests avant procéder aux « vrais calculs ».
Il y a de fortes chances qu'une fois les distances calculées, on n'ait besoin que des génomes les plus proches, soit en pourcentage de K-mers partagés, soit via un nombre donné de génomes, d'un génome donné. Il faudra donc écrire en plus des scripts de calcul et du script de mise à jour un script d'extraction.
Ce stage est rémunéré.
Contacts
Martial BRIAND, martial.briand@inra.fr
Gilles HUNAULT, gilles.hunault@univ-angers.fr.
Retour à la page principale de (gH)