Valid XHTML     Valid CSS2    

 

Projet de programmation en Licence informatique

(année 2014/2015)

 

Dénombrements et affichage des résultats pour des séquences ADN

 

L'ADN est stocké informatiquement sous forme de chaines de caractères au format FASTA. On s'intéresse ici à la production rapide de comptages et de représentations des "mots" de 1, 2, 3... n lettres présents dans une ou plusieurs séquences données (on pourra se limiter à n=6). On trouvera sur la page 1055genomes.php des fichiers qui contiennent des séquences d'ADN bactériens qui serviront de jeux d'essais.

Le but du projet est de fournir des pages Web récapitulatives de ces comptages, à partir d'un fichier qui peut contenir une ou plusieurs séquences Fasta d'ADN. On essaiera de fournir des tableaux de résultats clairs et lisibles, couplés à des représentations semi-graphiques ou graphiques comme les seqlogo. Les comptages seront effectués à l'aide de sous-programmes «propres» dont les résultats explicites devront pouvoir être facilement transférés dans des bases de données.

Après ces comptages de sous-chaines, on viendra trouver les "plus grandes sous-chaines qui..." à savoir :

  • la plus grande sous-chaine constante avec sa longueur et sa (ses ?) positions dans la séquence,

  • la plus grande sous-chaine constante avec que des A (que des C, que des G...) avec longueur et position(s),

  • la plus grande sous-chaine répétée avec sa longueur, position(s) et nombre de répétitions.

Remarque : lorsque le fichier contient plusieurs séquences, il s'agit de la plus grande sous-chaine commune à toutes les séquences qui vérifie la propriété.

S'il reste du temps, on pourra essayer de représenter les comptages par des graphiques de type CGR comme décrit dans la thèse de S. Lespinats.

Le terme rapide utilisé ci-dessus fait référence au temps de calcul (pas au temps de structuration ou d'affichage). On pourra consulter l'article de Vinga et al. pour plus de détails sur ces sujets (copie locale).

 

Code-source de la page.

 

 

retour gH    Retour à la page principale de   (gH)