Projet de programmation en Master 1 Informatique
Année 2013-2014
Amélioration des bases de données LEAPdb et sHSPdb
1. Présentation du sujet
Uhe base de données sans interface pour l'exploiter n'est pas très utile. E. Jaspard et G. Hunault mettent à disposition depuis 2007 une base de données sur des protéines nommées LEAPdb avec une interface qui propose de nombreuses fonctionnalités dont une recherche multi-critères avec exports, un calcul sur tout ou partie des protéines, une analyse statistique par classe de protéines ou par caractéristique...
Il manque toutefois un outil d'alignement mutliple de séquences intégré à cette interface. Le site MULTALIN répond à ce besoin. Son auteur fournit les sources de son programme de calcul (copie locale : multalin.zip).
La première partie du projet consiste à intégrer MULTALIN à l'interface de gestion de la base de données. On documentera suffisamment les manipulations d'installation de façon à pouvoir intégrer aussi MULTALIN à l'interface d'une deuxième base de données de protéines nommée sHSPdb, disponible elle aussi sur forge.
La deuxième partie du projet s'intéresse uniquement à cette deuxième base de données sHSPdb dans la mesure où de nombreuses protéines de cette base ont une structure 3D décrite dans la RSCS PDB. Dans cette seconde partie, il faudra étendre la base de données de façon à pouvoir importer les coordonnées 3D, fournir le lien vers la PDB (quand il existe ) en mode Browse et calculer des distances entre acides aminés dans une protéine.
2. Détails concernant le projet
Les bases de données sont au format MySQL. Une archive-"dump" de la base LEAPDB est lea_dump et une archive-"dump" de la base SHSPDB est shsp_dump.On commencera bien sûr par analyser et décrire la structure des tables de la base sous forme de MCD, MCT, diagramme de flux...
Les interfaces pour les bases sont écrites via des pages PHP qui produisent du code XHTML Strict. On respectera cette contrainte. On viendra ajouter une action (numéro 13, soit le fichier action13.php) nommée Alignment dans le menu général avant Export et une action de visualisation Alignement dans la liste déroulante du panneau de visualisation (action 1), toujours avant Export.
Afin de faciliter la maintenance des deux bases de données, on respectera les formats de définition des fonctions PHP de façon à ce que l'utilisation de ldphp.pl.txt continue à fournir une liste des fonctions comme ldphp_1401.txt.
MULTALIN est écrit en C, mais un script perl est fourni pour assurer un rendu HTML. On s'arrangera pour générer du XHTML strict.
Pour la partie 3D, on commencera par répertorier les protéines de sHSPdb décrites dans la PDB, on proposera une ou plusieurs nouvelles tables de données et on mettra l'interface à jour pour profiter de ces informations.
Retour à la page principale de (gH)