Projet de programmation en Licence professionnelle
(année 2012/2013)
Remplissage d'une base de données de protéines
et localisation des composantes des protéines
Présentation du projet
La base de données sHSPdb a été crée et est maintenue par E. Jaspard et G. Hunault, tout comme la base de données LEAPdb. Toutefois, à la différence de celle-ci, elle contient des protéines qui sont très structurées et qui sont définies par une architecture très particulières composées de trois blocs : un domaine C-terminal, un domaine central appelé α-cristallin et un domaine N-terminal..
Le but du projet est double. D'une part, il s'agit de compléter la base de données en fournissant des références croisées pour le site Uniprot des protéines recensées dans la sHSPdb et en venant rapatrier les informations fournies par le NCBI sur la localisation des trois domaines des protéines. D'autre part, il s'agit d'analyser ces informations de localisation pour essayer de prédire «en gros» cette localisation lorsque l'information n'est pas disponible.
Détails du projet
Le fichier shspdb_3296.zip contient une copie de la base de données sHSPdb (au format MySql) en date du 05 janvier 2013. Dans cette base, les protéines sont référencées par un identifiant qui correspond au numéro d'accession au NCBI. Ainsi, la petite protéine HSP du pois nommée hsp18.1 peut être retrouvée au NCBI si on entre le code d'accession AAA33672. Elle est aussi référencée au niveau mondial par son gi (169103) et son identifiant pour Uniprot dans la KB (Protein Knowledgebase) avec la référence P19243.
Par contre pour la protéine 2WJ7A il n'y a aucun gi stocké ni aucune référence pour Uniprot. C'est donc ce genre de renseignements qu'il faut ajouter de façon systématique. C'est ce qui constitue la première partie du projet. On se contentera de trouver les gi et les références Uniprot uniquement pour les protéines vérifiant notes.expertise=1, après avoir lu et compris la structure de la base de données. Il pourra être intéressant de représenter les schémas de la base des données.
Si on regarde maintenant le fichier GENPEPT de la protéine ABF61875 au NCBI, on peut lire que la protéine a une longueur de 161 acides aminés, et que le domaine α-cristallin correspond aux acides aminés 55 à 140. De même, pour AAB63310 le domaine α-cristallin correspond aux acides aminés 58 à 140 pour une chaine polypeptidique globable de 163 acides aminés. Lorsque cette information n'est pas présente dans le fichier GENPEPT, on essaiera de trouver les protéines «les plus proches » afin de fournir une localisation possible. C'est ce qui constitue la deuxième partie du projet.
Tout le projet est à développer en PHP en s'appuyant sur la base de données MySql par ce qu'il est destiné à être intégré au site sHSPdb. Tout complément via Javascript/Jquery est possible.
Quelques références :
les protéines LEA et HSP ;
structure des sHSP ;
cristallin (wiki) ;
IPR001436 Alpha crystallin/Heat shock protein sur le site EMBL/EBI qui héberge InterPro ;
Horwitz un article général sur l'α-crystallin.
Retour à la page principale de (gH)