Valid XHTML     Valid CSS2    

GREBA 100712 : Bases de données ; projets bioinformatiques

Partie un : bases de données

Le GREBA gère deux bases de données de protéines : LEAPdb et sHSPdb.

Chaque base de données comporte des protéines soigneusement sélectionnées à partir du site NCBI section Protéines. Les protéines sont partitionnées en classes définies par des expressions régulières (ou RE) minimales discriminantes spécifiques, ce qui signifie que l'expression régulière qui définit une classe est vérifiée par toutes les protéines de cette classe et par aucune autre protéine d'une autre classe. De plus cette expression régulière est minimale.

Voici des liens pour ces expressions régulières :    RE LEADPdb   RE sHSPdb.

Parmi les informations stockées et calculées dans ces bases de données, figurent, en plus de la séquence en acides aminés, des caractéristiques physico-chimiques liées globalement aux acides aminés. Voir par exemple l'aide fournie sur la base de données pour le détail de ces propriétés. Les acides aminés sont aussi décrits, soit par pourcentage isolé soit sous forme de combinaisons. Consulter par exemple les deux liens propriétés et pourcentages AA pour des exemples de données puis utiliser Statistical analysis pour avoir une vérification statistique du bien fondé des classes.

 

Partie deux : projets bioinformatiques

Un premier projet bioinformatique serait de caractériser les classes par des expressions sous-régulières maximales discriminantes spécifiques, c'est-à-dire des expressions les plus longues possibles correspondant à des sous-séquences le moins dégénérées possible. Un premier programme, basé sur ces principes a déjà été écrit partiellement, qui se nomme mocar.

Un second projet, plus ambitieux, serait de trouver des "localisations" et des "plages" de valeurs globalement discriminantes pour des propriétés physico-chimiques, des acides aminés, ou des combinaisons d'acides aminés. Les calculs stockés dans les bases de données du GREBA sont des indicateurs globaux, disons des moyennes, alors que les classes seraient sans doute mieux caractérisées par des schémas ou motifs locaux, par exemple une suite d'acides aminés gardant une même valeur négative. En ce sens, la recherche et l'analyse de «fenêtres glissantes» serait le cadre théorique idéal pour ce projet à condition de bien expliciter les contraintes et ce qu'on cherche à optimiser, quitte à discrétiser les propriétés à analyser.

 

Liens et compléments pour les non spécialistes des protéines LEA et sHSP

Une protéine est une macromolécule dont les composants sont des acides aminés, eux-mêmes issus de codons. Plusieurs niveaux de lecture de la séquence en acides aminés sont possibles :

Les protéines LEA sont spécialisées dans l'acclimation au froid et au stress hydrique alors que les protéines sHSP sont des petites protéines liées aux stress thermiques.

Une page de E. Jaspard explique bien le rôle de ces deux types de protéines : StressLeaHsp.

Jeux de données à utiliser

LEAPdb  séquences  propriétésphysico-chimiques

sHSPdb  séquences  propriétésphysico-chimiques

 

                    retour à la page principale du GREBA

 

 

retour gH    Retour à la page principale de   (gH)