Valid XHTML 1.0!                  

 

  Projet de programmation
  en Master professionnel
  année 2005/2006
 
      Analyse d'environnements de cystéines

 

Présentation du projet


 

Résumé :
 
Le but du projet est de comptabiliser les environnements des cystéines pour des protéines avec des ponts disulfure c'est à dire de fournir des indicateurs statistiques élémentaires sur les lettres qui entourent la lettre C dans des fichiers-textes.
 
Détail du projet:
 
Une protéine est une molécule qui comporte une ou plusieurs parties (chaines), représentées informatiquement par des chaines de caractères sur un alphabet à 20 caractères (séquence d'acides aminés, "AA").

Les protéines sont synthétisées (traduites) à partir des ARN messagers ("codons") eux-mêmes issus (transcrits) de séquences ADN (gènes). Les ARN messagers et les séquences ADN utilisent un alphabet à 4 caractères : ATGC pour l'ADN, AUGC pour les ARN messagers.

Une protéine est désignée par un mot unique, nommé identifiant (PDB, Swissprot...). La fonction d'une protéine est liée à ses structures. En particulier un pont disulfure lie deux acides aminés qui sont des cystéines (lettre C). Toutes les cystéines ne sont pas impliquées dans des ponts disulfure et un des enjeux de la bioinformatique aujourd'hui est de comprendre quelles cystéines sont liées dans un pont disulfure.

Dans le cadre du projet, on devra lire des fichiers de séquences ADN et AA et des fichiers DPD qui indiquent les positions des ponts pour fournir des statistiques simples sur les chaines, les acides aminés et les codons. Ces statistiques seront globales (par chaine) et locales c'est à dire limitées à n acides aminés (ou codons) avant et n (le même n) acides aminés après les cystéines. On essaiera également de fournir par programme les environnements les plus significatifs des cystéines impliquées dans des ponts et ceux pour les cystéines non impliquées.

Le programme ne comportera aucune interface. Il utilisera un seul paramètre : le nom générique des fichiers (par exemple j6 pour les trois fichiers du jeu d'essai fourni). Les résultats, non graphiques, seront mis dans un fichier texte. Compte-tenu de la taille des fichiers fournis, on aura intérêt à créer des petits fichiers pour tester les programmes. On distinguera les ponts "inter" des ponts "intra".

On ne supposera en aucun cas que les fichiers sont triés par ordre d'identifiant PDB. De plus, on ne traitera que les séquences uniques (certaines protéines ont parfois plusieurs fois la même chaine, il ne faut en retenir qu'une).

On réalisera le projet en Java qui devra s'éxécuter aussi bien sous Unix que sous Windows, sans utiliser de répertoire particulier.

Quelques références Web utiles :
pdb     c'est le site officiel d'où sont extraites les protéines,
jaspard     on trouvera sur cette page ce qu'est un pont disulfure,
l4a     cette page détaille les divers alphabets possibles pour décrire une protéine,
adbdb     quelques comptages par page web.

 

Fichiers de données


 
j6_seq.txt
C'est le fichier des séquences Fasta (acides aminés) des protéines ; chaque séquence est représentée par deux lignes : la première contient le symbole > puis l'identifiant PDB de la protéine puis le symbole : et enfin la lettre associée à la chaine ; la seconde, éventuellement très longue, contient la liste des acides aminés. Les séquences sont séparées par une ligne vide.
 
Extrait du fichier :
>1DKL:A
QSEPELKLESVVIVSRHGVRAPTKATQLMQDVTPDAWPTWPVKLGWLTPRGGELIAYLGHYQRQRLVADGLL...

>1APH:A
GIVEQCCASVCSLYQLENYCN

>1APH:B
FVNQHLCGSHLVEALYLVCGERGFFYTPKA

>1VKT:A
GIVEQSCTSISSLYQLENYCN

>1VKT:B
FVNQHLCGSDLVEALYLVCGERGFFYTKPT

j6_codons.txt
C'est le fichier des codons (acides nucléotidiques) des protéines. On trouve éventuellement des commentaires repérés par le symbole # comme premier caractère non nul de ligne. Les protéines sont séparées par une ou plusieurs lignes vides. Chaque protéine comporte une ou plusieurs séquences de codons. Une séquence de codons est écrite sur une seule ligne, éventuellement très longue selon le format suivant : l'identifiant PDB de la protéine, le symbole :, la lettre associée à la chaine, le symbole |, une indication de correspondance swissprot (à ignorer), un ou plusieurs espaces, les nucléotides.
 
Extrait du fichier :
# j6_codons.txt ; le  21/07/04 vers 03:56:55 extraction du 01/06/05 vers 17:05:12

1PS3:A|CAA54732p63      aacattgagaacaagctgcatgagctggaaaa...

1APH:A|AAA30722p84      gaggtggagggcccgcaggtgggggcgctggagctggccggaggcccgggcgcgggcggcctg
1APH:B|AAA30722p24      tggcccccccccccggcccgcgccttcgtcaa...
j6_dpd.txt
C'est le fichier de définition des positions de ponts disulfure pour les protéines. Chaque protéine de ce fichier est décrite par une ou plusieurs lignes consécutives. Les protéines sont séparées par une ou plusieurs lignes vides. Chaque description de pont respecte le format suivant : l'identifiant PDB de la protéine, le mot SSBOND, le numéro de pont, la lettre de la chaine où se trouve la première cystéine impliquée dans le pont, la position de cette première cystéine, la lettre de la chaine où se trouve la seconde cystéine impliquée dans le pont, la position de cette seconde cystéine. Un pont "intra" correspond à une même lettre de chaine pour les deux cystéines alors qu'un pont "inter" correspond à deux lettres de chaine différentes.
 
Extrait du fichier :
1A75 SSBOND  1 CYS A    11 CYS A    33

1DL2 SSBOND  1 CYS A   340 CYS A   385
1DL2 SSBOND  2 CYS A   468 CYS A   471

1QOU SSBOND  1 CYS A   146 CYS B   146

1ID5 SSBOND  1 CYS A    70 CYS A   107

Formats des résultats (les valeurs numériques sont fausses)


 
Comptages :

IDENTIF    LNG    A    R    N    D    C   Cf Ca Cr   Q    E    G  ... W    Y    V
1UR5:A     309   40   14   11   16    2    1  0  1   7   19   28      1    9   30
1HUC:A      47    5    3    1    3    4    2  1  1
1HUC:B     239   13    8   11   12   13    8  4  1     ...
1A75:A     108   23    1    0   12    3    1  1  1
1CRN:A      46    5    2    3    1    6    0  3  3

Environnements :

Toutes cystéines confondues
   taille 1  :          A  C  R          15.3 %
                        A  C  G          13.8 %

   taille 2  :        P A  C  R D        10.5 %
                      V A  C  G P         9.8 %
   ...

   taille 5  :  Q E P A Y  C R D V F G   xx.d %

Cystéines impliquées dans des ponts intra
   taille 1  :          A  C  R          15.3 %
                        A  C  G          13.8 %

   taille 2  :        P A  C  R D        10.5 %
                      V A  C  G P         9.8 %
   ...

   taille 5  :  Q E P A Y  C R D V F G   xx.d %

Cystéines impliquées dans des ponts inter
   taille 1  :          A  C  R          15.3 %
                        A  C  G          13.8 %

   taille 2  :        P A  C  R D        10.5 %
                      V A  C  G P         9.8 %
   ...

   taille 5  :  Q E P A Y  C R D V F G   xx.d %

Cystéines non impliquées dans des ponts
   taille 1  :          A  C  R          15.3 %
                        A  C  G          13.8 %

   taille 2  :        P A  C  R D        10.5 %
                      V A  C  G P         9.8 %
   ...

   taille 5  :  Q E P A Y  C R D V F G   xx.d %

 

retour gH    Retour à la page principale de   (gH)