les quatre alphabets de la DBDB

LES QUATRE ALPHABETS [de la dbdb]

   Alphabet 1    Alphabet 2    Alphabet 3    Alphabet 4

       GUU AGC UGC        VSCED        V2H3 F5 H1C0        H HTTT EEE

       codons

       acides aminés (AA)

       propriétés AA
       physico-chimiques

       structures
       secondaires

Table des matières

   Introduction : que sont les 4 alphabets [de la dbdb] ?

1. Des codons vers les acides aminés

2. Des acides aminés vers les codons

3. Des acides aminés vers les propriétés

4. Des propriétés vers les acides aminés

5. Des acides aminés vers les structures secondaires

6. Des structures secondaires vers les acides aminés

Introduction : que sont les 4 alphabets [de la dbdb] ?

Un acide aminé est le résultat de la traduction de codons. L'alphabet des codons est l'alphabet numéro 1 de la DBDB.

La structure primaire d'une protéine est décrite par la suite (ou liste séquentielle) de ses acides aminés. La DBDB utilise ces acides aminés en tant qu'alphabet numéro 2.

Dans la DBDB, les acides aminés sont caractérisés par des propriétés physico-chimiques. L'alphabet numéro 3 de la DBDB est celui de ces propriétés.

La structure secondaire des protéines est décrite en termes d' hélices, feuillets, coudes. C'est l'alphabet numéro 4 de la DBDB.

Ces 4 alphabets décrivent des molécules et des propriétés différentes. Les utiliser conjointement permet une description univoque d'un acide aminé et de son environnement.

La DBDB est une base de données spécialisée dans les protéines à ponts disulfure.

Conversions partielles entre les 4 alphabets [de la dbdb]
1. Des codons vers les acides aminés (retour haut de page)
Il y a en général plusieurs codons pour un même acide aminé. La traduction des codons vers les acides aminés est donc déterministe, automatisable et sans ambiguité à l'aide d'une simple table de correspondance. Ainsi la séquence nucléotidique
   5' GUUAGCUGCGAAGAUUGCCCUGAACAUUGCAGCACGCAAA ... AAUGAUAAGUGCGUUUGCGAACCUAUA  3'
une fois découpée en groupes de 3 nucléotides ("codons"), se lit
   5'    GUU AGC UGC GAA GAU UGC CCU GAA CAU UGC AGC ACG CAA AAG GCU 
             CAA GCU AAG UGC GAU AAU GAU AAG UGC GUU UGC GAA CCU AUA   3'
et correspond à la séquence en acides aminés
   Nter     VSCEDCPEHCSTQKAQAKCDNDKCVCEPI   Cter 
de la toxine 1ACW.
2. Des acides aminés vers les codons (retour haut de page)
Il y a a priori ambiguité car plusieurs codons correspondent à un même acide aminé, ce que montre la table de correspondance inverse de la précédente.

Toutefois, le site EBI (European Bioinformatics Institute) fournit via "Dbfetch" la séquence codante pour la plupart des protéines connues en interrogeant EMBLCDS.

Dans la DBDB, les protéines utilisent un identifiant PDB, il faut donc commencer par trouver la correspondance avec l'identifiant EMBL ce qui se fait parfois en plusieurs étapes. Ainsi le site Jena permet de passer de l'identifiant PDB à un identifiant Swiss-Prot et le site Expasy permet de passer de l' identifiant Swiss-Prot à un identifiant EMBL.

Prenons comme exemple l'enzyme définie dans la PDB par 1UR5 dont le début de séquence en acides aminés est : MRKKISIIG...
La table de "cross-references" de Jena (version locale ici) fournit MDH_CHLAU comme "Entry Name" pour Swiss-prot. A l'aide de ce nom, Expasy trouve directement la protéine dans Swiss-Prot/TrEMBL sous l'identifiant P80040 pour UniProtKB/Swiss-Prot.
La page affichée par Expasy pour cet identifiant contient un lien nommé [CoDingSequence] qui donne la séquence codante cherchée. Au passage, on apprend que l'enzyme a pour identifiant EMBL CAA61436.
Voici le début de cette séquence codante :
   5'    atg cgc aag aag att agt att atc ggg gc...    3' 
Une fois retraduite en acides aminés, cette séquence donne
   Nter      MRKKISIIG...    Cter 
ce qui est bien le début de notre séquence initiale...
3. Des acides aminés vers les propriétés (retour haut de page)
Il y a 6 propriétés physico-chimiques définies pour chaque acide aminé :

le volume (V),

l'hydropathie (H),

la charge (C),

la polarité (P),

la cystéinité (E),

le groupe fonctionnel (G).

Ces propriétés sont représentées par des classes d'état ce qui fournit une correspondance directe entre un acide aminé et chacune de ces propriétés.

S'il n'y a pas de problème de traduction, il y a un problème de choix quant à la ou aux propriétés utilisées. Voici par exemple diverses possibilités de traduction en propriétés pour l'acide aminé C (Cystéine) :

  C = 1 propriété     C = 2 propriétés     C = 3 propriétés

V3 G6 H4 G6 H4 P1

H4 G6 V3 C1 P1 V3

G6 G6 C1

G6 P1

Selon les besoins, on pourra donc utiliser la propriété "de volume moyen" (V3), "assez hydrophobe" (H4) ou la combinaison "neutre et non polaire et de volume moyen" (C1 P1 V3) ou...

4. Des propriétés vers les acides aminés (retour haut de page)

Il n'y a pas correspondance directe entre un acide aminé et chacune des propriétés comme le montre la table de correspondance inverse. Mais certains acides aminés sont caractérisés par une propriété ou par une combinaison de propriétés (voir les tables de correspondance multiple).

Voici quelques possibilités de définition unique d'acide aminé :

  Acide aminé     1 propriété     2 propriétés     3 propriétés

A      V2 H4

C   G6

D      V3 C3

E      V4 C3

F      V6 H4

G   V1

H      V4 C2

I      V5 H6

K      V6H1

L   H5

M      V5 H4

N         V3 H1 C1

P      V3 G2

Q         V4 H1 C1

R      V7 H1

S      V2 H2

T      V3 G4

V      V4 H6

W   V8

Y      V7 H2

Vous pouvez vérifier l'unicité et tester d'autres définitions à l'aide de la page defAaProps.
5. Des acides aminés vers les structures secondaires (retour haut de page)
PDB décrit la structure secondaire des protéines telle qu'elle est déterminée par cristallographie via les lettres H ("helix"), S ("sheet"), T ("turn") et E ("???") . Ainsi pour la protéine 1ACW dont la séquence en acides aminés est
   
   Nter        VSCEDCPEHCSTQKAQAKCDNDKCVCEPI        Cter 
on obtient comme structure secondaire
               ...SHHHHHH.HTTT.EEEEE.TTEEEEE
   Nter        VSCEDCPEHCSTQKAQAKCDNDKCVCEPI        Cter 
La séquence DCPEHC (en rouge) est incluse dans une hélice (H est la nomenclature de la PDB).
6. Des structures secondaires vers les acides aminés (retour haut de page)

Il n'y a aucun moyen de retourner d'une structure secondaire à une séquence car une structure secondaire n'est qu'une partie de la séquence comme on peut le voir pour la protéine 1AC5.

Cependant il existe des combinaisons répertoriées de structures secondaires nommées motifs supersecondaires comme le "pli Rossmann". Ces motifs supersecondaires correspondent à une séquence consensus en acides aminés par exemple GXXGXG pour le pli Rossmann.

Retour à la page principale de (gH)

Alphabet 1	Alphabet 2	Alphabet 3	Alphabet 4
GUU AGC UGC	VSCED	V2H3 F5 H1C0	H HTTT EEE
codons	acides aminés (AA)	propriétés AA physico-chimiques	structures secondaires