Présentation du projet
Résumé :
Le but du projet est de comptabiliser les environnements des cystéines pour des protéines avec des ponts disulfure c'est à dire de fournir des indicateurs statistiques élémentaires sur les lettres qui entourent la lettre C dans des fichiers-textes.
Détail du projet:
Une protéine est une molécule qui comporte une ou plusieurs parties (chaines), représentées informatiquement par des chaines de caractères sur un alphabet à 20 caractères (séquence d'acides aminés, "AA").Les protéines sont synthétisées (traduites) à partir des ARN messagers ("codons") eux-mêmes issus (transcrits) de séquences ADN (gènes). Les ARN messagers et les séquences ADN utilisent un alphabet à 4 caractères : ATGC pour l'ADN, AUGC pour les ARN messagers.
Une protéine est désignée par un mot unique, nommé identifiant (PDB, Swissprot...). La fonction d'une protéine est liée à ses structures. En particulier un pont disulfure lie deux acides aminés qui sont des cystéines (lettre C). Toutes les cystéines ne sont pas impliquées dans des ponts disulfure et un des enjeux de la bioinformatique aujourd'hui est de comprendre quelles cystéines sont liées dans un pont disulfure.
Dans le cadre du projet, on devra lire des fichiers de séquences ADN et AA et des fichiers DPD qui indiquent les positions des ponts pour fournir des statistiques simples sur les chaines, les acides aminés et les codons. Ces statistiques seront globales (par chaine) et locales c'est à dire limitées à n acides aminés (ou codons) avant et n (le même n) acides aminés après les cystéines. On essaiera également de fournir par programme les environnements les plus significatifs des cystéines impliquées dans des ponts et ceux pour les cystéines non impliquées.
Le programme ne comportera aucune interface. Il utilisera un seul paramètre : le nom générique des fichiers (par exemple j6 pour les trois fichiers du jeu d'essai fourni). Les résultats, non graphiques, seront mis dans un fichier texte. Compte-tenu de la taille des fichiers fournis, on aura intérêt à créer des petits fichiers pour tester les programmes. On distinguera les ponts "inter" des ponts "intra".
On ne supposera en aucun cas que les fichiers sont triés par ordre d'identifiant PDB. De plus, on ne traitera que les séquences uniques (certaines protéines ont parfois plusieurs fois la même chaine, il ne faut en retenir qu'une).
On réalisera le projet en Java qui devra s'éxécuter aussi bien sous Unix que sous Windows, sans utiliser de répertoire particulier.
Quelques références Web utiles :
pdb c'est le site officiel d'où sont extraites les protéines, jaspard on trouvera sur cette page ce qu'est un pont disulfure, l4a cette page détaille les divers alphabets possibles pour décrire une protéine, adbdb quelques comptages par page web.
Fichiers de données
j6_seq.txt C'est le fichier des séquences Fasta (acides aminés) des protéines ; chaque séquence est représentée par deux lignes : la première contient le symbole > puis l'identifiant PDB de la protéine puis le symbole : et enfin la lettre associée à la chaine ; la seconde, éventuellement très longue, contient la liste des acides aminés. Les séquences sont séparées par une ligne vide.j6_codons.txt
Extrait du fichier :>1DKL:A QSEPELKLESVVIVSRHGVRAPTKATQLMQDVTPDAWPTWPVKLGWLTPRGGELIAYLGHYQRQRLVADGLL... >1APH:A GIVEQCCASVCSLYQLENYCN >1APH:B FVNQHLCGSHLVEALYLVCGERGFFYTPKA >1VKT:A GIVEQSCTSISSLYQLENYCN >1VKT:B FVNQHLCGSDLVEALYLVCGERGFFYTKPTC'est le fichier des codons (acides nucléotidiques) des protéines. On trouve éventuellement des commentaires repérés par le symbole # comme premier caractère non nul de ligne. Les protéines sont séparées par une ou plusieurs lignes vides. Chaque protéine comporte une ou plusieurs séquences de codons. Une séquence de codons est écrite sur une seule ligne, éventuellement très longue selon le format suivant : l'identifiant PDB de la protéine, le symbole :, la lettre associée à la chaine, le symbole |, une indication de correspondance swissport (à ignorer), un ou plusieurs espaces, les nucléotides.j6_dpd.txt
Extrait du fichier :# j6_codons.txt ; le 21/07/04 vers 03:56:55 extraction du 01/06/05 vers 17:05:12 1PS3:A|CAA54732p63 aacattgagaacaagctgcatgagctggaaaa... 1APH:A|AAA30722p84 gaggtggagggcccgcaggtgggggcgctggagctggccggaggcccgggcgcgggcggcctg 1APH:B|AAA30722p24 tggcccccccccccggcccgcgccttcgtcaa...C'est le fichier de définition des positions de ponts disulfure pour les protéines. Chaque protéine de ce fichier est décrite par une ou plusieurs lignes consécutives. Les protéines sont séparées par une ou plusieurs lignes vides. Chaque description de pont respecte le format suivant : l'identifiant PDB de la protéine, le mot SSBOND, le numéro de pont, la lettre de la chaine où se trouve la première cystéine impliquée dans le pont, la position de cette première cystéine, la lettre de la chaine où se trouve la seconde cystéine impliquée dans le pont, la position de cette seconde cystéine. Un pont "intra" correspond à une même lettre de chaine pour les deux cystéines alors qu'un pont "inter" correspond à deux lettres de chaine différentes.
Extrait du fichier :1A75 SSBOND 1 CYS A 11 CYS A 33 1DL2 SSBOND 1 CYS A 340 CYS A 385 1DL2 SSBOND 2 CYS A 468 CYS A 471 1QOU SSBOND 1 CYS A 146 CYS B 146 1ID5 SSBOND 1 CYS A 70 CYS A 107Formats des résultats (les valeurs numériques sont fausses)
Comptages :Environnements :IDENTIF LNG A R N D C Cf Ca Cr Q E G ... W Y V 1UR5:A 309 40 14 11 16 2 1 0 1 7 19 28 1 9 30 1HUC:A 47 5 3 1 3 4 2 1 1 1HUC:B 239 13 8 11 12 13 8 4 1 ... 1A75:A 108 23 1 0 12 3 1 1 1 1CRN:A 46 5 2 3 1 6 0 3 3Toutes cystéines confondues taille 1 : A C R 15.3 % A C G 13.8 % taille 2 : P A C R D 10.5 % V A C G P 9.8 % ... taille 5 : Q E P A Y C R D V F G xx.d % Cystéines impliquées dans des ponts intra taille 1 : A C R 15.3 % A C G 13.8 % taille 2 : P A C R D 10.5 % V A C G P 9.8 % ... taille 5 : Q E P A Y C R D V F G xx.d % Cystéines impliquées dans des ponts inter taille 1 : A C R 15.3 % A C G 13.8 % taille 2 : P A C R D 10.5 % V A C G P 9.8 % ... taille 5 : Q E P A Y C R D V F G xx.d % Cystéines non impliquées dans des ponts taille 1 : A C R 15.3 % A C G 13.8 % taille 2 : P A C R D 10.5 % V A C G P 9.8 % ... taille 5 : Q E P A Y C R D V F G xx.d %Retour à la page principale de (gH)