Valid XHTML     Valid CSS2    

XML et bioinformatique

gilles.hunault "at" univ-angers.fr

(4 h pour l'Ecole doctorale STIM, juin 2011)

Présentation de l'exposé

La bioinformatique ne se réduit pas à quelques algorithmes ni à des programmes informatiques appliqués à des données biologiques, fussent-elles génomiques. Les données et leurs meta-informations -- sous forme d'annotation traditionnelle ou non -- font partie intégrante de la bioinformatique, avec comme corollaire leurs lots d'informations variées et parfois disparates. L'hétérogénéité informationnelle qui en résulte n'est pas une conséquence d'un manque initial de structure mais elle provient au contraire de la richesse des domaines de connaissance mis en présence et mis en cause. Seul un format de données hiérarchique modulable, transformable et riche sémantiquement est capable d'accueillir ces données et leur hétérogénéité intrinséque et c'est en ce sens que XML est forcément le seul format d'échange inter-opérable d'un serveur à l'autre, entre communautés de chercheurs en bioinformatique. XML n'exclut pas et ne remplace pas les bases de données traditionnelles (disons en SQL). XML permet de manipuler ces données, de les décrire, de les représenter automatiquement sous forme de graphiques SVG et, lorsque le Web sémantique tiendra toutes ses promesses, de les «comprendre» afin de pouvoir raisonner sur ces données. Au-delà des données (génes, protéines...), XML permet de stocker les résultats de programmes appliqués à ces données, que ce soit des alignements, des phylogénies, des annotations... et permet d'enchaîner les traitements, les sorties d'un programme devenant les entrées d'un autre programme via ce qu'on nomme un workflow.

                khg                 bioinfo                 protein bioinfo                 cerami

Dans une première partie, nous tenterons de rappeller ce qu'est le vaste monde de la technologie XML et comment on sert de ses deux composantes XSD et XSL. Ensuite, dans la deuxième partie, nous passerons en revue quelques formats XML utilisés par les grands centres bioinformatiques internationaux et nous verrons comment ces formats s'intégrent dans des «workflows» avant de passer à quelques exemples simples d'extraction, conversion et manipulation de données XML via XSL. Tout à la fin de l'exposé, nous aborderons la problématique de l'exploitation sémantique des données...

1. Les trois sigles qui disent tout : XML, XSD et XSL

1.1 Le vaste monde de la technologie XML

      introduction à XML       App. &Initiatives (2005)       XML-RPC       SOAP 

1.2 Grammaires et transformations

      DTD       XSD       XSL      Info. interchange (JMR)

1.3 Graphiques en XML : SVG pour la bioinformatique

     GenVect     Minomics     Cgview

Un exemple conséquent : 1752-0509-1-26-s11.svg (2,5 Mo !)

renommé en 1752-0509-1-26-s11.txt

références : BMC Systems Biology 2007, 1:26.

2. XML en action pour la bioinformatique  PG refs 

2.1 Exemple de la protéine A2ZDX4 (Dehydrin Rab16D) qui est une protéine LEA classe 1

     UNIPROT      interface         texte        XML        RDF  
      NCBI          références      Genpept      Fasta      Graphics

Pour le NCBI, utiliser Send to: / File puis XML, INSDSeq ou TinySeq pour exporter en XML.

2.2 Grands centres et formats XML

     NCBI     EBI     PDBML     PFAM

2.3 Données élémentaires et résultats d'applications

Sans entrer dans le détail des séquences nucléotidiques d'ADN, d'ARN avec les introns, les exons, les gènes et autres EST ou STS, nous fournissons ici quelques liens sur le stockage XML de ces données en plus des standards présentés en 2.1 et 2.2 ; ce qu'on fait par programme de ces données est très vaste et nous avons simplifié en ne fournissant des liens que sur deux applications classiques : les alignements et les phylogénies, sans rentrer là-encore dans le détail des milliers d'applications liées à ces séquences ou portion de séquences.

 Données (séquences et autres)  SequenceML INDSC (voir hech pages 23-* ) SRA jbei-seq KGML (KEGG Language)
Résultats (1) : Alignements kalign (macsims) PTC portal (parralel T-Coffee)
Résultats (2) : Phylogénies phyloXML (wiki) phyloXML.org tol (détails) archaeopteryx

2.4 Webservices et Workflows

     WSDL      biodom      XML schemas bioinfo      BioXSD      Embrace      EDAM
     stylusstudio      kepler      conveyor
      Taverna (1)       (2)        (3) 

2.5 Bioinformatique, sémantique et XML

     GO     PRO     NCBO      SPARQL (1)       (2)       (3)       BAO (1)       (2)       (3) 

Attention aux formats XML qui apparaissent un jour et n'existent plus un an plus tard :

     XOL     BSML     XSIL

 

 

retour gH    Retour à la page principale de   (gH)