Entrées, sorties, XML et statistiques
gilles.hunault "at" univ-angers.fr
(6 h pour l'Ecole doctorale STIM, juin 2010)
Présentation de l'exposé
Tout utilisateur d'ordinateurs et en particulier tout chercheur en informatique est confronté à la gestion -- lecture, stockage, mise en forme -- d'informations structurées, que ce soit des urls, des articles, des données en entrée (instances classiques, «data for benchmark») ou en sortie, comme les résultats de ses propres programmes (temps d'exécution, formules de résolution, alignements...).. Si l'on peut être tenté de rester naïvement au niveau du format texte avec des délimiteurs primaires comme l'espace, la virgule ou le point-virgule, de façon à utiliser les formats dits DLM (délimited) et CSV, l'expérience montre que définir et conserver une structure forte de l'information est plus efficace.
Le but des 6 heures de présentation est double. D'une part, il s'agit de montrer comment XML est le seul cadre général opérationnel qui répond à ces problèmes de représentation, stockage, diffusion pour les raisons suivantes :
- XML n'est pas seulement un langage mais un méta-langage et une technologie ;
- XML offre le moyen de s'affranchir de tout format propriétaire et de tout système d'exploitation ;
- XML permet le codage direct des structures ;
- XML inclut, par ses grammaires DTD et XSD, la vérification de la structuration ;
- XML fournit, via les transformations XSL, la possibilité de convertir vers tout autre format et constitue donc de facto LE format initial ;
- Les liens entre XML de et vers les bases de données classiques sont fonctionnelles depuis plusieurs années.
D'autre part, toute information un peu détaillée, disons au-delà d'une sizaine de lignes ou de colonnes, demande à être résumée, synthéthisée, voire éventuellement comparée à d'autres informations. C'est justement le rôle des statistiques descriptives et inférentielles que de fournir ces niveaux d'analyse et de comparaison, tant numériquement que graphiquement. Enfin, et parce que les résultats statistiques vont parfois à l'encontre de l'intuition (2 est toujours plus petit que 3 mais 2 n'est pas toujours significativement plus petit que 3), nous détaillerons la notion de test statistique avec les pièges classiques du choix des tests, de leurs conditions d'application avant de conclure par les méthodes plus générales et sophistiquées comme les analyses factorielles, la régression logistique, les calculs de maximum de vraisemblance, et les logiciels grand public ou spécialisés. On citera notamment R, SAS, HyPhy, MrBayes, Mesquite sans oublier de faire un détour par latex, beamer, gnuplot, perl et sweave pour garantir à la fois des sorties textuelles et graphiques de qualité en vue de publication pour une thèse ou un article et une automatisation efficace de la production de ces sorties (literate programming / Programmation_lettrée).
Accès aux deux parties de l'exposé
1. Entrées, sorties et XML
2. Statistiques : calculs, graphiques et automatisation
En guise de conclusion
le «guide» du programmeur
le «credo» du statisticien
Retour à la page principale de (gH)