Présentation du projet
Lorsqu'on dispose d'une ou plusieurs séries de valeurs numériques, il est intéressant de savoir analyser la répartition de ces valeurs, numériquement et graphiquement. Ce qui gène les non-statisticien(ne)s lorsqu'ils ou elles ont à réaliser ce genre de calculs et de visualisations est le coté formules mathématiques (moyennes, variances, écarts-types, lois probabilistes...). Une façon robuste et peu calculatoire pour essayer d'appréhender la dispersion des données est de calculer et de représenter graphiquement les quantiles qui sont simplement des bornes de découpage pour obtenir des effectifs égaux. Les quantiles les plus connus sont :
- Q0.50
- nommé aussi médiane, qui permet de séparer la population entre deux moitiés ("égales") ;
- Q0.25
- nommé aussi premier quartile, qui permet d'obtenir le premier quart de la population ;
- Q0.75
- nommé aussi troisième quartile, qui permet d'obtenir le dernier quart de la population.
Lorsque les données ne sont pas toutes distinctes, la définition des quantiles n'est pas très précise et il existe au moins 8 façons de les calculer. Le but du projet est de réaliser automatiquement en PHP le calcul de ces 8 quantiles pour des jeux de données standards et pour des données saisies dans un formulaire puis de tracer les graphiques correspondants à l'aide de SVG. Ces graphiques, nommés box-plots en anglais, s'appelaient au départ Box-and-Whisker plots d'où le nom français de "boite à moustaches" plutot que "tracés en boites". Si le temps le permet, on implémentera la notion d'encoche ("notch" en anglais) pour ces tracés, de façon à permettre la comparaison visuelle des médianes, au sens de McGill (1978).
Remarque : aucune connaissance en statistique n'est requise. Toutes les explications sont dans le cours d'Avner BAR HEN, chapitre 2, section 2.9 pages 11 à 24.
Les fonctions quantile(), quartile(), mediane() etc. seront programmées indépendamment des graphiques et devront pouvoir etre utilisées par tout programme php à l'aide d'un simple include. Pour le rendu SVG, on pourra se limiter à un affichage pour le navigateur Firefox de Sirius (sans doute en version 2.0.0.8).
Fichiers de données pour jeux d'essais
vins Il faut étudier puis tracer toutes les colonnes (pays) ensemble.elfIl faut étudier puis tracer AGE seul ou AGE par sexe.1056
Prévoir une largeur de boite proportionnelle aux effectifs.La colonne SCI peut être étudiée et tracée globalement ou par niveau de METAVIR. Prévoir une largeur de boite proportionnelle aux effectifs.
Exemple de boites à moustaches avec et sans encoches :
1. pour le jeu de données 1056 :
2. pour le jeu de données vins :
3. pour le jeu de données elf :
Retour à la page principale de (gH)