Fichiers de données réelles
pour études statistiques
gilles.hunault@univ-angers.fr
La pratique des statistiques, qu'elles soient descriptives, inférentielles ou autres doit se faire sur des petits exemples théoriques évidents (c'est-à-dire dont les calculs se font de tête ou dont l'ordre de grandeur est facile à trouver) et sur des exemples concrets, réels, notamment sur de gros jeux de données d'entreprise, d'instituts, de laboratoires, d'enquêtes régionales, nationales...
Nous proposons donc ici
- des jeux de données issus de nos propres enquêtes et études ;
- des fichiers trouvés dans des livres et sur le web, dont des exemples célèbres (Iris de Fisher, exemples d'Anscombe...) ;
- quelques liens vers des sites spécialisés dans cette problématique.
On pourra bien sûr utiliser des moteurs de recherche sur le web pour compléter cette page à condition d'utiliser les mots datasets, sample data files etc.
Vous pouvez aussi consulter ici un diaporama des dossiers traités.
Jeux de données issus de nos enquêtes et analyses
Nom Individus Variables Elf 99 7 descriptif et données Pbio 419 12 descriptif et données Rhizo 270 36 descriptif et données Cetop 246 122 descriptif et données Deverm 75 124 descriptif et données RepQual 500 121 descriptif et données Ronfle 100 8 descriptif et données LEA (protéines) 773 11 descriptif et données Quelques dossiers glanés ici et là
Nom Célèbre Individus Variables Anscombe X 11 5 descriptif et données Antal 36 6 descriptif et données Appart 28 2 descriptif et données Bumpus X 15 2 descriptif et données Her (Santé) 80 15 descriptif et données Iris X 150 5 descriptif et données Logement 36 10 descriptif et données Militiamen X 5738 (16) 2 descriptif et données Olympic X 34 12 descriptif et données Tips (Pourboires) 244 8 descriptif et données Titanic X 2201 5 descriptif et données Vins 18 8 descriptif et données Quelques sites spécialisés dans le stockage de tels jeux de données
Statlib Le site officiel qui recense les sites (hum !) ; environ 100 sites. Uwi Les données de l'Université du Wisconsin + lien sur d'autres dépositaires. Sas 150 exemples de programmes en Sas avec leurs propres jeux de données. Sas Encore des dizaines de programmes en Sas (l'index est ici). Snotes Les fichiers d'exemples pour les logiciels R (rstat) et S. Umich Le "Data center" des études sur la santé (Université du Michigan). Strd Les données de référence pour tests de logiciels du Nist. Umass Les jeux de données statistiques de l'Université du Massachusets. Dasl Des données avec indication des méthodes statistiques à utiliser. ozDasl Le même qu'au-dessus pour l'Australasie (sic). webStat Les données du calculateur webStat. Ucla Les jeux de données statistiques de l'Université Ucla. Duxbury Les exemples de 40 livres de statistiques (formats divers). Uchida Une liste par une viennoise. Ethz Et une autre, mais suisse et sans explication. Pia Des données de Paris 5 (psycho). Jse Par le journal américain de l'enseignement des statistiques.