Fichiers de données réelles

pour études statistiques

 
    gilles.hunault@univ-angers.fr
 

La pratique des statistiques, qu'elles soient descriptives, inférentielles ou autres doit se faire sur des petits exemples théoriques évidents (c'est à dire dont les calculs se font de tête ou dont l'ordre de grandeur est facile à trouver) et sur des exemples concrets, réels, notamment sur de gros jeux de données d'entreprise, d'instituts...

Nous proposons donc ici

  • des jeux de données issus de nos propres enquêtes et études,
     
  • des fichiers trouvés dans des livres et sur le web, dont des exemples célèbres (Iris de Fisher, exemples d'Anscombe...)
     
  • quelques liens vers des sites spécialisés dans cette problématique. On pourra bien sûr utiliser des moteurs de recherche sur le web pour compléter cette page à condition d'utiliser les mots datasets, sample data files etc.

  •      Vous pouvez aussi consulter ici un diaporama des dossiers traités.


    Jeux de données issus de nos enquêtes et analyses

    Nom  Individus   Variables
    Elf 997    descriptif et données
    Pbio 41912    descriptif et données
    Rhizo 27036    descriptif et données
    Cetop 246122    descriptif et données
    Deverm 75124    descriptif et données
    RepQual500121    descriptif et données

    Quelques dossiers glanés ici et là

    Nom Célèbre   Individus   Variables
    Anscombe X 115    descriptif et données
    Antal 366    descriptif et données
    Appart 282    descriptif et données
    Bumpus X 152    descriptif et données
    Iris X 1505    descriptif et données
    Logement 3610    descriptif et données
    Militiamen X 5738 (16)2    descriptif et données
    Vins 188    descriptif et données

    Quelques sites spécialisés dans le stockage de tels jeux de données

    Statlib Le site officiel qui recense les sites (hum !) ; environ 100 sites.
    Uwi Les données de l'Université du Wisconsin + lien sur d'autres dépositaires.
    Sas 150 exemples de programmes en Sas avec leurs propres jeux de données.
    Sas Encore des dizaines de programmes en Sas (l'index est ici). .
    Snotes Les fichiers d'exemples pour les logiciels R (rstat) et S.
    Umich Le "Data center" des études sur la santé (Université du Michigan).
    Strd Les données de référence pour tests de logiciels du Nist.
    Umass Les jeux de données statistiques de l'Université du Massachusets.
    Dasl Des données avec indication des méthodes statistiques à utiliser.
    ozDasl Le même qu'au-dessus pour l'Australasie (sic).
    webStat Les données du calculateur webStat.
    Ucla Les jeux de données statistiques de l'Université Ucla.
    Duxbury Les exemples de 40 livres de statistiques (formats divers).
    Uchida Une liste par une viennoise.
    Ethz Et une autre, mais suisse et sans explication.
    Pia Des données de Paris 5 (psycho).
    Jse Par le journal américain de l'enseignement des statistiques.