Repères en Statistiques
pour doctorants et chercheurs
gilles.hunault "at" univ-angers.fr
Qu'est-ce qu'une analyse statistique [rédigée] ?
La réalisation et la rédaction d'une analyse statistique pour un article de recherche ou dans le simple but de rendre compte du travail effectué mettent en jeux deux domaines de compétence :
- le calcul statistique avec ses méthodes, ses modèles, ses termes techniques et ses formules, leurs conditions d'applications, l'utilisation des logiciels ad hoc, les conclusions mathématiques licites auxquelles elles aboutissent ;
- l'écriture du rapport d'analyse via la présentation du protocole et des données (voire des hypothèses sous-jacentes), la mise en forme de tout ou partie des résultats et la rédaction des conclusions, interprétations et commentaires pour les spécialistes du domaine, pour l'équipe de recherche ou pour le grand public.
Une analyse statistique ne se réduit donc pas à une suite de calculs, même justes et justifiés. La rédaction est un art difficile. Elle est souvent bâclée par les [pseudo]scientifiques qui confondent phrases, littérature, verbiage et production littéraire. Or, la qualité d'un article de recherche, d'un rapport d'expérimentation transparait au fil des paragraphes. Le choix des termes employés renforce chez le lecteur ou le correcteur la conviction que le travail fait a été bien fait, que les méthodes statistiques sont maitrisées, que le passage des chiffres (comme m = 12.3 jours) aux lettres ("une durée moyenne aussi faible qu'à l'habitude") est le fruit d'un mûre réflexion...
On trouvera dans ces quelques pages un guide pour conduire des analyses statistiques usuelles avec au passage quelques conseils pour la rédaction et la mise en forme des résultats. La partie purement mathématique (formules, démonstrations...) a été réduite au minimum afin de focaliser l'attention sur les concepts et méthodes. Nous avons donc fait le pari d'écrire un texte lisible sans équation ni intégrale. Les principales formules statistiques, notamment pour les intervalles de confiance sont toutefois fournies en fin de manuel. On pourra toujours retrouver les formules et les démonstrations manquantes dans les ouvrages cités dans la bibliographie ou dans nos cours.
Le reste de cette page contient quelques liens prévus pour être lus "en ligne", que ce soit des rappels de cours, des exemples d'utilisations de logiciels ou des résultats commentés. Tout en bas de la page, des liens vers des pages personnelles pour approfondir la notion de variable, de test sont fournis.
Pour un rappel de ce que sont et de ce que font les statistiques, il faut lire la page rappels rapides.
Texte de l'exposé : raps.ps au format Postscript ; version PDF : raps.pdf
Présentation de logiciels statistiques pour des analyses en 2008 : ici.
En guise d'introduction et de conclusion
Deux courtes pages à propos des variables et des tests statistiques, plutot pour des doctorants en sciences médicales et une page en réponse à la fameuse question
pourquoi faut-il "faire" des statistiques ?
réponse orientée vers les doctorant(e)s, chercheurs et chercheuses des sciences humaines (copie locale) dont les géographes, les historien(ne)s, les littéraires et autres travailleurs des sciences parfois nommées "science molles" c'est à dire avant tout des SCIENCES (copie locale) qui allient connaissance, rigeur, méthodologie et refus de toute sur-subjectivité, superstition ou autre approximation sectaire, la secte commençant parfois à un, cardinalité de l'ensemble réduit au seul auteur de l'article ou de la thèse... J'en profite pour rappeler que je ne fais aucune différence entre "sciences dures" et "sciences molles" ni entre "homme" et "femme" que ce soit en science ou dans la vie de tous les jours...
Texte de l'exposé : raps.ps au format Postscript ; version PDF : raps.pdf
Comme logiciel de statistiques, nous recommandons bien sûr le logiciel R parce qu'il est gratuit, parce que ses graphiques sont de qualité et parce qu'il permet via ses milliers de modules téléchargeables de tout traiter, des données géographiques aux sorties de puces à ADN en passant par les données économiques...
Exemples d'analyses statistiques
bistd1 : étude de la longueur de certaines protéines ; discussion sur une quarantaine de pages des calculs, des logiciels. Rédaction pour un TD de Licence, avec graphiques et commentaires.
adbdb : mise à disposition sur le web de résultats dynamiques pour une base de données de protéines.
ratziu : un article de recherche bien présenté et bien rédigé sur la valeur diagnostique de certains marqueurs sanguins pour la fibrose hépatique.
bls : un poster récent (2007) d'une société angevine
logiciels statistiques : exemples avec Excel (et Statbox), Spss, Statistica, Sas et R.
comparaison d'effectifs : test du chi-deux
avant la comparaison de moyennes : tests de normalité
comparaison de plus de 2 moyennes : anova à un facteur
Utilisation de nos fonctions statgh.r pour le logiciel gratuit logiciel R
Quelques sites à consulter
http://spiral.univ-lyon1.fr/mathsv/
Dans la partie gauche (Cours) cliquer sur "Probabibilité-Statistique". On trouve dans ces pages Web le rappel de cours et des formules ainsi que des exercices corrigés détaillés. Ce site est plutot à considérer comme un aide-mémoire rapide de niveau L1.
http://www.lsp.ups-tlse.fr/Besse/enseignement.html
L'URL indiquée est la page principale des cours du Pr. Philippe BESSE. Suite logique et approfondie de l'URL précédente, il s'agit encore de cours disons "académiques" détaillés.On y trouve aussi une initiation aux logiciesl SAS er R et un cours intéressant sur les des données d'expression génomique fournies par les biopuces ("microarrays").
http://www.math-info.univ-paris5.fr/~smel/
Ce site est plus particulièrement destiné au milieu médical. Le cours en ligne de Statistique Médicale En Ligne est particuliérement bien fait, même s'il est un peut succint à mon gout. Le site comprend de plus un lexique des termes statistiques, des articles médicaux plubliés, des données réelles qui servent pour les exemples.
http://tecfa.unige.ch/staf/staf-d/merino/UDO/
Ce site est en français, limité à certains tests mais il est bien détaillé.
http://www.psychstat.missouristate.edu/sbk00.htm
En anglais, ce site est assez complet. En particulier on y retrouve assez facilement le vocabulaire anglais utilisé en statistiques. Il correspond au livre de Stockburger.
http://www.agro-montpellier.fr/cnam-lr/statnet/
Ce cours, très "propre", d'une collaboration Cnam, Agro Montpellier et Université de Montpellier se lit très bien. De plus certaines séquences vidées (Real Player) permettent de "lire" différement le cours. Le lexique, à l'adresse
http://www.agro-montpellier.fr/cnam-lr/statnet/mod6/mod6lx.htm
permet de retrouver rapidement une notion oubliée ou une formule.
On trouve à cette adresse plus de 600 liens sur des pages Web qui effectuent des calculs statistiques en ligne, que ce soit en java, javascript ou autre langage. On y trouve notamment ces références pour savoir quel test choisir :
Les autres liens permettent, après quelques essais, de trouver sans utiliser de logiciel particulier (ou pour vérifier les résultats d'un logiciel) de faire "en ligne" les calculs, souvent par simple copie/coller des données, comme par exemple le site suivant pour le calcul d'une taille d'échantillon :
http://www.dssresearch.com/toolkit/sscalc/size_a1.asp
http://lexeco.free.fr/stat.htm
Ce site se nomme lui-même "Lexique médico-économique de statistiques appliquées à la médecine". L'intérêt par rapport aux autres sites est de détailler la notion d'essai (à l'aveugle, explicatif, randomisé...) et de parler de cohorte...
http://www.statsoft.com/textbook/stathome.html
On trouve sur cette page américaine l'aide de Statistica. L'approche est progressive et très complète. Il y a de nombreux exemples commentés avec les calculs et les graphiques associés.
http://www.spieao.uhp-nancy.fr/~kohler/PlanStatPCEM1.htm
Pour ceux qui ont oublié PCEM1, voici les cours de statistiques médicales en vidéo du Professeur François KOHLER, Faculté de Médecine de Nancy.
http://www.stat.ucl.ac.be/ISpersonnel/lecoutre/stats/
De très jolies pages à consulter dues à Eric LECOUTRE. En particulier sa "galaxie statistique" à l'adresse
http://www.stat.ucl.ac.be/ISpersonnel/lecoutre/stats/outils/visio/a3outils_frames.htm
permet d'avoir une idée de l'ensemble des techniques statistiques descriptives, comparatives et inférentielles. Une copie locale au format PDF se nomme galaxie.pdf.
http://www.info.univ-angers.fr/pub/gh/vitrine/Democgi/loisStatp.htm
Cette page personnelle permet de calculer rapidement les effectifs théoriques absolus pour une loi discrète dont on connait les paramétres. Par exemple je m'en suis servi pour le calcul du Khi2 de l'exemple "filles dans une famille de 5 enfants" dans le cours pour Doctorants.
Pour apprendre à utiliser SPSS et SAS
http://www.stat.tamu.edu/spss.php
Sur cette page presque une centaine (!) d'animations Flash sonorisées sont disponibles qui permettent de voir comment utiliser Spss. Les formules de cours sont rappelées, et en fin d'animation, un rappel des commandes Spss à exécuter est fourni.
http://www.ats.ucla.edu/stat/spss/sk/default.htm
Beaucoup moins complet que le précédent site, les animations Flash sonorisées montrent cependant assez bien comment utiliser Spss et aussi comment on interprète les résultats.
http://www.ats.ucla.edu/stat/sas/sk/default.htm
Pour ceux et celles qui ne connaissent pas Sas, les animations Flash sonorisées montrent les premières manipulations, les sorties et fournissent des commentaires sur les analyses statistiques...