Tests et Comparaisons en Statistiques

Valid XHTML 1.0!                  

 

Notion de test d'hypothèse

La description de "la" réalité en statistiques se fait à l'aide de "variables" qui sont des colonnes de valeurs numériques. On se pose souvent la question de comparer ces variables, de tester si elles sont égales ou différentes, de savoir si on peut considérer qu'elles correspondent ou non à une même population [sous-jacente], si elles correspondent à une distribution donnée, si elles sont conformes à un modèle précis etc. sachant que ces variables et leurs données ne correspondent qu'à un échantillon de valeurs.

Etant donné qu'on ne peut jamais être sûr que le résultat des calculs correspond à "la" réalité, les statisticiens et statisticiennes ont développé un cadre d'analyse qui permet de prendre de telles décisions tout en disposant d'une estimation du "risque" de ces décisions. On ne cherche donc pas à savoir si 3 g/l est plus petit que 5 g/l, par exemple, parce qu'on sait bien que c'est le cas, on cherche à savoir s'il y a une différence significative entre 3 g/l et 5 g/l, avec un sens très précis pour le mot significatif.

Les tests d'hypothèses ont pour buts de

  • clarifier et définir le cadre rigoureux de ces études,
  • fournir un formalisme précis pour toutes les situations,
  • savoir si les différences mises en jeu sont importantes ("significatives" pour un seuil donné) ou non.

Hypothèse nulle, risques de première et deuxième espèce

Le cadre mathématique est celui des évènements probabilisés où l'hypothèse, la comparaison de départ est convertie en un "évènement" intégré à un modèle probabiliste réfutable. On distingue en général deux hypothèses seulement : la première ou "hypothèse nulle", notée H0 est celle où justement la différence est considérée comme nulle (on dira en fait non significative, par rapport à un seuil défini plus loin comme "risque de première espèce") ; la seconde, complémentaire de la première, regroupant tous les autres cas, est nommée "hypothèse alternative" et parfois notée H1.

On peut soit rejeter l'hypothèse nulle, soit ne pas la rejeter alors qu'en fait, soit cette hypothèse est vraie soit elle ne l'est pas ce qui oblige à utiliser un tableau à 4 cases qui résume l'ensemble des couples (décisions/réalité) :

 

Décision / Réalité H0 est vraie H0 est fausse
rejeter H0 RV RF
ne pas rejeter H0 NV NF

 

RF (Rejeter H0 quand elle est Fausse) et NV (Ne pas rejeter H0 quand elle est Vraie) sont des "bonnes décisions". RV (Rejeter H0 quand elle est Vraie) est nommée "erreur de première espèce" et NF (Ne pas rejeter H0 quand elle est Faussee) est nommée "erreur de deuxième espèce". A chacune des ces erreurs, on associe un risque lié à la probablité de la décision : on le nomme α pour RV, β pour NF. Il n'y a aucune raison de supposer ces risques équivalents et souvent on prend α = 5 % (ou 1 % quand on veut être plus strict) alors qu'il est "habituel" de prendre 0.20 pour β.

Il faut bien comprendre que les tests d'hypothèse ne permettent pas d'accepter H0 mais seulement de rejeter H0. Ne pas rejeter H0 ne signifie pas que H0 est vraie mais seulement que la probabilité qu'elle soit fausse est très petite. On n'est donc en fait jamais vraiment totalement sur de rien. Pour mieux comprendre ces notions, on peut utiliser l'analogie du bouton blanc fourni par S. Frontier, D. Davoult, V. Gentilhomme, Y. Lagadeuc au chapitre 5 (Tests d'hypothèses sur les moyennes, p. 141) de leur livre Statistique pour les sciences de la vie et de l'environnement paru chez Dunod :

[...] Ainsi j'ai perdu un bouton de ma blouse en faisant mon cours et, me penchant, j'en aperçois un par terre. S'il n'est pas de la même couleur que les miens, il est certain que ce n'est pas le bouton qui me manque ("test couleur" négatif). S'il est de la bonne couleur (test positif), le bouton est peut-être le mien, mais ce n'est pas certain. En effet, s'il n'est pas de la bonne taille ("test taille" négatif), ce n'est pas le mien. S'il est de la bonne taille, c'est peut-être le mien, mais ce n'est pas encore certain et ainsi de suite...

Si H0 correspond à l'hypothèse "le bouton que j'ai trouvé est mon bouton de blouse", et si on trouve un bouton blanc, sans plus de renseignements, on peut rejeter ou non H0. De même si on trouve un bouton légèrement gris (ou gris-blanc), on peut rejeter ou non H0. Enfin, même avec un bouton bleu (il pourrait être tombé dans une flaque de peinture bleue) on peut refuser ou non H0. Ce qui nous donne en tableau :

 

rejet de H0 non rejet de H0
H0 est vraie risque alpha
(rejet à  tort)
cohérent
H0 est fausse cohérent risque beta
(non rejet à  tort)

 

Dans le cadre de tests statistiques, il ne s'agit pas d'un bouton mais de valeurs numériques. Et on doit décider si on peut considérer par exemple que 0.21 et 0.22 sont proches, si 15 % et 20 % peuvent être considérés comme peu éloignés etc., la loi statistique de la différence entre ces lois étant supposée connue, tabulée et consultable.

Mécanique des tests d'hypothèse

Pour réaliser un test d'hypothèse, il y a un enchainement strict d'actions à effectuer. Cela commence par la formulation de l'hypothèse dans le domaine considéré (médical, économique, social...) et sa traduction en événèments probabilistes liés à H0. On doit ensuite considérer la statistique d'écart (la loi théorique de la différence) et choisir un seuil (alpha) de décision. On doit ensuite calculer la valeur de la statistique d'écart pour nos valeurs puis comparer à la valeur théorique de la statistique d'écart pour le seuil choisi et en déduire si on refuse H0 ou non. Enfin, le calcul (ou la lecture) de la "p-value" associé au dépassement de la valeur de la statistique d'écart permet de conclure de façon fine sur le fait que la différence est significative ou non.

Quels tests pour quelles comparaisons ?

Certains tests supposent une loi ("distribution") théorique sous-jacente avec des paramétres. Ce sont les tests paramétriques. D'autres n'imposent aucune hypothèse de distribution. On les nommes tests non-paramétriques. Suivant qu'on compare une valeur calculée (comme par exemple une moyenne, une proportion) à une valeur théorique ou qu'on compare deux ou plusieurs valeurs calculées entre elles, on parle de test de conformité ou d'homogénéité. On utilise le même vocabulaire pour comparer la ou les distributions calculées. Mais les choses se compliquent si les données sont appariées ou non, si les effectifs des échantillons sont suffisants ou pas...

On pourra lire avec profit les chapitres liés aux tests d'hypothèse du cours de maths SV de Lyon à l'URL suivante http://spiral.univ-lyon1.fr/mathsv/ (cliquer sur la rubrique Probabilité-Statistique de la partie Cours) avant de consulter notre page qui présente des exemples de tests mais attention : il y a beaucoup de tests car il y a beaucoup de situations. Un ultraminimum à savoir faire est sans doute contenu dans notre fichier formules.pdf. Un ensemble assez complet d'une trentaine de comparaisons avec rédaction explicite de la conclusion est à l'adresse

http://cognition.ups-tlse.fr/_christian/poly/stats/IntroStatComp.pdf
(dont une copie locale est ici)

On trouvera ci-dessous une liste de divers tests en fonction de la nature et du nombre d'échantillons. On pourra comparer avec une liste (anglaise) nommée whatstat ; les liens dans notre liste ci-dessous renvoient à la documentation pour R du test correspondant quand il existe.

1. Tests pour les distributions QL

2. Tests pour les distributions QT

Il faut commencer par tester la normalité de la distribution à l'aide du test de Shapiro-Wilk ou du test de Kolmogorov-Smirnov. Si l'hypothèse de normalité n'est pas rejetée, on peut utiliser un test paramétrique. Sinon, on doit utiliser un test non paramétrique.

2.1 Tests paramétriques pour les distributions QT

2.2 Tests non-paramétriques pour les distributions QT

Autres tests

Un test intéressant à connaitre (sous hypothèse de normalité) est celui de la significativité de coefficient de corrélation linéaire (cor.test). On peut aussi comparer deux coefficients de corrélation linéaire. Une autre série de tests importants sont les tests dits post hoc. On les utilise, en cas de comparaisons multiples significatives, pour savoir quels échantillons différent. Il y a par exemple le test de Tukey, le test de Newman-Keuls, le test de Dunnett, le test de Scheffé.

Le logiciel R, dans la package nommé stats (chargé automatiquement), implémente aussi d'autres tests comme :

... sans oublier des tests liés à la puissance du test (power.*.test) et des tests pour comparaisons appariées (pairwise.*.test) :

D'autres packages, plus spécialisés rajoutent encore d'autres tests :

- le package nortest (tests de normalité)

- le package BSDA (Statistiques de base et Analyse des données)

- les packages multcomp (Simultaneous Inference in General Parametric Models), npcm (Nonparametric Multiple Comparisons) et nparcomp (Nonparametric relative contrast effects).

Enfin, le package fBasics, rajoute les tests de normalité de Jarque-Bera et d'Agostino ; il ajoute aussi quelques fonctionnalités au package nortest.

 

retour à statgen     retour à statgen (gH)