Valid XHTML     Valid CSS2    

Un peu de statistiques

        Mathématiques CRPE, La Rochelle, 2020

         gilles.hunault "at" univ-angers.fr

1. A quoi servent les mathématiques et les statistiques ?

Historiquement, les statistiques ont existé de façon informelle dès qu'on a commencé à recenser et à collecter des données pour le pays, le royaume, l'état...

De la collecte à l'analyse dont la synthèse, la modélisation et la prédiction, il n'y a qu'un pas. Les statistiques deviennent donc assez rapidement deux disciplines distinctes mais très proches, les statistiques descriptives et les statistiques inférentielles. Les premières décrivent là où les secondes prédisent... parfois avec brio, parfois avec beaucoup d'erreurs.

Comme les mathématiques, les statistiques peuvent donc servir à décrire et à modéliser le monde. Le choix des modèles et leur utilisation est bien sûr sujet à caution.

2. Représentations des données

Une première synthèse, c'est-à-dire un résumé des données, peut se faire graphiquement. L'avantage en est immédiat : on voit les données plutôt qu'on ne les lit. Ainsi, la représentation semi-graphique de données numériques nommée branche et feuille (stem and leaf en anglais) permet d'appréhender les données rapidement lorsqu'elles ne sont pas trop nombreuses.

Par exemple, pour les 99 valeurs d'age des personnes du dossierELF exprimées en annnées, l'afichage des données telles qu'elles sont stockées est sans doute assez peu informatif :


     62 60 31 27 22 70 19 53 62 63 65 11 78 20 48 50 49 44 21 23 28 47 64
     26 14 43 61 15 29 24 41 37 73 12 40 42 15 16 46 61 19 20 73 39 59 22
     52 76 17 44 28 25 28 26 50 28 52 31 29 28 30 28 30 26 29 32 26 27 27
     28 35 35 33 18 21 17 19 18 18 24 25 19 25 25 73 60 49 47 22 15 50 36
     13 12 31 17 39 62 48
     

Fournir ces données triées est déjà un progrés quant à la synthèse :


     11 12 12 13 14 15 15 15 16 17 17 17 18 18 18 19 19 19 19 20 20 21 21
     22 22 22 23 24 24 25 25 25 25 26 26 26 26 27 27 27 28 28 28 28 28 28
     28 29 29 29 30 30 31 31 31 32 33 35 35 36 37 39 39 40 41 42 43 44 44
     46 47 47 48 48 49 49 50 50 50 52 52 53 59 60 60 61 61 62 62 62 63 64
     65 70 73 73 73 76 78
     

Le diagramme branche et feuille permet d'appréhender la distribution et les classes d'âges :


     Branche | Feuilles
           1 | 1223455567778889999
           2 | 0011222344555566667778888888999
           3 | 0011123556799
           4 | 0123446778899
           5 | 0002239
           6 | 0011222345
           7 | 033368
     

Pour des enfants, les statistiques peuvent se résumer à des comptages, par exemple sous forme de paquets ou de boites. On voit ainsi plus facilement le nombre d'éléments par paquets de 5 ou par paquets de 10. Dans la vie courante, les oeufs sont encore systématiquement présentés en boites de douzaines et demi-douzaines.

Statistiquement, la représentation graphique d'une série de valeurs numériques associées à une variable continue se fait soit avec un histogramme des classes, analogue aux boites et paquets

         non su

soit avec une boite à moustaches (boxplot en anglais).

         non su

Pour de petites séries de données, la représentation directe des valeurs reste un moyen simple de voir les données afin de les comprendre.

La représentation graphique d'une série de codes, de labels ou de valeurs numériques associées à une variable discrète se fait soit avec un histogramme des fréquences, analogue aux boites et paquets (barplot en anglais), soit avec un diagramme sectoriel qui est moins conseillé.

         non su

3. Tendances centrales : moyennes et médianes

Un premier moyen de résumer des données quantitatives est d'en calculer la moyenne arithmétique via le rapport de la somme des valeurs sur le nombre de valeurs. Un second résumé est de trouver la médiane, qui est un seuil qui permet de répartir équitablement les données triées dans deux ensembles de valeurs. C'est donc la valeur du milieu s'il y a un nombre impair de données. Ces deux tentatives de centre ou de tendance centrale sont toutes deux imparfaites. Leur généralisation à plusieurs groupes de données (la moyenne de moyennes, la médiane des médianes...) n'est pas simple.

On notera qu'il existe plusieurs sortes de moyennes, correspondant à différents types de données (vitesses, durées...).

Pour les données qualitatives le seul résumé est le calcul des comptages absolus et des comptages relatifs (pourcentages) des modalités.

4. Quelques propriétés des tendances centrales

Puisque la médiane est au centre des données, la médiane d'une série de valeurs est par construction toujours supérieure ou égale à la plus petite des données et inférieure ou égale à la plus grande des données. Cette propriété est également vraie pour la moyenne, mais plus difficile à démontrer à cause de la formulation mathématique.

Moyenne et médiane sont invariables par permutation, c'est-à-dire que les valeurs 4, 8, 5 et 2 ont la même moyenne et la même médiane que les valeurs 2, 4, 5 et 8. C'est un gros défaut de ces résumés : ils n'indiquent pas la progression ou la décroissance...

Moyenne et médiane ne sont pas invariantes par changement d'échelle mais il est facile de calculer la moyenne et la médiane d'une série après changement d'échelle à partir de la moyenne et de la médiane de la série originale.

Moyenne et médiane ne sont pas invariables par translation mais il est facile de calculer la moyenne et la médiane d'une série translatée à partir de la moyenne et de la médiane de la série originale.

5. Exercices de compréhension et d'application

  Exercice 1 

Quelle est la formule de la moyenne m  de $ n$  valeurs $ x_i$  pour $ i$  de $ 1$  à $ n$   ? Et celle de la médiane ?

Quelle est la meilleure façon d'écrire la formule de la moyenne  ?

 solution 

  Exercice 2 

Calculer la moyenne et la médiane des notes $ 12, 15, 14, 11, 18, 12$  pour les filles.

Calculer la moyenne et la médiane des notes $ 11, 13, 11, 12, 12$  pour les garçons.

Calculer la moyenne et la médiane générale, garçons et filles confondus. Il s'agit de notes (en points) sur $ 20$  .

 solution 

  Exercice 3 

On vient de calculer la moyenne arithmétique $m$  de $n$  valeurs. Si on rajoute une $n+1$  -ème valeur notée $ x$  , quelle est la nouvelle valeur de la moyenne que l'on exprimera en fonction de $ m$  , $ n$  et $ x$  seulement ?

 solution 

  Exercice 4 

Sans calcul, quelle est la seule valeur probable de la moyenne pour les données $ 8, 12, 9, 6, 11, 20, 10, 7$  si les valeurs proposées de la moyenne sont $ 5.132, 21.465, 10.375, 2.881$   ?

 solution 

  Exercice 5 

Moyenne de vitesses pour des trajets quelconques :

Le trajet $ 1$  se décompose en une heure à $ 80$  km/h et une heure à $ 60$  km/h. Quelle est la vitesse moyenne ? Peut-on déduire que la vitesse moyenne est la moyenne des vitesses ?

Le trajet $ 2$  se décompose en une heure à $ 80$  km/h et une demi-heure à $ 60$  km/h. Quelle est la vitesse moyenne ? Peut-on déduire que la vitesse moyenne n'est pas la moyenne des vitesses ?

 solution 

  Exercice 6 

Moyenne harmonique :

La moyenne harmonique $ h$  de deux nombres $ a$  et $ b$  est définie comme l'inverse de la moyenne arithmétique de leurs inverses. Quelle en est la formule pratique ?

Application : Quelle est la moyenne harmonique de $ 80$  et de $ 60$   ?

 solution 

  Exercice 7 

Moyenne de vitesses pour une même distance :

Quelle est la vitesse moyenne globale $ v$  d'un trajet effectué à l'aller à la vitesse $v_1$  et au retour à la vitesse $v_2$   ?

Quel est le rapport avec la moyenne harmonique ?

Exemple : On parcourt $ 100$  km à la vitesse de $ 50$  km/h à l'aller et à $ 80$  km/h au retour.

 solution 

 

 retour au plan de cours 

 

 

retour gH    Retour à la page principale de   (gH)