Un peu de statistiques
Mathématiques CRPE, La Rochelle, 2020
gilles.hunault "at" univ-angers.fr
1. A quoi servent les mathématiques et les statistiques ?
Historiquement, les statistiques ont existé de façon informelle dès qu'on a commencé à recenser et à collecter des données pour le pays, le royaume, l'état...
De la collecte à l'analyse dont la synthèse, la modélisation et la prédiction, il n'y a qu'un pas. Les statistiques deviennent donc assez rapidement deux disciplines distinctes mais très proches, les statistiques descriptives et les statistiques inférentielles. Les premières décrivent là où les secondes prédisent... parfois avec brio, parfois avec beaucoup d'erreurs.
Comme les mathématiques, les statistiques peuvent donc servir à décrire et à modéliser le monde. Le choix des modèles et leur utilisation est bien sûr sujet à caution.
2. Représentations des données
Une première synthèse, c'est-à-dire un résumé des données, peut se faire graphiquement. L'avantage en est immédiat : on voit les données plutôt qu'on ne les lit. Ainsi, la représentation semi-graphique de données numériques nommée branche et feuille (stem and leaf en anglais) permet d'appréhender les données rapidement lorsqu'elles ne sont pas trop nombreuses.
Par exemple, pour les 99 valeurs d'age des personnes du dossierELF exprimées en annnées, l'afichage des données telles qu'elles sont stockées est sans doute assez peu informatif :
62 60 31 27 22 70 19 53 62 63 65 11 78 20 48 50 49 44 21 23 28 47 64 26 14 43 61 15 29 24 41 37 73 12 40 42 15 16 46 61 19 20 73 39 59 22 52 76 17 44 28 25 28 26 50 28 52 31 29 28 30 28 30 26 29 32 26 27 27 28 35 35 33 18 21 17 19 18 18 24 25 19 25 25 73 60 49 47 22 15 50 36 13 12 31 17 39 62 48Fournir ces données triées est déjà un progrés quant à la synthèse :
11 12 12 13 14 15 15 15 16 17 17 17 18 18 18 19 19 19 19 20 20 21 21 22 22 22 23 24 24 25 25 25 25 26 26 26 26 27 27 27 28 28 28 28 28 28 28 29 29 29 30 30 31 31 31 32 33 35 35 36 37 39 39 40 41 42 43 44 44 46 47 47 48 48 49 49 50 50 50 52 52 53 59 60 60 61 61 62 62 62 63 64 65 70 73 73 73 76 78Le diagramme branche et feuille permet d'appréhender la distribution et les classes d'âges :
Branche | Feuilles 1 | 1223455567778889999 2 | 0011222344555566667778888888999 3 | 0011123556799 4 | 0123446778899 5 | 0002239 6 | 0011222345 7 | 033368Pour des enfants, les statistiques peuvent se résumer à des comptages, par exemple sous forme de paquets ou de boites. On voit ainsi plus facilement le nombre d'éléments par paquets de 5 ou par paquets de 10. Dans la vie courante, les oeufs sont encore systématiquement présentés en boites de douzaines et demi-douzaines.
Statistiquement, la représentation graphique d'une série de valeurs numériques associées à une variable continue se fait soit avec un histogramme des classes, analogue aux boites et paquets
soit avec une boite à moustaches (boxplot en anglais).
Pour de petites séries de données, la représentation directe des valeurs reste un moyen simple de voir les données afin de les comprendre.
La représentation graphique d'une série de codes, de labels ou de valeurs numériques associées à une variable discrète se fait soit avec un histogramme des fréquences, analogue aux boites et paquets (barplot en anglais), soit avec un diagramme sectoriel qui est moins conseillé.
3. Tendances centrales : moyennes et médianes
Un premier moyen de résumer des données quantitatives est d'en calculer la moyenne arithmétique via le rapport de la somme des valeurs sur le nombre de valeurs. Un second résumé est de trouver la médiane, qui est un seuil qui permet de répartir équitablement les données triées dans deux ensembles de valeurs. C'est donc la valeur du milieu s'il y a un nombre impair de données. Ces deux tentatives de centre ou de tendance centrale sont toutes deux imparfaites. Leur généralisation à plusieurs groupes de données (la moyenne de moyennes, la médiane des médianes...) n'est pas simple.
On notera qu'il existe plusieurs sortes de moyennes, correspondant à différents types de données (vitesses, durées...).
Pour les données qualitatives le seul résumé est le calcul des comptages absolus et des comptages relatifs (pourcentages) des modalités.
4. Quelques propriétés des tendances centrales
Puisque la médiane est au centre des données, la médiane d'une série de valeurs est par construction toujours supérieure ou égale à la plus petite des données et inférieure ou égale à la plus grande des données. Cette propriété est également vraie pour la moyenne, mais plus difficile à démontrer à cause de la formulation mathématique.
Moyenne et médiane sont invariables par permutation, c'est-à-dire que les valeurs 4, 8, 5 et 2 ont la même moyenne et la même médiane que les valeurs 2, 4, 5 et 8. C'est un gros défaut de ces résumés : ils n'indiquent pas la progression ou la décroissance...
Moyenne et médiane ne sont pas invariantes par changement d'échelle mais il est facile de calculer la moyenne et la médiane d'une série après changement d'échelle à partir de la moyenne et de la médiane de la série originale.
Moyenne et médiane ne sont pas invariables par translation mais il est facile de calculer la moyenne et la médiane d'une série translatée à partir de la moyenne et de la médiane de la série originale.
5. Exercices de compréhension et d'application
Exercice 1
Quelle est la formule de la moyenne m de $ n$ valeurs $ x_i$ pour $ i$ de $ 1$ à $ n$ ? Et celle de la médiane ?
Quelle est la meilleure façon d'écrire la formule de la moyenne ?
solution
La moyenne $ m$ de $ n$ valeurs $ x_i$ pour $ i$ de $ 1$ à $ n$ est, formellement, $m = \dfrac{x_1+x_2+...+x_n}{n}$ .
La notation classique est $m=\dfrac{1}{n}\displaystyle\sum_{i=1}^n\ x_i$ .
Si on note $ S$ la somme des $ n$ valeurs $ x_i$ , la moyenne est donc $m = \dfrac{S}{n}$ .
La meilleure façon de l'écrire est $S = n\times m$ . D'une part parce qu'elle montre qu'on remplace la somme $ S$ par deux nombres et d'autre part parce que sous cette forme la formule se généralise bien.
Il serait par contre correct mais maladroit de l'écrire comme on voit parfois
$m = \dfrac{x_1}{n}+\dfrac{x_2}{n}+...+\dfrac{x_n}{n}=\displaystyle\sum_{i=1}^n\dfrac{x_i}{n}$
parce que cela fait trop de divisions à calculer. Cela peut aussi aboutir à des erreurs d'arrondi.
La formule de la médiane $ q_2$ de $ n$ valeurs $ x_i$ triées par ordre croissant est $q_2=x_{k+1}$ si $ n$ est impair sous la forme $n=2k+1$ .
Si $ n$ est pair sous la forme $n=2k$ , il est d'usage de prendre comme médiane la demi-somme $q=\dfrac{x_k+x_{k+1}}{2}$ , toujours pour des valeurs triées par ordre croissant.
Exercice 2
Calculer la moyenne et la médiane des notes $ 12, 15, 14, 11, 18, 12$ pour les filles.
Calculer la moyenne et la médiane des notes $ 11, 13, 11, 12, 12$ pour les garçons.
Calculer la moyenne et la médiane générale, garçons et filles confondus. Il s'agit de notes (en points) sur $ 20$ .
solution
Pour les filles :
La somme $s_F$ des notes des filles est $12+15+14+11+18+12=82$ .
Comme il y a $n_F=6$ filles, la moyenne $m_F$ des notes des filles est $m_F=\dfrac{s_F}{n_F}=\dfrac{82}{6}\simeq13,67$ .
Les notes triées des filles sont $ 11, 12, 12, 14, 15, 18$ .
Les deux notes du milieu sont $ 12$ et $ 14$ . La médiane $q_{2F}$ des notes des filles est donc $ 13$ .
Pour les garçons :
La somme $s_G$ des notes des garçons est $11+13+11+12+12=59$ .
Comme il y a $n_G=5$ garçons, la moyenne $m_G$ des notes des garçons est $m_G=\dfrac{s_G}{n_G}=\dfrac{59}{5}=11,8$ .
Les notes triées des garçons sont $ 11, 11, 12, 12, 13$ .
Il y a un nombre impair de garçons. La médiane $q_{2G}$ des notes des garçons est donc la valeur du milieu, soit $ 12$ .
Pour les filles et les garçons ensemble :
La somme totale $S_T$ des ages, filles et garçons confondus, est $s_F+s_G=82+59=141$ .
Le nombre total de personnes est $n_T=n_F+n_G=6+5=11$ .
On en déduit que la moyenne générale est $m_T=\dfrac{s_T}{n_T}=\dfrac{141}{11}\simeq 12,82$ .
On peut constater que ce n'est pas la moyenne des moyennes, qui vaut $\dfrac{m_F+m_G}{2}\simeq 12,73 $ .
L'ensemble des notes triées est $ 11, 11, 11, 12, 12, 12, 12, 13, 14, 15, 18$ .
Il y a un nombre impair de valeurs. La médiane $q$ de l'ensemble des est donc la valeur du milieu, soit $ 12$ .
Exercice 3
On vient de calculer la moyenne arithmétique $m$ de $n$ valeurs. Si on rajoute une $n+1$ -ème valeur notée $ x$ , quelle est la nouvelle valeur de la moyenne que l'on exprimera en fonction de $ m$ , $ n$ et $ x$ seulement ?
solution
La moyenne de départ $m$ des $ n$ valeurs vérifie $S=nm$ .
Si on ajoute $ x$ et si on note $ M$ la nouvelle moyenne, on a $S+x=(n+1)M$ .
La nouvelle moyenne est donc $M=\dfrac{S+x}{n+1}=\dfrac{nm+x}{n+1}$ .
Exercice 4
Sans calcul, quelle est la seule valeur probable de la moyenne pour les données $ 8, 12, 9, 6, 11, 20, 10, 7$ si les valeurs proposées de la moyenne sont $ 5.132, 21.465, 10.375, 2.881$ ?
solution
La moyenne (comme la médiane) est comprise entre la plus petite des valeurs et la plus grande des valeurs. La seule moyenne possible est $ 10.375$ .
Exercice 5
Moyenne de vitesses pour des trajets quelconques :
Le trajet $ 1$ se décompose en une heure à $ 80$ km/h et une heure à $ 60$ km/h. Quelle est la vitesse moyenne ? Peut-on déduire que la vitesse moyenne est la moyenne des vitesses ?
Le trajet $ 2$ se décompose en une heure à $ 80$ km/h et une demi-heure à $ 60$ km/h. Quelle est la vitesse moyenne ? Peut-on déduire que la vitesse moyenne n'est pas la moyenne des vitesses ?
solution
La vitesse est le rapport distance/durée. Il faut donc calculer la distance totale et la durée totale pour calculer la vitesse moyenne.
Trajet 1 :
Au bout d'une heure à $ 80$ km/h on a parcouru $ 80$ km. Au bout d'une heure à $ 60$ km/h on a parcouru $ 60$ km. En tout on a parcouru $ 80+60=140$ km en $ 1+1=2$ heures. La vitesse moyenne est donc $ 140/2=70$ km/h, qui est exactement la moyenne de $ 80$ et de $ 60$ . Cela ne prouve rien parce que ce n'est qu'un exemple.
Trajet 2 :
Au bout d'une heure à $ 80$ km/h on a parcouru $ 80$ km. Au bout d'une demi-heure à $ 60$ km/h on a parcouru $ 30$ km. En tout on a parcouru $ 80+30=110$ km en $ 1+1/2=3/2$ heures. La vitesse moyenne est donc $110/(3/2) \simeq 73.33$ km/h, qui n'est pas la moyenne de $ 80$ et de $ 60$ . Cela prouve bien que la vitesse moyenne n'est pas la moyenne des vitesses car un seul contre-exemple suffit à infirmer une affirmation.
Exercice 6
Moyenne harmonique :
La moyenne harmonique $ h$ de deux nombres $ a$ et $ b$ est définie comme l'inverse de la moyenne arithmétique de leurs inverses. Quelle en est la formule pratique ?
Application : Quelle est la moyenne harmonique de $ 80$ et de $ 60$ ?
solution
La moyenne arithmétique des deux nombres $ x$ et $ y$ est $\dfrac{x+y}{2}$ .
La moyenne arithmétique des inverses des deux nombres $ a$ et $ b$ est donc, pour $x=\dfrac{1}{a}$ et $y=\dfrac{1}{b}$ le quotient $\dfrac{\dfrac{1}{a}+\dfrac{1}{b}}{2}=\dfrac{a+b}{2ab}$ .
On en déduit que la moyenne harmonique des deux nombres $ a$ et $ b$ est donnée par la formule $\dfrac{2ab}{a+b}$ .
Application : La moyenne harmonique de $ 80$ et de $ 60$ est $\dfrac{2\times 60\times 80}{60+80}=\dfrac{9600}{140}=\dfrac{20\times 480}{20\times 7}=\dfrac{480}{7}$ soit à peu près $ 68,57$ .
Exercice 7
Moyenne de vitesses pour une même distance :
Quelle est la vitesse moyenne globale $ v$ d'un trajet effectué à l'aller à la vitesse $v_1$ et au retour à la vitesse $v_2$ ?
Quel est le rapport avec la moyenne harmonique ?
Exemple : On parcourt $ 100$ km à la vitesse de $ 50$ km/h à l'aller et à $ 80$ km/h au retour.
solution
Essayons d'abord de résoudre l'exemple pratique. On commence par calculer la durée de chaque trajet pour avoir la durée totale.
Puisque $100=2\times 50$ la durée de l'aller est de $t_1=2$ h.
Pour le retour : $100=80\times \dfrac{100}{80}=80\times \dfrac{20\times 5}{20\times 4}=80\times \dfrac{5}{4}$ .
La durée du retour est donc de $t_2=\dfrac{5}{4}$ h , soit $ 1$ heure et $ 15$ minutes.
La durée totale exprimée en heures est $T=t_1+t_2=2 + \dfrac{5}{4}=\dfrac{2}{1}\times\dfrac{4}{4}+\dfrac{5}{4}=\dfrac{13}{4}$ h pour un trajet total de $D=2\times d=2\times 100=200$ km.
On en déduit que la vitesse globale moyenne est $v=\dfrac{D}{T}=\dfrac{200}{\dfrac{13}{4}}=\dfrac{200}{1}\times\dfrac{4}{13}=\dfrac{800}{13}$ soit environ $ 61,54$ km/h.
La moyenne harmonique de $ 50$ et de $ 80$ est $\dfrac{2\times 50\times 80}{50+80}=\dfrac{8000}{130}=\dfrac{10\times 80}{10\times 13}=\dfrac{800}{13}$ .
On remarque ici que la moyenne pratique trouvée pour l'exemple numérique est égale à la moyenne harmonique. Essayons de le démontrer.
Le trajet aller est défini par une distance $ d$ et une vitesse $v_1$ soit une durée $t_1=\dfrac{d}{v_1}$ puisque $v_1=\dfrac{d}{t_1}$ .
Le trajet retour est défini par la même distance $ d$ et une vitesse $v_2$ soit une durée $t_2=\dfrac{d}{v_2}$ puisque $v_2=\dfrac{d}{t_2}$ .
La distance totale parcourue est $2\times d$ pour une durée globale $t_1+t_2$ .
La vitesse globale moyenne est donc $v=\dfrac{2\times d}{t_1+t_2}=\dfrac{2\times d}{\dfrac{d}{v_1}+\dfrac{d}{v_2}}$ .
Après simplification par $ d$ , on obtient $v=\dfrac{2}{\dfrac{1}{v_1}+\dfrac{1}{v_2}}$ , il s'agit donc bien de la moyenne harmonique des vitesses $v_1$ et $v_2$ .
Retour à la page principale de (gH)