Quelques conseils sur la
rédaction d'Analyses Statistiques


Version Word zippée : redige.zip


Au menu :

Partie descriptif
Sur l'origine des données
Sur le choix ou la sélection des données
Sur la description des données brutes
Sur les données manquantes
Sur les unités des variables QT
Sur le nom des colonnes
Sur le recodage des variables QT en variables QL
Partie calculs
Sur l'analyse séparée des variables QT
Sur l'analyse séparée des variables QL
Sur l'analyse conjointe des variables QT
Sur l'analyse conjointe des variables QL
Partie rédaction
Sur l'utilisation d'Excel

Sur l'origine des données

Il est bon de citer des sources précises.

S'il s'agit d'un magazine, il faut en donner le titre, l'année, le numéro, le mois si c'est un mensuel, préciser éventuellement s'il s'agit d'un numéro hors-série. S'il s'agit de données trouvées sur le Web, il faut donner les références de la page Web, pas seulement celle du site. On se méfiera en particulier d'une étude traitée à l'an x alors que les données présentées datent de l'an y, de données statistiques dites "classiques" qui datent souvent comme par exemple les Iris de Fisher publiées pour la première fois en 1933.

Il ne faut donc pas dire :

Les données proviennent du serveur StatLib.

Ce dossier est extrait d'une enquête du journal Le Monde.

Il s'agit d'une étude médicale sur des patients américains.

mais :
Les données proviennent du serveur StatLib, à la rubrique "detroit" dont l'adresse Web est http://lib.stat.cmu.edu/datasets/detroit.

Ce dossier est extrait d'une enquête du journal Le Monde du 07 janvier 1999 ; on notera toutefois que les données font référence à une enquête réalisée dans le courant de l'année 1996.

Dans le cadre d'une étude sur la dégénèrescence des cellules suite à un cancer du sein, le docteur Mac Lyre de l'hopital de Portland, Oregon, a étudié en 1998...

Sur le choix ou la sélection des données

Si on ne traite pas l'ensemble des données d'un dossier, il faut signaler les raisons du choix, le critère de sélection.

Il peut arriver qu'on ne dispose pas de toutes les données, qu'on filtre pour ne garder que les lignes complètes de données ou qu'il y ait au contraire trop de données à saisir à la main... Dans tous les cas, on indiquera le nombre de données originales et les critères du choix ( intelligent et sensé) des données retenues.

Il est encore plus incorrect de supprimer sans le dire des lignes de données : si un site Web fournit un jeu de données avec 300 lignes, il n'y a aucune raison de n'en traiter que 70.

Il est donc interdit d'écrire :

Il y avait trop de données, on a pris les 50 premières lignes.

Nous avons retenu 50 individus parmi les 380 proposés.

mais on peut très bien produire les phrases :
A partir des 630 communes recensées, nous avons extrait les 80 communes les plus peuplées afin de nous concentrer sur les communes les plus importantes.
Il peut arriver parfois que certains jeux de données soient faux, par suite d'erreurs de transcription. Ainsi, dans le dossier "Sleep" où on étudie une population américaine, la taille minimale est de 64 cm pour un poids de 85 kg, ce qui est visiblement une erreur pour un dossier américain car le "politiquement correct" des Etats Unis proscrit l'utilisation de telles données mettant en jeu un individu "de petite taille". Dans ce cas et dans ce cas seulement, si le nombre de données incorrectes n'est pas trop important, on supprimera les lignes de données incriminées et on le signalera.

Sur la description des données brutes

La description des données ne se limite pas à donner le type QT ou QL de la variable, avec son unité ou sa liste de codes.

Il faut parfois détailler le lieu d'expériementation, la période de recueil des données... Dire que la colonne TAXE correspond à une taxe ne renseigne pas. Indiquer qu'il s'agit d'une taxe locale comme la taxe d'habitation basée sur la surface du logement est déjà plus précis. Indiquer s'il s'agit d'une valeur mensuelle ou annuelle l'est encore plus.

Certains termes ont besoin d'être précisés : le sommeil paradoxal des animaux n'est certainement pas la période où l'animal rêve, les pression disatolique et systoliques sont les indices utilisés pour mesurer la tension artérielle, etc.

Sur les données manquantes

Il arrive que des données soient manquantes, quelque soit la raison de leur absence.

On se doit de le signaler très tôt et indiquer quels traitements particuliers on a effectué. Lorsqu'il y a beaucoup de données, on peut se permettre de supprimer quelques lignes de données incorrectes. Le codage des données manquantes est délicat : si l'on met -1 ou -999 par exemple, un logiciel comme Excel ne s'en rendra pas compte et le calcul de la moyenne sera faux. Par contre, mettre le symbole "?" n'empêche pas un calcul correct de moyenne. Mettre un symbole non numérique permet de tester sous Excel avec la fonction EstNum la nature de la cellule. Par contre cela n'est pas cohérent au sens d'une base de données : une colonne AGE exprimée avec 2 chiffres ne peut pas, pour une base de données, contenir le caractère "?" et il faut alors utiliser la valeur -1 ou -9 et veiller à n'effectuer les calculs que pour les ages strictement positifs.

Sur les unités des variables QT

Lorsque les données proviennent de sources anglaises ou américaines, les unités de mesure pour la taille, le poids ne sont pas compréhensibles par des français. Il faut donc remplacer les inches par leur équivalent en cm, les pounds par leur équivalent en kg, etc.

Les données médicales ou biologiques sont parfois incompréhensibles pour des non initiés. Il faut alors les commenter, founir des indications sur les valeurs standards, "normales"...

Par exemple il ne faut pas écrire :

la colonne DURETE de l'eau est exprimée en degrés
mais :
La dureté d'une eau s'exprime en degrés français (df ou °F). Un degré français de dureté correspond à une teneur en calcium et magnésium équivalente à 10 mg de carbonate de calcium par litre. A titre indicatif, on considère qu'une eau est
douce si sa dureté est inférieure à 18°F
mi-dure si sa dureté est comprise entre 18 et 30°F
dure si sa dureté est supérieure à 30°F

Sur le nom des colonnes

Les colonnes, qu'il s'agit de l'identificateur, des variables QT ou QL, doivent avoir des noms clairs.

Ce n'est pas parce que l'INSEE désigne dans une enquête les vols à la roulotte par l'intitulé VOLS1 et les vols à l'étalage par VOLS2 qu'il faut conserver ces intitulés. Il vaut mieux ici les renommer ROULOT et ETALAG si on ne traite que des vols, VROULOT et VETALAG si on traite des vols et d'autres délits.

En cas de données chronologiques, par exemple une étude sur deux années, il faut réfléchir au nommage asticieux des colonnes. Il peut être intéressant de noter POP1 et POP2 les populations pour la première et la deuxième année, mais POP88 et POP95 sont encore plus explicites s'il s'agit de populations pour les années 1988 et 1995.

Sur le recodage des variables QT en variables QL

Lorsqu'on fait des classes à partir d'une variable QT, il faut discuter le nombre de classes choisi et détailler l'élaboration des classes, sans oublier de nommer les modalités.

Un recodage ne doit pas oublier de valeur : par exemple les classes "<100" et ">100" oublient la valeur 100).

Il est incorrect de se limiter à :

Nous avons créé des classes d'age:
0: 20 à 40 ans; 1: 41 à 60 ans; 2: 61 à 70 ans.
Les codes pour PS sont les suivants
1: PS > 140 ; 2: PS< 110

Sur l'analyse séparée des variables QT

Il est obligatoire d'analyser chaque variable QT.

Lorqu'on analyse une variable "humaine" comme l'age, le poids, il faut penser à regarder le minimum, le maximum. Par exemple dans le dossier "Sleep" la taille minimale est de 64 cm pour un poids de 85 kg, ce qui est visiblement une erreur pour un dossier américain.

Le tri par moyenne décroissante n'a pas toujours de sens. Si on ne doit pas l'effectuer, il faut le signaler. Si on ne l'effectue que sur certaines variables, il faut le préciser aussi.

Sur l'analyse séparée des variables QL

Il est obligatoire d'analyser chaque variable QL.

Après l'analyse de chaque variable QL, il est nécessaire d'ordonner l'ensemble des analyses des QL pour savoir dans quel ordre les commenter.

L'analyse de chaque QL, nommée tri à plat, consiste à trier par ordre décroissant de fréquence les modalités. La présentation dite intelligente de l'ensemble des tris à plat vient présenter les variables QL par ordre décroissant de mode, le mode étant la modalité de plus fort effectif.

Il ne doit jamais subsister de code dans un tri à plat. Au contraire, ne doivent y figurer que les modalités. Chaque tri à plat doit être assorti d'un commentaire.

Présenter le tableau :

RACE 1 67 13 %
2 27 05 %
3 440 82 %

ce n'est donc pas réaliser un tri à plat. Celui-ci serait ici :

RACE Blanche 440 82 %
Autre 67 13 %
Hispanique 27 05 %

à condition de l'associer au commentaire :

Sur les 534 personnes étudiées, une très grande majorité (82 %) de la population est blanche. La population hispanique (5 %) est nettement moins présente que les autres races (12 %).

Pour présenter le résumé des analyses QL, il est bon de ne retenir que les 2 ou 3 plus fortes modalités de chaque variable. Il est recommandé de séparer les variables à modalité majoritaire des variables sans modalité majoritaire si les modes sont bien séparés : distinguer 51 % de 49 % serait maladroit mais séparer 68 % de 37 % a tout son sens.

Voici un exemple de tableaux récapitulatifs pour l'analyse de quelques QL :

1. Variables à modalité majoritaire
NOM Mode Effectif Modalité Effectif
RACE Blanche 82 % Autre 12.55 %
SYNDICAT Non membre 82 % Membre 17.98 %
SECTEUR Autre 77 % Manufact. 18.54 %
SUD Non 71 % Oui 29.21 %
MARRIE Oui 66 % Non 34.46 %
SEXE Homme 54 % Femme 45.88 %

2. Variables sans modalité majoritaire
NOM Mode Effectif Modalité Effectif Modalité Effectif
OCCUP Autre 29 % Profess. 20 % Religieux 18 %

Auquel on peut adjoindre les commentaires suivants :

La race blanche est manifestement très prépondérante et la plus importante en effectif (440 individus sur 534 soit 82 %) dans cette analyse, de même que les personnes non membres d'un syndicat (438 individus soit aussi 82 %). La modalité qui est ensuite la plus présente est elle du secteur d'activité autre, encore prépondérante puisque son effectif est de 77 %.... Très faiblement majoritaire, la variable SEXE répartit presque équitablement les hommes et les femmes avec toutefois un léger sureffectif pour les hommes (289 hommes soit 54 % contre 245 femmes soit 46 %).

Sur l'analyse conjointe des variables QT

Il est obligatoire de fournir la matrice des corrélations pour l'analyse conjointe des variables QT.

Sur l'analyse conjointe des variables QL

Il n'est en général pas souhaitable de faire tous les tris croisés car cela fait trop de tableaux. Il faut donc choisir les plus pertinents et fournir les raisons de ses choix. Il est toujours judicieux de rappeler le nombre de tris croisés qu'il aurait fallueffectuer...

Comme pour un tri à plat, un tri croisé ne doit pas contenir de code mais seulement des labels.

Sur l'utilisation d'Excel

Les macros d'Excels sont pratiques lorsqu'on calcule les moyennes, écart-types, la matrice des corrélations, les formules des meilleures corrélations... Elles sont en revanche inutiles lorsqu'on doit seulement présenter les résultats. De plus elles peuvent effrayer un lecteur de par leur éventuelle contamination par un virus. On évitera aussi les boutons qui cachent des actions, les références à des feuilles externes ou à des applications externes qui bien sûr ne sont pas forcément présentes si la feuille Excel est transmise par disquette ou par mail.