Quelques conseils sur la
rédaction
d'Analyses Statistiques
Version Word zippée : redige.zip
Au menu :
Partie descriptif
Sur l'origine des données |
Sur le choix ou la sélection des données |
Sur la description des données brutes |
Sur les données manquantes |
Sur les unités des variables QT |
Sur le nom des colonnes |
Sur le recodage des variables QT en variables QL |
Partie calculs
Sur l'analyse séparée des variables QT |
Sur l'analyse séparée des variables QL |
Sur l'analyse conjointe des variables QT |
Sur l'analyse conjointe des variables QL |
Partie rédaction
Sur l'utilisation d'Excel
|
Sur l'origine des données
Il est bon de citer des sources précises.
S'il s'agit d'un magazine, il faut en donner le titre, l'année, le numéro, le mois si c'est
un mensuel, préciser éventuellement s'il s'agit d'un numéro hors-série. S'il s'agit de données
trouvées sur le Web, il faut donner les références de la page Web, pas seulement celle du site.
On se méfiera en particulier d'une étude traitée à l'an x alors que les données présentées
datent de l'an y, de données statistiques dites "classiques" qui datent souvent comme par
exemple les Iris de Fisher publiées pour la première fois en 1933.
Il ne faut donc pas dire :
Les données proviennent du serveur StatLib.
Ce dossier est extrait d'une enquête du journal Le Monde.
Il s'agit d'une étude médicale sur des patients américains.
mais :
Les données proviennent du serveur StatLib, à la rubrique "detroit" dont l'adresse Web est
http://lib.stat.cmu.edu/datasets/detroit.
Ce dossier est extrait d'une enquête du journal Le Monde du 07 janvier 1999 ;
on notera toutefois que les données font référence à une enquête réalisée dans
le courant de l'année 1996.
Dans le cadre d'une étude sur la dégénèrescence des cellules suite à un cancer du sein,
le docteur Mac Lyre de l'hopital de Portland, Oregon, a étudié en 1998...
|
Sur le choix ou la sélection des données
Si on ne traite pas l'ensemble des données d'un dossier, il faut signaler les raisons du choix,
le critère de sélection.
Il peut arriver qu'on ne dispose pas de toutes les données, qu'on filtre pour ne garder que
les lignes complètes de données ou qu'il y ait au contraire trop de données à saisir à la main...
Dans tous les cas, on indiquera le nombre de données originales et les critères du choix (
intelligent et sensé) des données retenues.
Il est encore plus incorrect de supprimer sans le dire des lignes de données : si un site
Web fournit un jeu de données avec 300 lignes, il n'y a aucune raison de n'en traiter que 70.
Il est donc interdit d'écrire :
Il y avait trop de données, on a pris les 50 premières lignes.
Nous avons retenu 50 individus parmi les 380 proposés.
mais on peut très bien produire les phrases :
A partir des 630 communes recensées, nous avons extrait les 80 communes les plus peuplées afin
de nous concentrer sur les communes les plus importantes.
Il peut arriver parfois que certains jeux de données soient faux, par suite d'erreurs de
transcription. Ainsi, dans le dossier "Sleep" où on étudie une population américaine,
la taille minimale est de 64 cm pour un poids de 85 kg, ce qui est visiblement une erreur
pour un dossier américain car le "politiquement correct" des Etats Unis proscrit
l'utilisation de telles données mettant en jeu un individu "de petite taille".
Dans ce cas et dans ce cas seulement, si le nombre de données incorrectes n'est pas trop
important, on supprimera les lignes de données incriminées et on le signalera.
|
Sur la description des données brutes
La description des données ne se limite pas à donner le type QT ou QL de la variable,
avec son unité ou sa liste de codes.
Il faut parfois détailler le lieu d'expériementation, la période de recueil des données...
Dire que la colonne TAXE correspond à une taxe ne renseigne pas. Indiquer qu'il s'agit
d'une taxe locale comme la taxe d'habitation basée sur la surface du logement est déjà
plus précis. Indiquer s'il s'agit d'une valeur mensuelle ou annuelle l'est encore plus.
Certains termes ont besoin d'être précisés : le sommeil paradoxal des animaux n'est certainement
pas la période où l'animal rêve, les pression disatolique et systoliques sont les indices
utilisés pour mesurer la tension artérielle, etc.
|
Sur les données manquantes
Il arrive que des données soient manquantes, quelque soit la raison de leur absence.
On se doit de le signaler très tôt et indiquer quels traitements particuliers on a effectué.
Lorsqu'il y a beaucoup de données, on peut se permettre de supprimer quelques lignes de
données incorrectes. Le codage des données manquantes est délicat : si l'on met -1 ou -999
par exemple, un logiciel comme Excel ne s'en rendra pas compte et le calcul de la moyenne
sera faux. Par contre, mettre le symbole "?" n'empêche pas un calcul correct de moyenne.
Mettre un symbole non numérique permet de tester sous Excel avec la fonction EstNum la
nature de la cellule. Par contre cela n'est pas cohérent au sens d'une base de données :
une colonne AGE exprimée avec 2 chiffres ne peut pas, pour une base de données, contenir
le caractère "?" et il faut alors utiliser la valeur -1 ou -9 et veiller à n'effectuer
les calculs que pour les ages strictement positifs.
|
Sur les unités des variables QT
Lorsque les données proviennent de sources anglaises ou américaines, les unités de
mesure pour la taille, le poids ne sont pas compréhensibles par des français. Il faut
donc remplacer les inches par leur équivalent en cm, les pounds par leur
équivalent en kg, etc.
Les données médicales ou biologiques sont parfois incompréhensibles pour des non initiés.
Il faut alors les commenter, founir des indications sur les valeurs standards, "normales"...
Par exemple il ne faut pas écrire :
la colonne DURETE de l'eau est exprimée en degrés
mais :
La dureté d'une eau s'exprime en degrés français (df ou °F). Un degré français de dureté
correspond à une teneur en calcium et magnésium équivalente à 10 mg de carbonate de calcium
par litre. A titre indicatif, on considère qu'une eau est
douce | si sa dureté est inférieure à 18°F |
mi-dure | si sa dureté est comprise entre 18 et 30°F |
dure | si sa dureté est supérieure à 30°F |
|
Sur le nom des colonnes
Les colonnes, qu'il s'agit de l'identificateur, des variables QT ou QL, doivent avoir
des noms clairs.
Ce n'est pas parce que l'INSEE désigne dans une enquête les vols à la roulotte par
l'intitulé VOLS1 et les vols à l'étalage par VOLS2 qu'il faut conserver ces intitulés.
Il vaut mieux ici les renommer ROULOT et ETALAG si on ne traite que des vols, VROULOT et
VETALAG si on traite des vols et d'autres délits.
En cas de données chronologiques, par exemple une étude sur deux années, il faut réfléchir
au nommage asticieux des colonnes. Il peut être intéressant de noter POP1 et POP2 les
populations pour la première et la deuxième année, mais POP88 et POP95 sont encore plus
explicites s'il s'agit de populations pour les années 1988 et 1995.
|
Sur le recodage des variables QT en variables QL
Lorsqu'on fait des classes à partir d'une variable QT, il faut discuter le nombre de
classes choisi et détailler l'élaboration des classes, sans oublier de nommer les modalités.
Un recodage ne doit pas oublier de valeur : par exemple les classes "<100" et ">100"
oublient la valeur 100).
Il est incorrect de se limiter à :
Nous avons créé des classes d'age:
0: 20 à 40 ans; 1: 41 à 60 ans; 2: 61 à 70 ans.
Les codes pour PS sont les suivants
1: PS > 140 ; 2: PS< 110
|
Sur l'analyse séparée des variables QT
Il est obligatoire d'analyser chaque variable QT.
Lorqu'on analyse une variable "humaine" comme l'age, le poids, il faut
penser à regarder le minimum, le maximum. Par exemple dans le dossier "Sleep"
la taille minimale est de 64 cm pour un poids de 85 kg, ce qui est visiblement une
erreur pour un dossier américain.
Le tri par moyenne décroissante n'a pas toujours de sens.
Si on ne doit pas l'effectuer, il faut le signaler. Si on ne l'effectue
que sur certaines variables, il faut le préciser aussi.
|
Sur l'analyse séparée des variables QL
Il est obligatoire d'analyser chaque variable QL.
Après l'analyse de chaque variable QL, il est nécessaire d'ordonner
l'ensemble des analyses des QL pour savoir dans quel ordre les commenter.
L'analyse de chaque QL, nommée tri à plat, consiste à trier par ordre décroissant
de fréquence les modalités. La présentation dite intelligente de l'ensemble des tris
à plat vient présenter les variables QL par ordre décroissant de mode, le mode étant
la modalité de plus fort effectif.
Il ne doit jamais subsister de code dans un tri à plat. Au contraire, ne doivent y
figurer que les modalités. Chaque tri à plat doit être assorti d'un commentaire.
Présenter le tableau :
RACE | 1 | 67 | 13 % |
| 2 | 27 | 05 % |
| 3 | 440 | 82 % |
ce n'est donc pas réaliser un tri à plat. Celui-ci serait ici :
RACE | Blanche | 440 | 82 % |
| Autre | 67 | 13 % |
| Hispanique | 27 | 05 % |
à condition de l'associer au commentaire :
Sur les 534 personnes étudiées, une très grande majorité (82 %) de la population est blanche. La
population hispanique (5 %) est nettement moins présente que les autres races (12 %).
Pour présenter le résumé des analyses QL, il est bon de ne retenir que les 2 ou 3 plus
fortes modalités de chaque variable. Il est recommandé de séparer les variables à modalité
majoritaire des variables sans modalité majoritaire si les modes sont bien séparés :
distinguer 51 % de 49 % serait maladroit mais séparer 68 % de 37 % a tout son sens.
Voici un exemple de tableaux récapitulatifs pour l'analyse de quelques QL :
1. Variables à modalité majoritaire
NOM | Mode | Effectif | Modalité | Effectif |
RACE | Blanche | 82 % | Autre | 12.55 % |
SYNDICAT | Non membre | 82 % | Membre | 17.98 % |
SECTEUR | Autre | 77 % | Manufact. | 18.54 % |
SUD | Non | 71 % | Oui | 29.21 % |
MARRIE | Oui | 66 % | Non | 34.46 % |
SEXE | Homme | 54 % | Femme | 45.88 % |
2. Variables sans modalité majoritaire
NOM | Mode | Effectif | Modalité | Effectif | Modalité | Effectif |
OCCUP | Autre | 29 % | Profess. | 20 % | Religieux | 18 % |
Auquel on peut adjoindre les commentaires suivants :
La race blanche est manifestement très prépondérante et la plus importante en effectif (440
individus sur 534 soit 82 %) dans cette analyse, de même que les personnes non membres d'un
syndicat (438 individus soit aussi 82 %). La modalité qui est ensuite la plus présente est elle du
secteur d'activité autre, encore prépondérante puisque son effectif est de 77 %.... Très faiblement
majoritaire, la variable SEXE répartit presque équitablement les hommes et les femmes avec
toutefois un léger sureffectif pour les hommes (289 hommes soit 54 % contre 245 femmes soit 46
%).
|
Sur l'analyse conjointe des variables QT
Il est obligatoire de fournir la matrice des corrélations
pour l'analyse conjointe des variables QT.
|
Sur l'analyse conjointe des variables QL
Il n'est en général pas souhaitable de faire tous les tris croisés car cela fait trop
de tableaux. Il faut donc choisir les plus pertinents et fournir les raisons de ses choix.
Il est toujours judicieux de rappeler le nombre de tris croisés qu'il aurait fallueffectuer...
Comme pour un tri à plat, un tri croisé ne doit pas contenir de code mais seulement des labels.
|
Sur l'utilisation d'Excel
Les macros d'Excels sont pratiques lorsqu'on calcule les moyennes, écart-types, la matrice des corrélations, les formules des
meilleures corrélations... Elles sont en revanche inutiles lorsqu'on doit seulement présenter les résultats. De plus elles
peuvent effrayer un lecteur de par leur éventuelle contamination par un virus.
On évitera aussi les boutons qui cachent des actions, les références à des feuilles externes ou à des applications externes qui
bien sûr ne sont pas forcément présentes si la feuille Excel est transmise par disquette ou par mail.
|