Valid XHTML 1.0!

 

  Commentaires sur les rapports d'étude transmis par mail
  pour les analyses statistiques en Licence Mass
  année 2006/2007
-- commentaires du 07/01/2007

 

     (gH) gilles.hunault@univ-angers.fr

 

 


 Dossier AD note provisoire 09 / 20
 ==========



Vous n'avez pas fourni de fichier .DSC

"Ma base de données" : dites plutot "la base de données que j'ai étudiée".

"j’ai extrait les 50 villes les plus peuplées afin de se concentrer" : le "se"
est incorrect en termes d'accord.

"nous avons réalisé un découpage en classe avec la méthode des moyennes emboîtées" :
Pourquoi cette méthode plutot qu'une autre ?

Avec de grands chiffres, utiliser la personne comme unité est une mauvaise idée.
Le millier de personnes ou la centaine de milliers serait plus lisible.

Le mot "somme" dans l'onglet est impropre : il s'agit de l'effectif (Excel est
maladroit...). A corriger.

Faites une phrase, même relativement "plate" pour chaque tri à plat.

Vous devez discuter sur le choix des tris croisés et dire ce que vous
déduisez de chaque tri croisé puis de l'ensemble des tris croisés.

Il y a beaucoup trop de décimales dans votre tableau récapitulatif des QT et
dans la matrice mdc. Cela rend peu les résultats peu lisibles.

"on voit clairement ici que ces différents types de population sont très liés." : vous
devez détailler l'analyse de ces corrélations et en conclure quelque chose : que les
hommes et les femmes sont semblables, que les ménages sont comme la population des
ménages, etc. De plus, vous devriez regarder en détail les équations qui doivent
sans doute pouvoir aider à comprendre par exemple la composition des ménages en
termes d'hommes et de femmes...

"conclusion" : s'il y a une ville qui perturbe l'analyse, vous devez recommencer toute
l'analyse sans cette ville et discuter la comparaison des résultats.

Votre conclusion est beaucoup trop courte : vous ne semblez rien avoir à dire. Pourtant
tous vos résulats montrent des choses...


 

 


 Dossier AF note provisoire 09 / 20
 ==========




Vous n'avez pas fourni de fichier .DSC

Descriptif : les discrétisations ont été effectuées à l'aide de la méthode des moyennes emboîtées.
Pourquoi cette méthode plutot qu'une autre ?

Quelle est la correspondance entre "ounce" et milligrammes ?

Dans le tableau récapitulatif des QL, vous ne pouvez pas écrire "Modes"
car il n'y a qu'un mode par ligne.

Pour chaque tableau d'analyse QL, vous utilisez l'ordre des codes alors que je vous
demande d'utiliser l'ordre des pourcentages décroissants... Pouvez-vous justifier
votre choix ?

Qu'est-ce que c'est que ces tris croisés qui ne sont pas des tableaux ? Il n'y a
pas deux chiffres alignés, c'est inacceptable.

Vous aviez beacoup de tris croisés possibles. Lesquels avez-vous choisis et pourquoi ?

"Il est donc intéressant de voire" : corrigez l'orthographe.

"L'analayse conjointe n'apparait donc pas indispensable." : corrigez l'orthographe.

"L'analayse conjointe n'apparait donc pas indispensable." : expression maladroite. Vous êtes
déjà en train de faire l'analyse conjointe. Ce que vous voulez dire c'est qu'il n'y a pas lieu
de faire d'autre analyse de relation linéaire détaillée pour un autre couple de variables.

"ne se rappochant pas de la droite définie par le modèle linéaire." corrigez l'orthographe.

ANALYSE DE LA LIAISON LINEAIRE ENTRE  PROTEINES  ET  FIBRES, "En effet il apparaît beaucoup
de valeurs extrêmes" : personnellement, je n'en vois pas beaucoup. Vos graphiques en points
bleus doivent utiliser des valeurs triées par ordre croissant pour qu'on puisse distinguer et donc
discuter des valeurs, notamment des valeurs extrêmes.

conclusions : "paquets de céréales distribués dans les épiceries (Américaines)". Non. Le concept
d'épicerie n'est pas présent aux Etats-Unis, sauf dans de très rares exceptions. Il doit plutot
s'agir de grande distribution (grandes surfaces).

"25%, ce qui semble raisonnable." : qu'est-ce qui justifie de dire que c'est raisonnable ? Où se situe
la raison là-dedans ? Comment vous, qui n'êtes sans doute pas nutritionniste, pouvez-vous en juger ?

"favorisées", "a consommées", "consommé" : corrigez l'orthographe. De plus il manque un sujet à votre
phrase après le point-virgule.

"adaptés" : corrigez l'orthographe.

Vous pourriez étoffer votre conclusion quant à la qualité des données...

 

 


 Dossier AO   note provisoire 00 / 20
 ==========


Auucun fichier reçu avec ces initiales.

 

 


 Dossier CD  note provisoire 09 / 20
 ==========




Vous n'avez pas fourni de fichier .DSC

Onglet Descriptif :
Vous ne citez pas vos sources. D'où viennent les données ?
Où avez-vous trouvé vos références sur la vitamine A, le rétinol
et les quantités d'apports journaliers ?

Pourquoi le champ fumeur s'appelle-t-il SMK ?

Vous ne pouvez pas dire "on a interrogé ces personnes". Dites
qui l'a fait ou dites que vous ne savez pas comment cela s'est
fait...

L'IMC (pourquoi l'appeler QUET ?) n'est pas une QT. Trouvez
une référence Internet sur cet indice et démontrez qu'il n'est
pas Qt comme sur ma page http://www.info.univ-angers.fr/pub/gh/wstat/variables.htm

Qu'est-ce que l'unité mcg ?

Vous avez deux indices de concentration comme celui du béta-carotène dans le plasma.
Comment avez-vous choisi les bornes comme
1<113 ng/ml, 113<2<191, 191<3<428, 428>4 ?

Onglet "Analyse des données qualitative" : il manque un S
à "qualitative".

Tri à plat de SEXE : vous devez afficher par pourcentage décroissant.
"trois dois plus de femmes" : pas de f ? dois ???

Après SEX ET SMK, vous n'avez pas fait de phrase sous les autres questions
pour les tris à plat. Pourquoi ? C'est obligatoire.

Il n'y a pas de tableau récapitulatif de l'analyse des QT.

Avec 5 variables, vous avez le choix entre 10 tris croisés. Comment avez-vous
décidé lesquels retenir ? La phrase "Il ne semble pas utile ici de faire un
tri croisé entre ... on prévoit que ces 2 variables n'ont aucun lien" n'est pas
une attitude scientifique acceptable. Faire un tri croisé prouvera qu'il n'y a
pas de lien. Dire qu'il n'y a sans doute pas a priori ne permet pas de prouver
quoi que ce soit...

"la quantité de vitamines absorbé pas cet individu" : orthographe incorrecte.

Onglet "Analyse des données quantitativ" : pourquoi la variable présentée
comme BETA devient-elle BEDATDIET ? Idem pour RET qui devient RETDIET.

Rajoutez le mot "linéaire" quand vous parlez de corrélation car il existe
d'autres types de corrélation...

A la suite du tableau récapitulatif des QT, commentez les variables
dans l'ordre CDV décroissant.

"matrice des corrélation" : corrigez l'orthographe.

Il y a beaucoup trop de décimales dans votre matrice mdc. Cela la
rend peu lisible.

S'il n'y a aucune corrélation marquée, vous devez essayer d'expliquer pourquoi.

Il faut recommencer la mdc sans QUET et sans les variables qualitatives :
SEX n'a rien à faire ici, ni VITUSE.

Refaites une analyse des QT pour les hommes seulement et pour les femmes
seulement. Là, on aura peut-être des corrélations linéairés plus nettes...

Il y a donc pas mal de choses à reprendre.

 

 


 Dossier EF   note provisoire 14 / 20
 ==========



Vous n'avez pas fourni de fichier .DSC

"Descriptif" : IVS (Institut de Veille Sanitaire) : une référence Web à fournir ? idem pour IMC.
"tirés au sort" : avez-vous des renseignements sur ce tirage ?

D'où viennent les bornes pour les choix des classes de l'IMC ?

"De plus les relations entre les variables SURPDS OBESE et MAIGRE sont évidentes." : je n'en suis
pas sur car les qualificatifs sont les mêmes pour les variables et pour les labels de l'IMC
alors que les effectifs ne sont pas exactement les mêmes.  C'est vous qui avez choisi les mêmes
mots. Il serait très intéressant au contraire, de voir à combien de % près on peut dire que
SURPDS et OBESE sont similaires...

Bonne rédaction, cependant, de l'analyse des QL.

Dans le graphique pour "Corrélation PDSNAISS/TAILNAIS", un point semble avoir une taille à
la naissance très faible. C'est suspect...

"Corrélation PDS/TAILLE"
"Ce graphique montre que la corrélation entre les variables PDS et TAILLE est mauvaise" : maladroit.
En fait les données sont en gros dans un rectangle (sauf les données très grandes). Il y a donc une
corrélation, mais non linéaire...

Rubrique "Comparaison de moyennes" pour les garçons et les filles : très bien.

La conclusion devrait être plus étoffée. S'il n'y a pas de dépendance entre QL, pas de liaison
entre QT, il faut chercher pourquoi...


 

 


 Dossier FK  note provisoire 00 / 20
 ==========



Aucun fichier ne portant vos initiales n'est présent dans l'archiven d'où la note.

Si le fichier "desccrip[1].doc" est votre descriptif, il faut le renommer
en fk.doc. Si le fichier "donne.xls" est votre fichier de données, il faut
le renommer en fk.xls.

Vous devez donner un titre à votre projet, par exemple
"production de pommes".

"Les variables QL ont été ajouté pour conformer les données aux critères de l'étude" :
cette phrase est incompréhensible.

"Que nous allons faire," : que fait cette phrase ici ? Faites un effort de rédaction.

"Code 1 = production supérieure à 1000" : d'où sort cette valeur de 1000  ? Vous devez
justifier cette borne.

Avant de passer à l'analyse des variables, vous devez présenter chaque variable en donnant au
minimum son nom et son type...

Vous ne pouvez pas laisser le mot "Nombre de NUM" dans un tableau. Soit vous avez des effectifs,
soit des pourcentages.

Pourquoi y a-t-il des majuscules au début de chaque ligne ?

"vu qu'il qu'il y une" : avez-vous RELU et FAIT RELIRE votre travail ?

"5 tableaux possibles" de QL : vous devez TOUS les présenter et les commenter. Vous
pourrez ensuite éventuellement dire qu'il y a similarité, mais en aucun cas symétrie.

"les niveau" : corrigez l'orthographe.

"39% environ  son européens"  : corrigez l'orthographe.

Comment avez-vous choisi vos tris croisés ? Justifiez ces choix.

Il n'y a pas de tableau récapitulatif de l'analyse des QL.

Vous devez fournir des graphiques en plus des calculs, pour les QL
comme pour les QT.

Il y a beaucoup trop de décimales dans votre tableau récapitulatif des QT et
dans la matrice mdc. Cela rend peu les résultats peu lisibles.

Vous devez analyser en détail la ou les meilleures corrélations linéaires...

Vous devez rédiger une conclusion.

 

 


 Dossier KL  note provisoire 07 / 20
 ==========



Fichier descriptif :

Vous avez fourni un fichier .DSC, c'est bien.  Mais faites des phrases, même un peu simples
comme "ce dossier traite de...". N'hésitez pas à mettre dès le départ à la référence Web
de vos données : ouvrir l'URL permet de suivre en parallèle ce que vous dites.

"cependant seulement données" : dites plutot "cependant, seules les données...".

"patients écrivant l'étude" : je ne comprends pas ce que cela veut dire.

C'est bien de donner les variables et en français à condition de traduire tout le
texte anglais. Ainsi on dit "bien différencié" et non pas "well différencié".

Fichier Excel :

Si vous n'avez que 2 variables QT, il y a un gros problème puisqu'il vous en faut
5. Je n'ai jamais validé de telles données.

Vous devez commenter chaque QT après avoir calculé ses caractéristiques.

Il n'y a pas de tableau récapitulatif de l'analyse des QT.

Pourquoi utilisez des labels anglais dans l'analyse des QL si vous avez traduit
les modalités ?

Il n'y a pas de tableau récapitulatif de l'analyse des QL.

Pour chaque tableau d'analyse QL, vous utilisez l'ordre des codes alors que je vous
demande d'utiliser l'ordre des pourcentages décroissants... Pouvez-vous justifier
votre choix ?

Pourquoi faire des graphiques différents ? Les graphiques sectoriels sont moins lisibles,
vous faites une fois des histogrammes en hauteur, une autre fois en largeur, puis des
histogrammes empilés. Pourquoi changer sans arrêt ?

Votre analyse dite séparée est déjà une analyse conjointe. Séparée signifie 1 seule variable
à la fois. A recommencer.

Chaque tableau de fréquences doit être commenté.

Vous devez rédiger, c'est à dire écrire des phrases pour expliquer ce qu'il y a
dans les tableaux de chiffres.


 

 


 Dossier MH   note provisoire 00 / 20
 ==========


Auucun fichier reçu avec ces initiales.

 

 


 Dossier PM  note provisoire 14 / 20
 ==========



Vous n'avez pas fourni de fichier .DSC

Bonne présentation des données et des conversions des unités américaines en
unités françaises.

Vous dites qu'il n'y a pas de donnée "nombre d'habitants" pour le Texas.
Que faites-vous alors du Texas ?

La conversion dollar/euro est plus douteuse car le coefficient de conversion
change tous les jours. Dites 1 dollar =  0,7973 euros le jour où nous avons
fait cette étude.

"Le minimum étant 38% et le maximum 73%, on pourrait trier... 35%... 75%..."
mais ces valeurs ne sont pas atteintes. Pourquoi les choisir ? Vous avez
seulement raison, mais détaillez encore plus...

Je ne sais pas ce que c'est que des "écarts types interclasses" (ou alors,
il en manque car avec 4 classes, il faut en calculer 6... ou alors, comment
faites-vous ? Et avec quel logiciel, quelle fonction ?

Pourquoi "diagramme en tiges et feuilles" pour "indice de mortalité" et pas pour
"humidité relative" ?

"Densité de population" : quelle technique choisissez-vous pour découper et
pourquoi ? "Cette donnée quantitative" : non, elle est semi-quantitative.
Vous n'avez pas le droit de calculer des variances avec cette densité.

"Nombre d'individus moyen qui composent un ménage" : [...] cette variable semi-quantitative. Non.
Celle-là est une variable quantitative discrète. Mais vous avez tout à fait le droit
de la traiter en QL. Et corrigez l'orthographe.

Pour les trois polluants, pourriez-vous essayer de trouver un site Internet qui détaille
ces polluants (ou un livre à la bibliothèque) car il faut sans doute justfifier que ces
polluants sont similaires pour utiliser les mêmes bornes de découpage...

"Souvent, une classe a été créée pour mettre les valeurs..." : avec aussi peu de variables,
il vaut mieux citer explicitement pour quelles variables vous l'avez fait. Pour 5 variables,
souvent signifie combien ?

"choix des intitulés de classe" [...] "il n'y a pas de normes scientifiques" : il n'y en a
pas en général, pas plus que de bornes prédéfinies la plupatr du temps. Par contre, pour les
polluants, il y a souvent des valeurs et des qualificatifs liés aux normes pour la qualité
de l'environnement...

Bonne analyse séparée des QT. Pourquoi ne pas donner pour "Education" le même graphique que
pour les autres variables QT ?

Pour la population, l'unité est mal choisie car elle empêche la lisibilité. Utiliser des
milliers ou des centaines de milliers serait meilleur ici.

Même remarque pour le revenu moyen. Milliers d'euros serait ici plus adapté.

Pour chaque tableau d'analyse QL, vous utilisez l'ordre des codes alors que je vous
demande d'utiliser l'ordre des pourcentages décroissants... Pouvez-vous justifier
votre choix ?

"normalement il faut que R2 soit supérieur à 0,81" : maladroit. On dit prudemment
"proche de 1" mais 0.7 voire même 0.6 est parfois pertinent. 0.81 est le carré
de 0.9 et sert de référence, pas de norme...

Comment pouvez-vous conclure à une liaison linéaire entre tempjanvier et tempjuillet
alors que le rho associé est nettement moins important qu'entre revenu et éducation
pour lesquelles vous ne parlez que d'une faible corrélation linéaire ?

"En fait, aucune étude conjointe n'est valable" : là encore, rédaction maladroite. Toutes
les études conjointes sont justifiées par le fait que les variables sont ensemble dans
le même dossier et elles sont donc toutes "valables". Par contre, aucune corrélation n'est forte.
Le terme "valable", ni même "valide" n'est pas approprié ici.

"ceux qui ont ou qui pourrait avoir" : orthographe incorrecte.

"L'hypothèse d'indépendance est de déduire les effectifs à partir des pourcentages." : expression
un peu maladroite : on utilise les marges du tableau croisé, le terme pourcentage n'est pas
suffisant ici car il y a les pourcentages en ligne, en colonne, par rapport au total...

Il n'est pas possible de calculer un chi-deux lorsque les effectifs dans une cellule sont
trop faibles. En particulier, si la valeur théorique t (attendue) est nulle, le calcul de
(o-t)2/t renvoie une valeur infinie... certains de vos chi-deux ne sont donc pas "légaux".

Par contre vos commentaires sont bien rédigés et cohérents avec vos résultats.

Dans la conclusion, cependant je ne comprends pas bien comment vous pouvez dire

"on ne peut pas conclure qu'il y a une dépendance entre la pollution de l'air des villes
et la mortalité dans ces villes"

alors que dans la section précédente vous affirmez :

"On voit [...] que plus la concentration en SO2 est forte et plus la mortalité est élevée. Ceci est confirmé par
le test du chi deux qui nous révèle que, au risque de 5%, on peut considérer que ces deux variables
sont dépendantes."

Ne pourriez-vous dire "dépendance mortalité/pollution générale : non, dépendance mortalité/SO2 : oui" ?

Un bon travail globalement, d'où la note.


 

 


Envois incorrects
==================



ANALYSE DE DONNEES REELLES     note provisoire 05 / 20
---------------------------

Le nom du fichier ne correspond à aucun groupe d'initiales. De plus
il ne s'agit pas d'un fichier .ZIP mais d'un fichier .RTF. Ce fichier
ne contient nulle part le nom de son auteur (mais qui est-ce ?).

"Il s'agit d'une analyse générale des variables présentes dans les données
et d'établir un commentaire pertinent pour expliquer certains résultats obtenus" :
que fait cette phrase dans le texte ? Il s'agit de présenter les variables et de
faire des calculs, pas de définir des objectifs.

"si c'est le cas j'éluciderai les raisons de ce problème." : ne promettez pas ce
que vous ne pourrez pas tenir. De plus, vous devez faire un travail scientifique, pas
donner vos sentiments ou états d'ame. Dites "les données sont intéressantes parce qu'elles
doivent permettre de savoir si..." plutot que "elles ont capté mon attention".

"Ce dossier est un échantillonnage" : non. Un échantillon, peut-être mais en aucun cas un
échantillonnage qui est une action.

"RSTAT qui est selon moi un logiciel très complet en terme de statistique" : votre avis
n'a pas sa place ici. Il s'agit de science, pas d'avis personnel.

Vous devriez présenter les résultats des QT dans un tableau au sens de Word : les chiffres
seraient cadrés et bien présentés.

Il n'y a pas de tableau récapitulatif de l'analyse des QT.

"Je vais réaliser une étude intégrale de toutes ces variables qualitatives à l'aide de la fonction ALLQL" :
cette phrase est inutile ici. Ne parlez pas au futur mais au passé car vous rendez compte du travail
déjà effectué.

"Regieon" quel est ce mot ?

Vous devriez présenter les résultats des QL dans un tableau au sens de Word : les chiffres
seraient cadrés et bien présentés.

Effectuer un copier/coller des résultats de R ne suffit pas : vous devez mettre en forme
les résultats.

Vous devez rédiger un commentaire pour chaque tri à plat, pour chaque analyse QT.

Vous devez fournir des graphiques en plus des calculs, pour les QL
comme pour les QT.

Vous devez rédiger une conclusion.


ANNICEXXXXXXXXXXX      note provisoire 08 / 20 (sous réserve d'envoi correct)
--------------------

Le nom du fichier ne correspond à aucun groupe d'initiales.
N'avez-vous pas signé un document où vous disiez avoir compris
qu'il fallait utiliser les initiales AO ? Ceci pour assurer
l'anonymat, vu que ces commentaires sont sur internet...

Pourquoi mettez-vous un répertoire dans votre archive ? Du coup, mon
programme automatique d'extraction de fichier ne voit rien, comme
si vous n'aviez rien envoyé...

"nous avons effectuer" : corrigez l'orthographe.

Je suis très surpris qu'il y ait marqué "Réalisé en Août 1996"
dans votre fichier Excel, onglet Titre. Si les données dont de
96, précisez-le. Tel qu'écrit, on croirait que le dossier date
de 96 !

"Ce Dossier est soumis à un questionnaire" : cela ne veut rien dire.
Le questionnaire a été soumis aux étudiants, plutot...

"Nous avons fait ce choix de données afin de faire une étude
plus poussée sur la vie des étudiants en dehors des études" : c'est maladroit.
D'abord les données sont vieilles (il y a 10 ans) et de plus ce ne sont que
quelques étudiants de Floride, donc aucune généralité ici. [de plus, d'après vos
calculs ils sont tous végétariens !].

"Nous avons aussi fait le choix de supprimer certaines données car celles-ci ne
nous apportent pas d'informations relatives à notre étude." : précisez lesquelles.
De plus vous ne dites pas quel est le but de votre étude. Comment pouvez-vous alors
justifier de supprimer certaines variables ?

"vous regardez la télé", "vous faites du sport.." : il ne faut pas recopier le texte
du questionnaire...

"Analyse  Coinjointe" : corrigez l'orthographe.

Pour l'individu M002, DH vaut 1930800 km. D'après vos explications (distance convertie en
kilomètres), il s'agit donc d'extraterrestre ! Un peu de sérieux, s'il vous plait.
Relisez et vérifiez vos calculs...

VARIABLES QUANLITATIVES : corrigez l'orthographe.

"Les étudiants (52%) qui croient à la vie après la mort et ceux qui ne croient pas (48%)
sont presque proportionnels" : des étudiants ne peuvent pas être proportionnels.

Si les étudiant(e)s sont presque tous (toutes) végétarien(ne)s, la représentativité
de l'échantillon est à remettre en question...

"sont contre ça" : mauvais registre de langue. Pensez que vous êtes en train de rédiger
un texte scientifique, choisissez vos mots...

"Les autres tris croisés effectués dans le document ci-joint ne sont pas
intéressants car ils ne sont pas liés." : mal dit. Tous les tris croisés sont
intéressants  car ils montrent la dépendance ou l'indépendance entre variables.
Ce que vous appelez un tri croisé non intéressant est un tableau qui montre que
les variables ne sont pas liées, ce qui est un fait intéressant en soi (mais sans
doute banal pour l'étude...). De toutes façons, ce ne sont pas les tris croisés
qui sont liés mais les variables...

"ETUDE DE VARIABLE QUANTITATIVE" il faut un pluriel car vous étudiez plusieurs variables.

"pas de corrélations entre les différentes variables étudiées." : oui, mais dites-bien
corrélations linéaires. S'il n'y a pas corrélation, essayez de trouver pourquoi.

Vous ne semblez pas tirer de conséquences du fait que la plupart des comparaisons
ne montrent aucune différence au seuil de 5 %.

Votre conclusion n'est pas assez détaillée. Reprenez les points forts de l'analyse QL
et de l'analyse QT, essayez de dégager des grandes lignes.

"Cependant, nous n'avons pas pu dégager une corrélation entre ces variables
car elles ne sont pas liées entre elles. Ce qui rend les données de cette étude
difficilement exploitables." : non. Le fait que vous ayiez pu exploiter ces données
montre que ce que vous dites est faux. Les données sont exploitables. Par contre les
observations que l'on peut en déduire ne sont pas très flagrantes (selon vos calculs).