Valid XHTML 1.0!

 

  Commentaires sur les descriptifs fournis
  pour les analyses statistiques en Licence Mass
  année 2006/2007
-- commentaires du 08/10/2006

 

     (gH) gilles.hunault@univ-angers.fr

 

 


 Dossier AD
 ==========


Vous devez utiliser systématiquement vos initiales pour tous vos fichiers
y compris ceux à l'intérieur de l'archive.

Votre présentation en RTF ne comporte pas de page de titre : mettez votre nom et prénom.

Pour vos données, une seul onglet nommé "Données" est suffisant. Et pas de macros...

L'identifiant de la commune doit être sur une seule colonne. Je vous conseille d'utiliser
Cxxxxx où xxxxx est CODGEO. Les pourcentages ne peuvent pas être utilisées comme QT :
il faut des nombres de personnes, pas des %. Comptez-vous utiliser toutes les colonnes
une fois converties en QT ? Et aussi toutes en QL ?

Pour le découpage en classes, nous verrons cela en cours.

 

 


 Dossier AF
 ==========


Vous devez envoyer une archive (un fichier ZIP) et non pas un ou plusieurs fichiers attachés.

"Les variables suivantes sont conservées " dites plutot "Nous avons choisi d'étudier les
variables...".

Les "contraintes du sujet" n'imposent pas 10 variables exactement mais seulement au moins 10.
De plus ces contraintes ne disent pas quelles variables conserver. Pouvez-vous justifier
vos choix ?

"et d'envisager de classer)" : l'étude statistique ne permettra pas vraiment de classer
les variables. Désolé.

"ne doit pas excédé" doit s'écrire "ne doit pas excéder".

"cependant peut trouver intéressant" : ceci n'est pas une phrase.

"traduites( et/ou modifiées)" : traduites, oui ; modifiées non.

"... en grammes" : oui. N'oubliez pas de rappeler comment on passe de ounce à gramme.

Les valeurs -1 (données manquantes) devront être enlevées de l'analyse.

 

 


 Dossier AO
 ==========


Vous devez envoyer une archive (un fichier ZIP) et non pas un ou plusieurs fichiers attachés.
De plus si vous utilisez Microsoft Word il faut faire "enregistrer sous" et utiliser
le format RTF (mettre RTF dans le nom du fichier n'est pas suffisant). Le mieux est que le
nom de vos fichiers commence toujours par AO_ comme cela c'est plus facile à identifier
pour moi.

Si vous avez obtenu vos données sur Internet, il faut indiquer la source (c'est sans doute
http://www.stat.ufl.edu/users/aa/social/data.html ???).

Qu'est-ce que des "étudiants graduées" ? Vous ne pouvez pas écrire "étudiants" "graduées"
et "inscrite" dans la même phrase sans accorder de façon cohérente ces trois mots.

En France, il n'est pas correct de dire "male et femelle" pour des êtres humains. On écrit
traditionnellement "homme et femme",  ou "masculin et féminin".

Qu'est-ce que GPA dans "lycée GPA", "université GPA" ? A quoi correspondent les "points"
associés ?

Bonne idée de convertir les miles en kilomètres mais pourquoi y a-t-il marqué "votre"
résidence, "votre" ville ? Vous traduisez mécaniquement le texte anglais ?

Pourquoi laisser "y=yes n=no" à la question 12 puis en 16, 17, 18 ?

Je n'ai lu que la partie descriptif pour l'instant. Pour l'analyse statistique, nous
verrons plus tard tous les éléments à mettre dans le dossier...

 

 


 Dossier CD
 ==========


Vous devez envoyer une archive (un fichier ZIP) et non pas un ou plusieurs fichiers attachés.

D'où proviennent vos données ? Du Web ? Quelle URL ?

Il ne sera pas possible de traiter les valeurs manquantes (notées -999). Si vous enlevez les
lignes avec ces données, combien reste-t-il de lignes ?

Où sont les données (pas de fichier DBF ou XLS) ?

J'ai peur que vous n'ayiez pas assez de QT (les durées sont trop similaires..).


 

 


 Dossier EF
 ==========


Vous devez utiliser systématiquement vos initiales pour tous vos fichiers
y compris ceux à l'intérieur de l'archive.

Votre présentation en RTF ne comporte pas de page de titre : mettez votre nom et prénom.

"l'éducation national" : il manque un e.

Comment avez-vous obtenu les données ? Sont-elles officielles ? privées ? confidentielles ?

Il serait bon d'avoir une colonne pour identifier les écoles, comme par exemple E0001,
E0002...

Toutes les lignes de données avec -1 (donnée manquante) doivent être supprimées.

"SEXE est une variable qualitative" : oui, mais comment décoder les valeurs 1 et 2 ?

"L'IMC est une variable qualitative" : non c'est une semi-quantitative. Vous devriez la
transformer en QL.

Pour MAIGRE, OBESE... à quoi correspondent les valeurs 0 et 1 ? Oui, non ? Non, oui ?

Avez-vous des références pour les normes françaises et les seuils internationaux (les
standards ont changé il n'y a pas longtemps...).

Ce n'était pas la peine de me donner le détail des calculs QL... pour l'instant. Avec
un peu de courage, il serait très intéressant (et payant) de traiter toutes les données
nationales d'un coté et celles du Maine et Loire d'un autre coté, pour comparer...

 

 


 Dossier FK
 ==========


Vous utilisez une archive, c'est bien. Par contre, il ne faudrait pas mettre
de nom de dossier quand vous archivez vos fichiers.

Votre présentation en RTF ne comporte pas de page de titre : mettez votre nom et prénom.

L'adresse Web que vous donnez ne permet pas de trouver vos données (les pommes)
mais seulement de se connecter au site. Quelles manipulations faut-il faire
pour obtenir vos données ?

Je ne comprends pas ce que vous voulez dire par "les pays les plus productifs de
chaque continent pour le choix de ces données" car vous mettez entre autres
Costa Rica et Croatie avec 0 partout. Quelle est donc votre définition de
"les plus productifs" ?

Qu'est-ce qu'un "continent du haut" ? A mon avis, vous n'avez qu'une seule
QL, à savoir "continent" avec les 5 modalités

   Amérique Europe Afrique Asie Océanie

et non pas 5 QL...

Si vous voulez vraiment utiliser ces données, il vous faut 5 "vraies" QL par exemple
en discrétisant vos 5 QT en plus de la variable continent.

 

 


 Dossier KL
 ==========


Vous devez utiliser systématiquement vos initiales pour tous vos fichiers
y compris ceux à l'intérieur de l'archive.

Votre présentation en RTF ne comporte pas de page de titre : mettez votre nom et prénom.

Citez la source de vos données. Est-ce que ce serait le jeu de données nommé
bbdm13 disponible à l'adresse

  http://www-unix.oit.umass.edu/~statdata/statdata/data/bbdm13.txt

Pourquoi dites-vous qu'il y a 30 femmes si on dispose de 50 lignes de données ?

Il faudrait traduire d'anglais à français les termes utilisés et convertir
s'il le faut les unités américaines.

Il y a beaucoup de données manquantes (valeurs remplacées par un point). Il
faut certainement supprimer les colonnes correspondantes.

C'est sans doute un bon dossier, mais il faut rédiger la description des colonnes.

 

 


 Dossier MH
 ==========


Vous devez envoyer une archive (un fichier ZIP) et non pas plusieurs fichiers attachés.

Vous devez utiliser systématiquement vos initiales pour tous vos fichiers
y compris ceux à l'intérieur de l'archive.

Votre présentation en RTF ne comporte pas de page de titre : mettez votre nom et prénom.

D'où viennent vos données ? Quelles sont vos sources ? Pourquoi des notes sur 10 ?
S'il s'agit des données "psychom" du site

   http://piaget.psycho.univ-paris5.fr/statistiques/

il faut le dire.

Vous devez avoir au moins 50 lignes de données, ce qui ne semble pas le cas.
Il faut absolument 5 QL. Découpez donc toutes vos QT en QL...

A quoi correspond EPCOL ? et MILIEU ?

Si vous découpez QI, il faut justifier votre découpage.


Je n'ai pas réussi à ouvrir le fichier pyschom[1] que vous avez envoyé. De quel format
s'agit-il ? Si vous utilisez OpenOffice, faites "enregistrer sous" au format Excel.
Comment obtenez vous le deuxième groupe de 20 valeurs ?

 

 


 Dossier PM
 ==========


Vous devez utiliser systématiquement vos initiales pour tous vos fichiers
y compris ceux à l'intérieur de l'archive.

Vous devez envoyer une archive (un fichier ZIP) et non pas plusieurs fichiers attachés.

Votre présentation en RTF ne comporte pas de page de titre : mettez votre nom et prénom.

Pourquoi ne pas fournir l'URL http://lib.stat.cmu.edu/DASL/Datafiles/SMSA.html ?

"on converti" : c'est bien de convertir. Mettez toutefois un "t" au bout de "converti".

Pourquoi supprimer le nombre d'habitants ? Ce n'est pas la même information que la densité,
que vous convertissez d'ailleurs en QL.

Comptez-vous étudier l'indice de mortalité ? Ce n'est ni une QT ni une QL.
Idem pour "est le nombre d'individus moyen qui compose un ménage" (je mettrais
d'ailleurs "nt" à compose).

Finalement, que gardez vous comme QT et avec quelles unités ?

Peut-on vraiment traiter les concentrations comme des QT ?
(cf. variables (gH)).