Commentaires sur les descriptifs fournis
  pour les analyses statistiques en Licence Mass
  année 2004/2005
 

     (gH) gilles.hunault@univ-angers.fr  

 

 


 Dossier AJ
 ==========


 L'archive aj.zip contient un répertoire, ce qui est interdit.

 La référence "http://www.linternaute.com/ville/ville/donnee/7843/avignon.shtml"
 est maladroite : il ne s'agit que de la ville d'Avignon.

 "raménées" -> "ramenées", n'est-ce pas ?

 "Pour le classement, seuls les critères 3, 4, 5, 6, 7 sont pris en compte." :
 cette phrase est maladroite : le classement n'est pas un critère, le nom
 de la ville et son département non plus. Parlez plutot des informations
 en colonne 3 à 7.

 Vous avez vraiment cliqué 100 fois poura voir la population
 effective de chaque ville ?

 Vous ne faites pas assez ressortir qu'à partir de ces données vous avez construit
 les QL sur ces données.

 Vous devez justifier le nombre de classes et les bornes. D'où viennent-elles ?

 "étant donné que la taille et l'importance des villes considérées sont différentes,
 on distribue le nombre d'accidents de la route durant l'année 2001 selon 6 classes,
 dont les bornes.." : avec la même phrase, on peut prendre 5 classes et des
 bornes différentes.

 Vous devez qualifier les classes (par exemple 0 : très faible, 1 : asse faible...).
 Variable "12-CCOND" : vous ne prenez pas les mêmes bornes puisque vous n'avez pas le
 même nombre de classes !

 "appronfondit" -> "approfondit" ?

 "un accident peut engendrer un à plusieurs tués et blessés. On obtient ainsi 9 classes" :
 pourquoi pas 10 ?

 "les acteurs principaux des accidents de la route sont les jeunes de moins de 25 ans,
 on découpe les classes par tranche de 100 personnes" : pourquoi pas 200 ?

 "pour les 3 classes suivantes, les critères n'entrent pas en compte pour le classement
 des villes.Il n'est donc pas pertinent de faire des classes trop détaillées." : je ne suis
 pas d'accord : votre étude ne repose pas sur le classement mais sur les données fournies.
 De plus comme vous ne gérez pas le classement, vous ne devez vous y référer de façon
 indirecte. ce serait biaiser l'analyse.


 En ce qui concerne la base de données, le champ T&B est incorrectement nommé ; TB
 est plus convenable. Idem pour CT&B. Le champ PIÉT lui aussi est incorrectement nommé.
 Utilisez plutot PIET. Idem pour CPIÉT.

 Vous pouvez continuer sous réserve de justifier le nombre et les bornes des classes.

 

 


 Dossier BG
 ==========



 "Concernant les champs, on a donc gardé : les champs avec un intérêt pour
 la réalisation d'une analyse" : cette phrase est sans doute un peu maladroite.
 Une lecture rapide ne permet pas de comprendre de quelle analyse il s'agit. Je
 pense que vous voulez dire "les champs compatibles avec les contraintes qui
 nous sont imposées pour l'analyse statistique qui nous est demandée".

 Idem pour "l'analyse ne rentre pas dans les détails..."

 Attention : le champ GDPPC (PIB par habitant) n'est ni QT ni QL ; il ne
 faut donc pas s'en servir, sauf pour faire un découpage en classes.

 De plus j'ai été sur le site http://www.indexmundi.com/g/ ; mais je ne vois
 pas comment on obtient directement les PIB. Pourriez-vous me détailler les
 manipulations, notamment pour la sélection des pays ?

 "Certains champs ont également été transformés pour obtenir des variables QL." :
 je préférerais "voici les champs retenus... ; nous avons également transformé
 les champs suivants en QL...".

 "sauf pour le champ TIRRIGATION où les valeurs peuvent être plus anciennes" :
 comment le sait-on ? est-ce important ? quelle est la date de ces données ?

 Les unités des variables doivent certainement être repensées. Ainsi pour la
 population, le million d'habitants est sans doute plus adapté ; la valeur
 21765000 hab n'est pas aussi lisible que 21,765 Mhab.

 Idem pour la surface : une valeur  comme  65209000 ha pour l'Afghanistan n'est
 pas non plus lisible.

 Bon idée de mettre des définitions, des explications et les mots en anglais
 en fin de document. Quelles sont les sources de vos définitions ? Le glossaire
 du site de départ ne donne pas exactement les mêmes.

 Par exemple le lien

 http://www.fao.org/ag/agl/aglw/aquastat/glossary/indexfra2.jsp?keyword1=&subject=%25&term_f=Terres+arables&search=Montre

 n'est pas aussi complet que vos explications. Le terme "dans cette étude" correspond-il à votre
 étude ou à l'étude présentée sur le site ?

 Pourquoi 4 classes de population urbaine plutot que 3 ou 5 ? Qu'est-ce qui
 le justifier ? Et comment sont déterminées les bornes ?

 Idem pour DRATIO et les champs *USE.


 "Il est aussi appelle potentiel de developpement"
   -> "Il est aussi appelé potentiel de développement" : n'est-ce pas ?

 Quantité annuelle d'eau produites : un S en trop.

 "Les autres marais et bas fonds non équippées"
   -> "Les autres marais et bas fonds non équipés" : non ?

 

 


 Dossier DL
 ==========


 L'archive dl.zip contient un répertoire, ce qui est interdit ; de plus le descriptif
 est fourni sous forme d'un fichier Word et non pas d'un fichier texte.

 "Le guide national de gites de France" : c'est sans doute évident pour vous, mais il
 s'agit d'un livre ? annuel ?

 "nous fournit" : a.m.a "fournit" serait suffisant.

 "En effet" :  a.m.a est inutile, s'apparente à de l'oral. De plus votre phrase sur les
  campeurs n'est en rien une suite logique de ce qui précède.

  "profiter de la joie de..." : aucun rapport avec le sujet ; les phrases "buccoliques"
  ne correspondent en aucun cas à une présentation scientifique des données.

  "de 6 à 25 maximum" : c'est un résultat, pas une description.

  --> Décrivez les caractéristiques d'un camping en général mais ne donnez pas de
      résultat avant l'étude. Indiquez ensuite celles que vous avez jugées pertinentes,
      celles que vous avez retenues et pourquoi.

  "pour manque d'informations " -> "par manque d'informations" : n'est-ce pas ?

  "un numéro, voire plusieurs" : cela n'a aucun sens. Vous confondez avec chiffre ?
  De plus vos données ne le font pas : au pire, on a un seul chiffre.

  Il serait bon d'indiquer quel sigle en 4, 5 ou 6 lettres vous allez utiliser
  pour les colonnes (pex. PADU pour Prix Adultes).

  Un de vos campings s'appelle VIDE ?

 

 


 Dossier KM
 ==========


 La rédaction laisse à désirer : "Voici le descriptif des données marines, issues d'une station
 automatique marine fixe de Météo-France, la bouée Côte d'Azur en Méditerranée. Voici le site .." ;
 deux phrases qui comment par voici, c'est trop. Faites des phrases avec un sujet, un verbe,
 un complément. Ne dites pas que la bouée est une station marine ou indiquez qu'il s'agit
 d'une bouée équipée... Ne mettez pas d'espace avant un point ou une virgule.

 Qu'est-ce que le "Temps Universel" ? Pourquoi n'avoir retenu que les jours des 25
 au 27 novembre ? Une QT correspond à une variable dont les unités sont sommables. Est-ce
 le cas ici ? Précisez le pour la direction du vent (peut-on soustraire des directions
 négatives ?).

 Peut-on vraiment additionner des pourcentages d'humidité de l'air ?
 Qu'est-ce qu'un volume d'air saturé ?

 Qu'est-ce que la tendance de la pression atmosphérique  ?

 La variable T1/3 est mal nommé à cause du symbole /. Nommez la plutot T1t (pour
 T un-tiers).

 Vous devez découper vos QT en QL en justifiant à chaque fois le nombre et les bornes
 des classes puis nommer les modalités correspondantes.

 Enfin, il semblerait qu'il y ait 2 colonnes (vides) dans le dbf nommées
 C012 et C013. Curieux et inutile.

 

 


 Dossier MAL
 ===========



 L'archive mal.zip contient un répertoire, ce qui est interdit. C'est en plus
 inutile car le répertoire est vide...

 "les priorités budgetaires" ->  "les priorités budgétaires", n'est-ce pas ?

 "Dans son numéro 676 de juin 2003, l'Expansion" dites plutot "le magazine
  mensuel/hebdomadaire... l'Expansion".

  "budget par habitants" : pas de S.

 Le descriptif est "court" et il y a au moins deux gros problèmes avec les données.

 1. Si vous utilisez les rangs, vous n'allez rien obtenir car ce sont des QT
    qui correspondent toutes à la même loi théorique uniforme discrète.

 2. Si vous utilisez les budgets, vous ne prenez pas en compte les valeurs
    réelles (pondérées par le nombre d'habitant).

 Pour éviter de chercher d'autres données, je vous propose d'utiliser le site
 trouvé par un de vos collègues (sur cette page) pour multiplier les budgets
 par les populations et de ne traiter comme QT que ces données budget. Il
 vous restera ensuite à convertir et traiter en même temps ces données en QL.

 

 


 Dossier MS
 ==========



 L'archive ms.zip contient un répertoire, ce qui est interdit.

 "Les voitures choisit" -> "choisies" n'est-ce pas ?

 "Ces données proviennent du site du quotidien automobile dont
  l'adresse web est http://automobile.nouvelobs.com/guide/ où
  l'on choisit directement sur cette page la marque du véhicule désiré
  et son modèle." ; rajoutez : "j'ai donc saisi par copier/coller les
  diverse informations". Comme cela s'il y a des données surprenantes,
  on saura d'où cela vient...

  "Dans le but d'une étude sur le rapport prix/performances" : je trouve
  que vous vous engagez : étudiez des liaisons entre des variables est
  un travail trop technique pour pouvoir être mené à bien dans le cadre
  de la petite analyse statistique que je vous demande.

  "j'ai décidé d'en retenir une cinquantaine" : menteur ! c'est le texte
  du projet qui impose la valeur 50. ce n'est donc pas un choix de votre
  part. Par contre, c'est bien vous qui avez choisi les voitures.

  "3 / Carb ... la variable 1 est indicatrice des voitures" ; c'est
  incorrect : il s'agit de la valeur 1 pour la variable 3 (CARB)."

  "Plus un moteur est puissant, plus la voiture est rapide..." oui ;
  "... et nerveuse " : pas forcément ; passez voir ma XM de 14 chevaux
  et vosu verrez qu'un "veau" puissant n'est pas nerveux !

  "au alentour" -> "aux alentours"

  "Conso moy route ... C'est une variable QT." : pourquoi parler maintenant
  de QT ? Vous ne le dites pas pour les autres variables.

  "Certaines voitures ont commencer" : faute d'orthographe à corriger.
  "a quelques endroits." : idem.
  "les cylindrée" : idem.
  et pour  "une cylindrée inférieur"
           "qui possedent"
           "Les voitures...sont répertoriés"
           "correspondent souvent a"
           "J'ai choisit"

  Mais pourquoi parler de prix à virgules ? Il n'y en a plus dans votre
  fichier. Par contre il serait bon de signaler que vous avez arrondi.

  Vous devriez indiquer plus clairement qu'à partir de la variable 10,
  il s'agit de vos variables calculées à partir des variables d'origine
  selon vos choix de nombre de classes et de bornes.

  "Un temps inférieur à dix secondes correspond aux voitures assez
  "puissantes aux démarrages" (démarrage au singulier, sans doute) ;
  d'où vient cette information sans doute vraie ? Rumeur, référence
  technique, culture populaire ou... ?

  "Cette classe de cylindrée se décompose en quatre variables
  de classe allant de 0 à 3" : non ; il s'agit de valeurs de classes
  pour UNE variable donnée. Cette erreur de confusion entre valeur
  et variable est présente à plusieurs endroits. A corriger.

  "Ccylindree" : vous commencez avec des cm3 puis vous passer à des litres.
  Ce n'est pas cohérent. Le litre est sans doute plus correct pour une
  étude statistique, le cm3 pour une utilisation commerciale voire
  mercantile (ou pour "frimer").

  "J'ai déclaré trois variables de classe. La première s'appelle Leger...".
  Il serait plus judicieux de dire : j'ai défini trois modalités que j'ai
  nommées... Attention : "Leger" s'écrit avec un accent. idem pour "Tres".
  Pourquoi 3 classes ? Qu'est-ce qui justifie vos bornes ?

  "Avec ce type de découpage on pourra bien faire les rapprochements entre
  le poids de chaque véhicule, son moteur et sa carrosserie." ; cette phrase
  n'a rien à voir avec le discours scientifique au nievau de la description
  des données qui vous est demandée. De plus il est trop tot pour le dire :
  s'il y a des rapprochements, c'est l'analyse qui le montrera. Le registre
  de langue (oral) n'est pas adapté ici.

  "des prix plus ou moins abordables" : ce ne sont pas les prix qui sont
  abordables mais les voitures. De plus "abordable" est une notion subjective
  sans doute liée au budget de celui qui emploie ce terme. Nuancez votre
  affirmation ("qui me semblent abordables", par exemple). Ou alors faite
  référence à un salaire moyen (SMIG, notamment). Idem pour "bon marché".

  "J'ai choisit (OH !) ces classes en fonction du financement qu'elles
  représentent" : faux. Le financement, c'est la façon de payer. Ce que vous
  ne traitez pas. Ansi "format familial" n'est pas un mode de financement.
  A reprendre.

  Vous avez fait un effort certain de rédaction. Toutefois pour les découpages
  en classes, il serait (peut-être) plus judicieux d'utiliser une écriture
  plus compacte comme

  Cpoids : variable QL associée au poids des véhicules.

    Classe 1 "Léger" moins de 1300 kg
    Classe 2 "Moyen"       de 1300 kg à 1700 kg
    Classe 3 "Lourd" plus  de 1700 kg

  Enfin, il semblerait qu'il y ait 3 colonnes (vides) dans le dbf nommées
  C015, C016 et C017. Curieux et inutile.