Commentaires sur les descriptifs fournis
pour les analyses statistiques en Licence Mass
année 2004/2005
(gH) gilles.hunault@univ-angers.fr
Dossier AJ ========== L'archive aj.zip contient un répertoire, ce qui est interdit. La référence "http://www.linternaute.com/ville/ville/donnee/7843/avignon.shtml" est maladroite : il ne s'agit que de la ville d'Avignon. "raménées" -> "ramenées", n'est-ce pas ? "Pour le classement, seuls les critères 3, 4, 5, 6, 7 sont pris en compte." : cette phrase est maladroite : le classement n'est pas un critère, le nom de la ville et son département non plus. Parlez plutot des informations en colonne 3 à 7. Vous avez vraiment cliqué 100 fois poura voir la population effective de chaque ville ? Vous ne faites pas assez ressortir qu'à partir de ces données vous avez construit les QL sur ces données. Vous devez justifier le nombre de classes et les bornes. D'où viennent-elles ? "étant donné que la taille et l'importance des villes considérées sont différentes, on distribue le nombre d'accidents de la route durant l'année 2001 selon 6 classes, dont les bornes.." : avec la même phrase, on peut prendre 5 classes et des bornes différentes. Vous devez qualifier les classes (par exemple 0 : très faible, 1 : asse faible...). Variable "12-CCOND" : vous ne prenez pas les mêmes bornes puisque vous n'avez pas le même nombre de classes ! "appronfondit" -> "approfondit" ? "un accident peut engendrer un à plusieurs tués et blessés. On obtient ainsi 9 classes" : pourquoi pas 10 ? "les acteurs principaux des accidents de la route sont les jeunes de moins de 25 ans, on découpe les classes par tranche de 100 personnes" : pourquoi pas 200 ? "pour les 3 classes suivantes, les critères n'entrent pas en compte pour le classement des villes.Il n'est donc pas pertinent de faire des classes trop détaillées." : je ne suis pas d'accord : votre étude ne repose pas sur le classement mais sur les données fournies. De plus comme vous ne gérez pas le classement, vous ne devez vous y référer de façon indirecte. ce serait biaiser l'analyse. En ce qui concerne la base de données, le champ T&B est incorrectement nommé ; TB est plus convenable. Idem pour CT&B. Le champ PIÉT lui aussi est incorrectement nommé. Utilisez plutot PIET. Idem pour CPIÉT. Vous pouvez continuer sous réserve de justifier le nombre et les bornes des classes.
Dossier BG ========== "Concernant les champs, on a donc gardé : les champs avec un intérêt pour la réalisation d'une analyse" : cette phrase est sans doute un peu maladroite. Une lecture rapide ne permet pas de comprendre de quelle analyse il s'agit. Je pense que vous voulez dire "les champs compatibles avec les contraintes qui nous sont imposées pour l'analyse statistique qui nous est demandée". Idem pour "l'analyse ne rentre pas dans les détails..." Attention : le champ GDPPC (PIB par habitant) n'est ni QT ni QL ; il ne faut donc pas s'en servir, sauf pour faire un découpage en classes. De plus j'ai été sur le site http://www.indexmundi.com/g/ ; mais je ne vois pas comment on obtient directement les PIB. Pourriez-vous me détailler les manipulations, notamment pour la sélection des pays ? "Certains champs ont également été transformés pour obtenir des variables QL." : je préférerais "voici les champs retenus... ; nous avons également transformé les champs suivants en QL...". "sauf pour le champ TIRRIGATION où les valeurs peuvent être plus anciennes" : comment le sait-on ? est-ce important ? quelle est la date de ces données ? Les unités des variables doivent certainement être repensées. Ainsi pour la population, le million d'habitants est sans doute plus adapté ; la valeur 21765000 hab n'est pas aussi lisible que 21,765 Mhab. Idem pour la surface : une valeur comme 65209000 ha pour l'Afghanistan n'est pas non plus lisible. Bon idée de mettre des définitions, des explications et les mots en anglais en fin de document. Quelles sont les sources de vos définitions ? Le glossaire du site de départ ne donne pas exactement les mêmes. Par exemple le lien http://www.fao.org/ag/agl/aglw/aquastat/glossary/indexfra2.jsp?keyword1=&subject=%25&term_f=Terres+arables&search=Montre n'est pas aussi complet que vos explications. Le terme "dans cette étude" correspond-il à votre étude ou à l'étude présentée sur le site ? Pourquoi 4 classes de population urbaine plutot que 3 ou 5 ? Qu'est-ce qui le justifier ? Et comment sont déterminées les bornes ? Idem pour DRATIO et les champs *USE. "Il est aussi appelle potentiel de developpement" -> "Il est aussi appelé potentiel de développement" : n'est-ce pas ? Quantité annuelle d'eau produites : un S en trop. "Les autres marais et bas fonds non équippées" -> "Les autres marais et bas fonds non équipés" : non ?
Dossier DL ========== L'archive dl.zip contient un répertoire, ce qui est interdit ; de plus le descriptif est fourni sous forme d'un fichier Word et non pas d'un fichier texte. "Le guide national de gites de France" : c'est sans doute évident pour vous, mais il s'agit d'un livre ? annuel ? "nous fournit" : a.m.a "fournit" serait suffisant. "En effet" : a.m.a est inutile, s'apparente à de l'oral. De plus votre phrase sur les campeurs n'est en rien une suite logique de ce qui précède. "profiter de la joie de..." : aucun rapport avec le sujet ; les phrases "buccoliques" ne correspondent en aucun cas à une présentation scientifique des données. "de 6 à 25 maximum" : c'est un résultat, pas une description. --> Décrivez les caractéristiques d'un camping en général mais ne donnez pas de résultat avant l'étude. Indiquez ensuite celles que vous avez jugées pertinentes, celles que vous avez retenues et pourquoi. "pour manque d'informations " -> "par manque d'informations" : n'est-ce pas ? "un numéro, voire plusieurs" : cela n'a aucun sens. Vous confondez avec chiffre ? De plus vos données ne le font pas : au pire, on a un seul chiffre. Il serait bon d'indiquer quel sigle en 4, 5 ou 6 lettres vous allez utiliser pour les colonnes (pex. PADU pour Prix Adultes). Un de vos campings s'appelle VIDE ?
Dossier KM ========== La rédaction laisse à désirer : "Voici le descriptif des données marines, issues d'une station automatique marine fixe de Météo-France, la bouée Côte d'Azur en Méditerranée. Voici le site .." ; deux phrases qui comment par voici, c'est trop. Faites des phrases avec un sujet, un verbe, un complément. Ne dites pas que la bouée est une station marine ou indiquez qu'il s'agit d'une bouée équipée... Ne mettez pas d'espace avant un point ou une virgule. Qu'est-ce que le "Temps Universel" ? Pourquoi n'avoir retenu que les jours des 25 au 27 novembre ? Une QT correspond à une variable dont les unités sont sommables. Est-ce le cas ici ? Précisez le pour la direction du vent (peut-on soustraire des directions négatives ?). Peut-on vraiment additionner des pourcentages d'humidité de l'air ? Qu'est-ce qu'un volume d'air saturé ? Qu'est-ce que la tendance de la pression atmosphérique ? La variable T1/3 est mal nommé à cause du symbole /. Nommez la plutot T1t (pour T un-tiers). Vous devez découper vos QT en QL en justifiant à chaque fois le nombre et les bornes des classes puis nommer les modalités correspondantes. Enfin, il semblerait qu'il y ait 2 colonnes (vides) dans le dbf nommées C012 et C013. Curieux et inutile.
Dossier MAL =========== L'archive mal.zip contient un répertoire, ce qui est interdit. C'est en plus inutile car le répertoire est vide... "les priorités budgetaires" -> "les priorités budgétaires", n'est-ce pas ? "Dans son numéro 676 de juin 2003, l'Expansion" dites plutot "le magazine mensuel/hebdomadaire... l'Expansion". "budget par habitants" : pas de S. Le descriptif est "court" et il y a au moins deux gros problèmes avec les données. 1. Si vous utilisez les rangs, vous n'allez rien obtenir car ce sont des QT qui correspondent toutes à la même loi théorique uniforme discrète. 2. Si vous utilisez les budgets, vous ne prenez pas en compte les valeurs réelles (pondérées par le nombre d'habitant). Pour éviter de chercher d'autres données, je vous propose d'utiliser le site trouvé par un de vos collègues (sur cette page) pour multiplier les budgets par les populations et de ne traiter comme QT que ces données budget. Il vous restera ensuite à convertir et traiter en même temps ces données en QL.
Dossier MS ========== L'archive ms.zip contient un répertoire, ce qui est interdit. "Les voitures choisit" -> "choisies" n'est-ce pas ? "Ces données proviennent du site du quotidien automobile dont l'adresse web est http://automobile.nouvelobs.com/guide/ où l'on choisit directement sur cette page la marque du véhicule désiré et son modèle." ; rajoutez : "j'ai donc saisi par copier/coller les diverse informations". Comme cela s'il y a des données surprenantes, on saura d'où cela vient... "Dans le but d'une étude sur le rapport prix/performances" : je trouve que vous vous engagez : étudiez des liaisons entre des variables est un travail trop technique pour pouvoir être mené à bien dans le cadre de la petite analyse statistique que je vous demande. "j'ai décidé d'en retenir une cinquantaine" : menteur ! c'est le texte du projet qui impose la valeur 50. ce n'est donc pas un choix de votre part. Par contre, c'est bien vous qui avez choisi les voitures. "3 / Carb ... la variable 1 est indicatrice des voitures" ; c'est incorrect : il s'agit de la valeur 1 pour la variable 3 (CARB)." "Plus un moteur est puissant, plus la voiture est rapide..." oui ; "... et nerveuse " : pas forcément ; passez voir ma XM de 14 chevaux et vosu verrez qu'un "veau" puissant n'est pas nerveux ! "au alentour" -> "aux alentours" "Conso moy route ... C'est une variable QT." : pourquoi parler maintenant de QT ? Vous ne le dites pas pour les autres variables. "Certaines voitures ont commencer" : faute d'orthographe à corriger. "a quelques endroits." : idem. "les cylindrée" : idem. et pour "une cylindrée inférieur" "qui possedent" "Les voitures...sont répertoriés" "correspondent souvent a" "J'ai choisit" Mais pourquoi parler de prix à virgules ? Il n'y en a plus dans votre fichier. Par contre il serait bon de signaler que vous avez arrondi. Vous devriez indiquer plus clairement qu'à partir de la variable 10, il s'agit de vos variables calculées à partir des variables d'origine selon vos choix de nombre de classes et de bornes. "Un temps inférieur à dix secondes correspond aux voitures assez "puissantes aux démarrages" (démarrage au singulier, sans doute) ; d'où vient cette information sans doute vraie ? Rumeur, référence technique, culture populaire ou... ? "Cette classe de cylindrée se décompose en quatre variables de classe allant de 0 à 3" : non ; il s'agit de valeurs de classes pour UNE variable donnée. Cette erreur de confusion entre valeur et variable est présente à plusieurs endroits. A corriger. "Ccylindree" : vous commencez avec des cm3 puis vous passer à des litres. Ce n'est pas cohérent. Le litre est sans doute plus correct pour une étude statistique, le cm3 pour une utilisation commerciale voire mercantile (ou pour "frimer"). "J'ai déclaré trois variables de classe. La première s'appelle Leger...". Il serait plus judicieux de dire : j'ai défini trois modalités que j'ai nommées... Attention : "Leger" s'écrit avec un accent. idem pour "Tres". Pourquoi 3 classes ? Qu'est-ce qui justifie vos bornes ? "Avec ce type de découpage on pourra bien faire les rapprochements entre le poids de chaque véhicule, son moteur et sa carrosserie." ; cette phrase n'a rien à voir avec le discours scientifique au nievau de la description des données qui vous est demandée. De plus il est trop tot pour le dire : s'il y a des rapprochements, c'est l'analyse qui le montrera. Le registre de langue (oral) n'est pas adapté ici. "des prix plus ou moins abordables" : ce ne sont pas les prix qui sont abordables mais les voitures. De plus "abordable" est une notion subjective sans doute liée au budget de celui qui emploie ce terme. Nuancez votre affirmation ("qui me semblent abordables", par exemple). Ou alors faite référence à un salaire moyen (SMIG, notamment). Idem pour "bon marché". "J'ai choisit (OH !) ces classes en fonction du financement qu'elles représentent" : faux. Le financement, c'est la façon de payer. Ce que vous ne traitez pas. Ansi "format familial" n'est pas un mode de financement. A reprendre. Vous avez fait un effort certain de rédaction. Toutefois pour les découpages en classes, il serait (peut-être) plus judicieux d'utiliser une écriture plus compacte comme Cpoids : variable QL associée au poids des véhicules. Classe 1 "Léger" moins de 1300 kg Classe 2 "Moyen" de 1300 kg à 1700 kg Classe 3 "Lourd" plus de 1700 kg Enfin, il semblerait qu'il y ait 3 colonnes (vides) dans le dbf nommées C015, C016 et C017. Curieux et inutile.