Commentaires associés aux notes
des analyses statistiques en Licence Mass
pour l'année 2004
(gH) gilles.hunault@univ-angers.fr
Fichier ANA.ZIP note pour l'instant 08 / 20 =========================================== Le descriptif est rédigé en style télégraphique, ce qui n'est pas correct : faites des phrases, donnez un titre à votre étude, citez la source de vos données. De quelle année datent vos données ? Vous parlez de prix en francs, c'est donc un "vieux" dossier ? Pourquoi ne pas avoir pris des données récentes ? Ce serait bien de mettre votre nom dans le document Word, l'année etc. avec une belle page de titre. Le fichier Word contient des fautes d'orthographes facilement détectables. Ainsi "Les variables qualitatives ne semblent pas nécessités d'autres explications que celle données dans le descriptif." comporte deux fautes simples à corriger : faites relire votre document. Votre remarque sur ces données QT est incorrecte : du fait de données manquantes, l'analyse est difficile, voire impossible à mener avec le fichier d'origine. Sur vos 113 lignes de données de départ seules 70 sont complètes : je trouve 34 lignes avec tarif=0, 16 lignes avec distance_p=0, 41 lignes avec pris_pers_ = 0. Comment faites-vous alors pour calculer m, sigma, rho ? Il faut indiquer la taille de chaque variable QT puisque les données n'ont pas le même nombre de valeurs. Ou alors, fournissez une base de données "épurée" sur laquelle je peux refaire les calculs. S'agit-il de la base remaniée ? Quelles sont les différences avec la base initiale ? "Pour la variable commune, on remarque que ce ne sont que des communes situées sur..." : ce n'est pas une remarque mais un choix que vous avez fait : le guide de la fédération comporte autre chose que les campings vendéens. Dans l'onglet "analyse des QT" vous mettez inutilement trop de décimales dans les tableaux de m, sigma, rho. Que penser par exemple d'un prix de 19,04375 francs ? A reprendre. Le tri par moyenne décroissante est stupide (unités incompatibles). Il faut étudier plus finement la relation linéaire entre superficie et nombre d'emplacements, ainsi que l'interprétation financière entre le tarif et le prix pour personne supplémentaire. Pour "analyse de la variable nbre d'étoiles en tant que variable quantitative", je ne comprends pas la phrase "on a pas pris en compte ici les terrains de camping une étoile, n'étant pas assez nombreux." car rien ne justifie que vous enleviez des données. Vous forcez arbitrairement le nombre d'étoiles à être grand. A refaire. Où est le tableau résumé des tris à plat des QL trié par mode ? C'est le seul tableau qui permette d'avoir une vue d'ensemble des QL. A faire obligatoirement. Cela donne aussi l'ordre dans lequel interpréter les variables : ainsi il faut impérativement commencer par la variable "jeux enfants" qui fait pratiquement l'unanimité. La rédaction "on constate que" que vous utilisez à chaque fois est trop mécanique pour être intéressante : la rédaction consiste à intéresser le lecteur, pas à fournir des résultats "barbants". Un peu d'imagination que diable ! L'analyse conjointe du nombre d'étoile avec les autres variables est une bonne idée mais attention "le nombre de terrain de campings (5) n'étant pas assez significatif" n'est sans doute pas correctemnt exprimée : quelle définition mathématique ou statistique précise utilisez-vous pour quantifier la significativité ? Relisez : "plus de neuf terrain de camping sur dix n'ayant pas d'animations n'ont pas de terrain de camping" mais si un terrain de camping n'a pas de terrain de camping, qu'est-ce que c'est ? Il faut supprimer des graphiques la mention "Déposer champs de page ici". Le graphique du tri croisé du nombre d'étoiles avec les autres variables est trop chargé : une ou deux variables bien choisies suffiraient pour illustrer l'influence du nombre d'étoiles. Globalement : vous avez fait pas mal de travail, mais la rédaction est à reprendre car c'est trop scolaire : il n'y a pas assez de phrases. Essayze de travailler avec une base de donnée plus petite pour les QT, par exemple celle qui ne contient que les 70 terrains avec tarif > 0 et dist_p > 0 et prix_pers_ > 0 pour que ce soit plus clair.
Fichier BEA.ZIP note pour l'instant 11 / 20 ============================================= Relisez le descriptif : "Les données qui sans contre indications date de 2001." contient une faute d'orthographe qui induit une perte de sens. "Dans les analyses j'ai préféré étudier les régions plutôt que les départements car c'est plus significatif (plus de villes par régions)." : ceci ne doit pas figurer dans le descriptif car celui-ci ne fait que documenter (décrire) les lignes et les colonnes. Attention au terme "significatif" : quelle définition mathématique ou statistique précise utilisez-vous pour quantifier la significativité ? De plus vous pouvez étudier vos variables par ville ou par région, ce n'est pas la même étude et les deux sont valides et se justifient toutes deux. Variable Inondations : le nom de la variable est sans doute mal choisi car il ne s'agit que des indemnisations par l'Etat. Il peut y avoir inondation sans indemnisation. Terrains pollués : une définition de la pollution (type de pollution notamment) et une indication de qui reconnait qu'il y a pollution serait la bienvenue. Usines de type Seveso : donner un lien internet sur la définition de Seveso (il y a plusieurs degrés Seveso ?). Le descriptif est mal présenté : il faudrait commencer par donner une petite idée de ce que contient le dossier, trouver un titre (comme Danger ou Risques ou ...) puis citer les sources... Que signifie criminalité ou crimes et délits ? Les types de vols n'en font pas partie ? A détailler. Vos choix en ce qui concerne la conversion en QL des Usines à risques et Terrains pollués sont discutables et non justifiés : 1 - votre avis n'est certainement pas important (car pas plus que moi vous n'êtes spécialiste de ce genre de données) 2 - il y a clairement des "petites" pollutions et des "grandes" ce que montre bien le nombre de terrains pollués ; la présence de nombreuses usines à risques est trés différente de la présence d'une seule ; résumer cette information en présence/absence est trop réductrice. Donc : traitez aussi ces variables en QT comme cela on verra ce que vous pouvez en déduire. A faire impérativement. Vus les grands chiffres pour les QT, vous devriez arrondir à l'unité prés les valeurs et les cdv. Dans la matrice des corrélations, à quoi correspondent vos couleurs ? Le tri des variables quantitatives par moyenne est certainement maladroit : ce ne sont pas les mêmes unités : comparer un vol et un accident n'a aucun sens logique. Pourquoi commencer la rédaction avec la matrice des corrélations ? Parler de différence selon la population sans avoir commencé par détailler la variation du nombre d'habitants n'est pas correct. De plus vous travaillez globalement avec l'ensemble des villes, contrairement à ce que vous annoncez dans le descriptif (analyse par région). Le terme de "corrélations sûres" est maladroit : il est du aux éléves Mass ayant écrit les macros Excel et les programmes Dbase. Il n'y a aucune définition mathématique associée. De plus 0,847 est quand même plutot proche de 0,9 ... Pour les graphiques de corrélation, une autre unité pour les X serait adaptée : 1200000 n'est pas aussi lisble que 1,2 ; vous devriez aussi dire quelque chose sur les points "outliers" qui sont très extérieurs à la courbe théorique. Est-ce à chaque fois la même ville ? Pourquoi mettre le titre QT pour les tris à plat ? De plus, s'agissant d'un titre, il vaudrait mieux écrire en toutes lettres Variables Qualitatives ou même Etude des Variables Qualitatives. Je préférerais d'abord le résumé des tris à plat puis le détail des tris. Cela me parait plus logique : une vue d'ensemble puis une analyse de détail... N' y a-t-il pas un problème avec le nombre de terrains pollués finalement donné pour 100 000 habitants ? Ramenés au nombre total d'habitants, on aurait une meilleure idée de la variation (et de l'étendue des dégats). A faire impérativement. Je pense que vous n'avez pas compris ce qu'on appelle un tri croisé. Un tri croisé utilise deux variables QL et en aucun cas une QL et une QT. Traiter une QT en fonctions du découpage par modalités s'appelle analyse de la variance. En particulier, vous devez croiser REGION avec les autres QL qui sont NUCLEAIRE, USINES, TERRAINS et sans doute PREVENTION. L'étude des moyennes par régions, intéressante toutefois, ne peut pas porter le nom de tri croisé. Il serait bon, comme vous utilisez beaucoup le nombre d'habitants, de commencer par bien étudier la variable QT correspondante. Vous pourriez ainsi avoir une variable QL "type de ville" avec des modalités comme "grande ville", "ville moyenne" etc. qui permettrait au niveau des tris croisés de mettre plus en évidence vos résultats. Cela gommerait sans doute aussi l'effet PLM (Paris, Lyon ou Marseille). Globalement : pas trop mal, mais des erreurs de rédaction et quelques calculs supplémentaires à faire. Ajoutez aussi quelques graphiques pour les tris croisés (mais pas empilés).
Fichier BLS.ZIP note pour l'instant 08 / 20 =============================================== Commencer le descriptif qui est le premier fichier à lire par "Complément" est maladroit et malvenu. Le descriptif est un fichier "self contained" qui introduit les données, pas l'inverse. On y cite le cadre de l'étude, les sources, on y présente les données en tant que lignes, en tant que colonnes... Le fichier BLS.DBF n'est pas au format Dbase3 Plus : recommencez la conversion avec DescDbf. Il est tout à fait correct d'enlever les villes qui ne contiennent pas toutes les données à condition de citer les villes enlevées et de s'interroger sur l'intérêt de ces villes pour l'étude : faites remarquer rapidement que ces villes ne sont pas les plus importantes de France par exemple. Imaginez que vous ayiez enlevé Paris, Lyon ou Marseille par manque de renseignements : l'analyse n'aurait alors aucun intérêt. D'ailleurs l'analyse est certainement biaisée car du coup aucune ville n'est station de sport d'hiver... Comment avaient été choisies les 100 premières villes ? N'hésitez pas à critiquer les choix du magazine... Quelle est la réalité de la notion de zone ? La notion de région, gégographique et économique a un sens. Mais celle de zone ? Qu'est-ce qui la justifie ? Quel est l'intérêt de mettre ensemble métro et tramway ? Bus et tramway sont comparables en termes de fonctionnement, mais métro et tramway ? Transports en commun : cette variable ne veut rien dire sans plus de détails : qui voyage ? qu'est-ce qu'un voyage ? comment est-il comptabilisé ? La variable Restaurant est-elle vraiment pertinente ? On sait aujourd'hui que la restauration rapide (snacks, brasserie, sandwicheries...) est plus importante que la restauration à étoiles... Où est le tableau résumé des tris à plat des QL trié par mode ? C'est le seul tableau qui permette d'avoir une vue d'ensemble des QL. A faire obligatoirement. Cela donne aussi l'ordre dans lequel interpréter les variables. Il manque certainement un tri croisé important : celui entre MER et SKI. Vous mettez inutilement trop de décimales dans les tableaux de m, sigma, rho pour l'analyse des QT : les valeurs sont illisibles. De plus, que penser d'une moyenne de 4,764044944 restaurants étoilés ? A reprendre. Que signifie "l'existence d'écarts significatifs entre les villes paraît évidente, et ceci se justifie par l'analyse conjointe des variables.". D'abord, quelle définition mathématique ou statistique précise utilisez-vous pour quantifier la significativité ? Ensuite quelle "justification(s)" voyez-vous ? Dans la matrice des corrélations vous mettez inutilement trop de décimales. Cela entraine une mauvaise lisibilité. Pour les graphiques de corrélation, une autre unité pour les populations serait plus adaptée : 1200000 n'est pas aussi lisble que 1,2 ; vous devriez aussi dire quelque chose sur les points "outliers" qui sont très extérieurs à la courbe théorique. Est-ce à chaque fois la même ville ? Essayer d'utiliser les équations des meilleures liaisons linéaires pour dire quelque chose de plus détaillé que "plus c'est grand, plus y'a de transport". Vos graphiques de corrélation ne correspondent pas à l'analyse chiffrée que vous présentez : vous calculez des corrélations linéaires et vous donnez des graphiques polynomiaux non linéaires. A reprendre ou à détailler. Pourquoi fournir une dernière page vide avec des paragraphes vides dans le fichier Word ? Vous ne semblez pas avoir exploité la notion de zone. Essayer de reprendre une étude des différentes QT par zone. Il faudrait rédiger un peu plus vos observations sur les divers tableaux des QT et des QL. Globalement : quelques petites erreurs et une rédaction un peu trop succinte.
Fichier BVA.ZIP note pour l'instant 09 / 20 =============================================== Vous n'avez pas fourni de fichier .DBF lisible par Dbase3 Plus. Ce serait bien de mettre une page de titre dans le document Word avec votre nom et le nom du dossier, l'année etc. Le fichier Excel mobilesQTQL est incorrectement nommé : mon logiciel de récupération automatique n'ayant vu aucun BVA*.XLS, le fichier Excel n'est pas pris en compte. Relisez le descriptif : "Je l'ai ai séléctionné " n'est pas français. "J'ai séléctionné les QT et les QL en fonction de leur pertinence". Que voulez-vous dire ? Etes-vous spécialiste des téléphones pour juger de la pertinence des caractères ? N'est-ce pas plutot un choix subjectif ? Commencer le document Word sans un rappel rapide des données, de l'étude, sans titre etc. n'est pas digne d'un rapport en Licence. Début du rapport : les données sont triées par ordre décroissant sur la moyenne et vous dites "Cette analyse n'est pas très utile" alors pourquoi la mettre ? Allons plus loin : ce tableau est stupide car un changement d'unité (comme minutes au lieu d'heures) change l'ordre des moyennes. A supprimer obligatoirement. Vous mettez inutilement trop de décimales dans les tableaux de m, sigma, rho pour l'analyse des QT : les valeurs sont illisibles. De plus, que penser d'un prix moyen de 419,5645161 euros ? A reprendre obligatoirement. Il est trés maladroit d'utiliser la valeur 9999 pour calculer la moyenne car c'est un code indiquant que la mémoire du répertoire est quasiment illimitée. Réfléchissez et trouvez une façon correcte de calculer la moyenne et la part de téléphones avec une mémoire répertoire non limitée. A refaire impérativement. "Le coefficient de variation du prix est donc plus significatif". Comme pour vos collègues, quelle définition mathématique ou statistique précise utilisez-vous pour quantifier la significativité ? Vous dites que 110 % n'est pas un coefficient de variation très élevé mais à mon avis 100 % n'est pas une borne forte... regardez le dossier vins : le CANADA avait un cdv de 309 % ! Varaible POIDS : n'hésitez pas à dirre que c'est une variable assez homogène, le poids étant un argument de vente : tous les constructeurs essaient des faires des mobiles légers, de même poids que leurs concurrrents... A mettre en regard avec HAUTEUR. Pourquoi écrire "a fortiori" dans l'analyse séparée des QL ? C'est beau car c'est du latin, mais cela s'oppose à "a priori" qui n'apparait pas dans la phrase précédente... Bonne analyse des corrélations même si elles sont faibles. Juste une remarque : je ne suis pas complètement d'accord sur le fait que plus le portable est haut, plus le portable sera lourd : l'épaisseur et la largeur doivent jouer un role car le poids est lié en général au volume qui utilise 3 dimensions... sauf si épaisseur et largeur sont les mêmes pour tous les mobiles. De plus, si les composants électroniques ne sont pas les mêmes, un même volume peut correspondre à des poids différents. "D'après les différents tris à plat analysés dans la deuxième partie, on remarque qu'il ne serait pas judicieux de faire une analyse conjointe avec la numérotation vocale et avec la fonction mains libres car celles-ci sont présentes à égalité dans notre étude. Je n'ai donc pas fait d'analyse avec ces deux champs." : ceci n'est pas correct. Une équirépartition globale ne garantit pas une équirépartition sur d'autres modalités. Il aurait mieux valu retirer BlueTooth qui de toutes façons est trés peu présent. Regarder la distribution de la fonction mains libres est de toutes façons intéressant en soi car là encore c'est un argument de vente et une fonctionnalité "intéressante" alors que la composition de sonnerie peut sans doute être considérée comme un "gadget". A reprendre. La conclusion ressemble plutot à un résumé ; je me serais attendu à des remarques sur la variabilité de ceci ou cela sur la diversité, l'homogénéité ou l'absence d'homogénéité de ceci ou de cela. Gardez votre "conclusion" mais rajoutez une vision plus globale des variables.
Fichier DIB.ZIP note pour l'instant 11 / 20 =============================================== "on a choisi Datafiles puis parmi les thèmes proposés on a sélectionné" : mettez ce texte dans une phrase ou alors dites : il sufit de suffit de sélectionner ... dans la rubrique.... "Les spécificités des données sont relatives au projet". ??? Ce n'est pas la peine d'en parler. "enfant de petit âge" : cela ressemble à une mauvaise traduction. Un enfant en bas age serait plus approprié. Relisez : "1 variables QX" contient une faute d'orthographe facilement corrigeable. De même pour "code de l'observateur qui a remplis" et "en générale". La phrase "alors on a transformé 3 QT... en QL" est mal rédigée. La variable sur la météo serait plutot QE que QX. Comme les descriptions de temps sont fixées, la considérer comme QL est tout à fait normal. Comment fonctionne l'identificateur ? Il n'est pas possible d'avoir 75 jours de week-end entre janvier et avril ? Votre description des variables qualitatives est intéressante. Mais vous ne pouvez pas dire que "entre 62 et 80 visiteurs" est un code. Reprenez vos descriptions en séparant - le code, qui est une valeur numérique, - la modalité qui dit à quoi le code correspond, - le label, qui est le nom de la modalité. Vous pouvez omettre le label quand il est identique à la modalité (comme pour "samedi" et "observateur_1"). La rédaction pour le "nombre de commentaire" est incorrecte : comme il s'agit d'un entier, vous ne pouvez pas avoir le code 1 et le code 2 pour 1 commentaire. Mettre "entre x et y" n'est pas aussi clair que l'indication d'intervalle [ x ; y [. Au lieu de "75 journées étudiées" mettez "75 journées d'études". "Dans un premier temps" va avec "dans un deuxième temps" et non pas avec "la deuxième partie". "Nous donnons" : il vaudrait mieux dire "nous donnerons...". Le tri par ordre historique d'entrée des colonnes ne présente aucun intérêt : c'est un ordre arbitraire qui ne met rien en évidence. "Cette interprétation est basée sur le tri décroissant par moyenne et cdv mais présentée selon l'ordre historique d'entrée des colonnes dans le tableau de valeurs." : ceci n'a aucun sens. Quel ordre utilisez-vous ? Il ne peut y en avoir qu'un à la fois. Vous devez présenter les résultats dans l'ordre décroissant de cdv. Ne détaillez pas les minimum et maximum pour chaque variable : ce ne sont pas de bons indicaateurs. Dans la mesure où les variables sont comparables pour les hommes et les femmes, comparez les : qui pousse le plus, homme ou femme ? Y a-t-il plus d'enfants garçons ou filles ? Etc. "Dans un premier temps on va étudier les variables QL avec modalité majoritaire" : ce n'est pas possible car vous ne pouvez pas savoir si les variables ont une modalité majoritaire avant de les avoir étudiées. Il s'agit plutot de les commenter que de les étudier... Je ne comprends pas pourquoi la variable "Jour de la semaine" n'est pas considérée comme majoritaire car Samedi fait 52 % ; comme la majorité est à 50 %, samedi est majoritaire, non ? Comme pour l'analyse des QT, essayer d'élever un peu le niveau des commentaires : que pouvez dire globalement des commentaires, des jours ? Même remarque pour l'analyse des corrélations linéaires : globalement, qu'y a-t-il ? Peut-on dire qu'il y a un effet de taille ? Quelle différence ou quelle liaison entre les garçons et les filles ? Il n'est pas correct de dire "certains tris n'auraient aucun sens puisque toutes les variables ne sont pas liées" car vous ne pouvez pas savoir si les variables sont liées tant que vous n'avez pas fait les tris croisés.... Reprenez la rédaction. Il serait intéressant d'effectuer le tri croisé Temps/Durée qui devrait facilement mettre en évidence que s'il fait beau on reste plus longtemps... En conclusion, vous dites "le nombre de poussettes augmente à peu près d'une poussette pour chaque femme ou homme qui pousse une poussette." : n'est-il pas possible de faire une phrase plus compréhensible ? Il aurait été intéressant de pousser un peu plus loin l'analyse comparée homme/femme et garçon/fille à l'aide des tests de comparaison de pourcentages vus en cours.
Fichier HAN.ZIP note pour l'instant 12 / 20 =============================================== Ce serait bien de mettre une page de titre dans le document Word avec votre nom et le nom du dossier, l'année etc. Relisez : "Le tri par ordre décroissant de moyenne n'a pas très important" n'est pas une phrase française. Pourquoi présenter des tableaux qui ne sont pas intéressants ? Il s'agit d'un rapport, pas d'un brouillon. Vous mettez inutilement trop de décimales dans les tableaux de m, sigma, rho pour l'analyse des QT : les valeurs sont illisibles. De plus, que penser d'un prix moyen de 26,3436364 euros pour un forfait FHS ? A reprendre obligatoirement. Ne commentez pas les minima et maxima, ce ne sont pas des indicateurs révélateurs de l'ensemble des valeurs. A partir de quel calcul arrivez-vous à déduire que "En général, la majorité des campings ont entre 80 et 600 emplacements au total." ? Et pourquoi "au total" ? Vous devez commenter les variables dans l'ordre des cdv décroissant. C'est le seul ordre qui s'impose. Puisqu'il y a des prix hors saison et basse saison, ce serait intéressant de les comparer, notamment avec les tests de comparaison de moyennes vus en cours. La phrase "Le nombre d'emplacements réservés aux tentes et caravanes varie en fonction du nombre total d'emplacements." correspond à une mauvaise rédaction pour exprimer la linéarité de la meilleure liaison linéaire. Idem pour : "Ce qui est tout à fait logique, car si le camping s'agrandit, il aura des emplacements supplémentaires.". Il pourrait y avoir d'autres explications : augementation de l'espace pour la construction de piscines, pour l'aménagement de surfaces de jeux... Attention : la phrase "on remarque que chaque fois que le camping reçoit une étoile supplémentaire, il augmente son forfait de 8 euros." est incorrecte : vous analysez les variables en même temps. Il ne peut donc y avoir de relation causale différée. Or vous dites : "le camping reçoit une étoile donc il augmente son forfait". Vous ne pouvez pas faire mieux que constater la simultanéité des croissances. Où est le tableau résumé des tris à plat des QL trié par mode ? C'est le seul tableau qui permette d'avoir une vue d'ensemble des QL. A faire obligatoirement. Cela donne aussi l'ordre dans lequel interpréter les variables. La rédaction "On remarque que" pour chaque variable qualitative est lassante. Faites un effort de rédaction et d'imagination... Vous avez choisi des tris croisés comme "pertinents". Pourriez-vous expliquer comment vous avez trouvé cette pertinence ? Par exemple la variable piscine est trop majoritairement présente pour qu'un tri croisé soit intéressant... Pourqoui n'y a t-il pas de conclusion, de vue générale sur l'ensemble des campings et des variables ? Car en principe, c'est à cela que sert une étude statistique... Compte-tenu du nombre élevé de variables, ce n'est pas mal mais pas assez "soutenu". A consolider, notamment par une conclusion pour augmenter votre note...
Fichier HEM.ZIP note pour l'instant 11 / 20 =============================================== Le fichier HEM3.DBF n'est pas au format Dbase3 Plus : recommencez la conversion avec DescDbf. Certaines données sont de 1999, d'autres de 2001, de 2002. Ce serait bien de dire un mot sur la compatibilité de ces données. "INSCRITS BIBLIO : (QL) C’est en rapport avec le pourcentage d’habitants de la ville qui sont inscrits dans une bibliothèque municipale de la ville. " : mauvaise rédaction. Que veut dire "c'est en rapport ? " ; ce registre de langue est trop "populaire" en comparaison avec les autres descriptions. De plus la liste des codes est suffisamment courte pour être reprise dans le descriptif ce qui évite de lancer Excel. Ce serait bien de mettre une page de titre dans le document Word avec votre nom et le nom du dossier, l'année etc. Relisez le document word : "La variable concernant les régions permet de d'avoir" est facilment corrigeable. "Maintenant c'est un code (0,1,2,3,4,5)" : rédaction maladroite. Ce n'est pas un état de fait mais une action de votre part. Dans la mesure où vous avez une autre population (les étudiants) vous devriez garder les inscrits en QT et convertir aussi les étudianst en QL. Soit 2 variables à rajouter dans votre dossier : NbINscritsBiblio et EtudiantsQL. A faire impérativement. Quelle méthode classique avez-vous utilisée pour le choix des classes ? Et pourquoi 5 classes ? En l'absence des données, je ne peux vérifier la validité du choix du nombre de classes. Ne commentez pas les minima et maxima, ce ne sont pas des indicateurs révélateurs de l'ensemble des valeurs. La phrase "A savoir aussi que près des trois quarts des villes se situe sous la moyenne nationale." est mal rédigée : pas de verbe central, vous ne donnez pas la moyenne nationale (est-ce celle des 100 villes -- ce qui n'est pas la moyenne nationale -- ou une autre dont vous ne donnez pas la source ?). Pourquoi fournir dans l'onglet analyse QT le tableau des stat. par ordre d'entrée des colonnes ? C'est un ordre arbitraire qui ne fournit aucun résultat intéressant. De plus je vous rappelle que vous devez commenter les variables dans l'ordre des cdv décroissant. A refaire obligatoirement. "Paris détient à chaque fois les valeurs maximales. C'est assez logique du fait que c'est la capitale française et même une des villes les plus touristiques du monde." : je ne vois pas le rapport entre le tourisme, l'université et la bibliothèque ! Bonne rédaction pour l'analyse globale des QL en tri à plat, mais où est le tableau résumé des tris à plat des QL trié par mode ? C'est le seul tableau qui permette d'avoir une vue d'ensemble des QL. A faire obligatoirement. Cela donne aussi l'ordre dans lequel interpréter les variables : ainsi il faut commencer par la variable "centre chorégraphique national". Analyse conjointe des QT : "dans toute cette analyse, il a été omis volontairement les données de la ville de Paris..." et si vous laissiez un onglet où l'analyse avec Paris est effectuée qu'on voie la différence ? A faire obligatoirement. "meilleures corrélations...ne sont pas pertinentes car certaines relations entre variables ne signifient pas grand chose." : vous ne pouvez pas dire cela. Que cela ne signifie rien pour vous ne veut pas dire qu'il n'y a pas de sens à ces relations. De plus, une forte corrélation a toujours au moins la signification d'une simultanéité de croissance (ou de décroissance). "Première meilleure corrélation : Cinéma/Festivals... On peut y voir l'effet de festivals concernant le cinéma." : ceci est une affirmation gratuite. Vous ne pouvez pas, sauf à fournir d'autres données prétendre qu'il y a surtout des festivals de cinémas (même si c'est peut être vrai). Par exemple Orléans, que vous citez, n'a pas de festival de cinéma, contrairement à Paris, Cannes, Avoriaz et Cognac. Vos graphiques de corrélation ne correspondent pas à l'analyse chiffrée que vous présentez : vous calculez des corrélations linéaires et vous donnez ceratins graphiques exponentiels non linéaires et d'autres polynomiaux. A reprendre ou à détailler. D'où sortez-vous les informations "beaucoup d'organisateurs de festivals (surtout musicaux) comptent sur la présence d'étudiants en tant que public" et "les étudiants représentent une grande part du public dans les cinémas" ? Est-ce de votre culture personnelle ? Ou un fait établi (par qui ?) ou une rumeur ? Vous devriez suggérer plutot qu'affirmer. Tous les coefficients de corrélations linéaires sont forts et positifs : il faut certainement en déduire un effet global de taille que vous ne dégagez pas clairement. A rédiger. Le choix de région pour les tris croisés est à la fois obligatoire et contraignant car on sait déjà que PACA a beaucoup de villes... Vous devez enlever les décimales pour les pourcentages dans les tris croisés. Cela rend les tableaux peu lisibles : mettre 50 % est largement mieux que 50,00 %. Puisque les centres chorégraphiques sont très peu présents, un tri croisé ne montrera rien sinon l'absence pour chaque modalité. Ce tri croisé est donc sans doute inutile. Il serait par contre intéressant de croiser Université et Théatre. Pourqui n'y a t-il pas de conclusion, de vue générale sur l'ensemble des villes et des régions, des "profils culturels" ? Car en principe, c'est à cela que sert une étude statistique...
Fichier HEN.ZIP note pour l'instant 07 / 20 =============================================== Ce serait bien de mettre une belle page de titre dans le document Word avec votre nom et le nom du dossier, l'année etc. Le fichier HEN.DBF n'est pas au format Dbase3 Plus : recommencez la conversion avec DescDbf. En quoi le prix de l'embrayage est-il intéressant ? Il ne me semble pas que c'est une question que l'on pose lorsqu'on achète une voiture. Sur le codage des QT en QL : comment avez vous choisi vos plages de prix d’intervalle régulier ? Pourquoi ne pas utiliser des techniques classiques de découpage ? Est-ce que cela correspond à des usages ou à des pratiques commeciales ? Le découpage en QL de la vitesse n'est pas détaillé : quel choix du nombre de classes, des bornes de classe ? Où est le tableau résumé des tris à plat des QL trié par mode ? C'est le seul tableau qui permette d'avoir une vue d'ensemble des QL. A faire obligatoirement. Cela donne aussi l'ordre dans lequel interpréter les variables : ainsi il faut commencer par la variable carburant. A la suite du commentaire pour chaque QL, ne pouvez-vous pas dégager des grandes tendances ? "Les voitures familiales et monospaces ont un prix de minimum 15000€." : rédaction maladroite. Bonne analyse des tris croisés. Vous mettez inutilement trop de décimales dans les tableaux de m, sigma, rho pour l'analyse des QT : les valeurs sont illisibles. De plus, que penser d'un prix moteur de 4003,526316 euros ? A reprendre obligatoirement. Le document Word ne comporte pas de commentaire sur l'analyse séparée des QT ni sur leur analyse conjointe. Le rapport est incomplet. La matrice des corrélations semble incorrecte. A reprendre impérativement. Il faut aussi adjoindre une conclusion.
Fichier LIS.ZIP note pour l'instant 14 / 20 =============================================== Ce serait bien de mettre votre nom sur la page de titre dans le document Word. Sous quelle forme le document officiel est-il transmis ? Fichier Word ? Rapport imprimé ? Comment l'avez-vous eu ? Où est-il consultable ? Dans le descriptif, vous devriez rappeler ce qu'est un contentieux, un conflit, ce qu'est l'aide juridictionnelle, comment fonctionnent les tribunaux en introduction dans le document word. Sans cela, un lecteur "moyen" n'y comprend rien car pénal, appel, correctionnel, contraventionnel n'évoque rien (ou la même idée...). Une copie de l'onglet Excel en début de descriptif serait excellent. Dans le descriptif, vous donnez des variables QL définies par des bornes de classes dans détailler comment vous avez choisi le nombre et les bornes des classes. Relisez : "Les barèmes d'admission étant différent en France" contient une faute d'orthographe facile à corriger. Idem pour "Nous pouvons tout d'abord constaté". Ne commentez pas les minima et maxima, ce ne sont pas des indicateurs révélateurs de l'ensemble des valeurs. C'est bien de commenter variable par variable, mais au bout du compte, que pouvez-vous dire ? Comment voyez-vous l'ensemble des dossiers ? Quelle profil de répartition se dessine ? Dans le graphique CRIM - CORREC quel est le point extrême ? Quelle explication peut-on en donner ? Bonne analyse des tris à plat et des tris croisés. Vous auriez pu faire moins de tris croisés en suggérant que les autres tris croisés doivent être similaires compte-tenu d'un effet de taille probable du à l'importance du tribunal (ce qui est assez visible car les variables QT d'où sont extraites les QL sont toutes corrélées positivement). Conclusion intéressante. Mais ne serait-il pas possible de détailler un peu plus, notamment pour les E/S ?
Fichier SOL.ZIP note pour l'instant 10 / 20 =============================================== Pour le pauvre petit français inculte que je suis, quelle est l'importance de la marque FangZhengYiHe en Chine ? Il faudrait détailler ou simplifier vos sigles : 24*CD, COMBO+DVDram car pour le grand public, c'est incompréhensible. CD et DVD seraient peut être suffisants. L'unité pour le poids est sans doute pratique à lire mais peu usuelle : kilo, ce serait mieux. Pour la mémoire, M n'est pas une unité ; dites Mo ou méga-octets ; idem pour G. L'unité pour l'écran est curieuse : il ne s'agit pas de la taille (d'habitude en pouces) mais de la résolution car XGA est une norme de résolution (1024x768). Pourquoi ? Vous mettez inutilement trop de décimales dans les tableaux de m, sigma, rho pour l'analyse des QT : les valeurs sont illisibles. De plus, que penser d'un prix de 16612,59615 Yuans ? A reprendre obligatoirement. Vous devez commenter les variables dans l'ordre des cdv décroissant. C'est le seul ordre qui s'impose. Ne commentez pas les minima et maxima, ce ne sont pas des indicateurs révélateurs de l'ensemble des valeurs. Relisez : "on obtient ainsi un coefficient de variation éleve 60%." n'est pas correct. Idem pour "car plus de capacité de memoire, le prix est plus cher.". Faites relire par un français ou une française car de nombreuses phrases sont incorrectes. Les graphiques des QT sont intéressants compte-tenu du fait qu'il n'y a pas beaucoup de valeurs possibles. "Le fait que cette corrélation DisqueDur/Memoire est possible" : rédaction maladroite. Dites que cette corrélation s'explique bien par un effet taille. La corrélation n'est pas possible mais réalisée. "car un portable a un écran plus grand, plus il est lourd." : est-ce sur ? ne serait-ce pas plutot le poids de l'alimentation induit par l'écran ? "Certains croisements sont physiquement impossibles." : lesquels ? Les tris croisés montrent que Compaq et Toshiba ont des choix technologiques. Vous devriez l'indiquer plus nettement. La conclusion est discutable, mais au moins, elle est présente.