Commentaires associés aux notes
  des analyses statistiques en Licence Mass
  pour l'année 2004
 

     (gH) gilles.hunault@univ-angers.fr  

 


Fichier ANA.ZIP note pour l'instant  08 / 20
===========================================


Le descriptif est rédigé en style télégraphique, ce qui n'est pas
correct : faites des phrases, donnez un titre à votre étude,
citez la source de vos données. De quelle année datent vos données ?
Vous parlez de prix en francs, c'est donc un "vieux" dossier ?
Pourquoi ne pas avoir pris des données récentes ?

Ce serait bien de mettre votre nom dans le document Word, l'année etc.
avec une belle page de titre.

Le fichier Word contient des fautes d'orthographes facilement détectables.
Ainsi "Les variables qualitatives ne semblent pas nécessités d'autres
explications que celle données dans le descriptif." comporte deux
fautes simples à corriger : faites relire votre document. Votre
remarque sur ces données QT est incorrecte : du fait de données
manquantes, l'analyse est difficile, voire impossible à mener avec
le fichier d'origine. Sur vos 113 lignes de données de départ seules
70 sont complètes : je trouve 34 lignes avec tarif=0, 16 lignes avec
distance_p=0, 41 lignes avec pris_pers_ = 0. Comment faites-vous alors
pour calculer m, sigma, rho ? Il faut indiquer la taille de chaque variable
QT puisque les données n'ont pas le même nombre de valeurs. Ou alors,
fournissez une base de données "épurée" sur laquelle je peux refaire les calculs.
S'agit-il de la base remaniée ? Quelles sont les différences avec la base
initiale ?


"Pour la variable commune, on remarque que ce ne sont que des communes
situées sur..." : ce n'est pas une remarque mais un choix que vous avez fait :
le guide de la fédération comporte autre chose que les campings vendéens.

Dans l'onglet "analyse des QT" vous mettez inutilement trop de décimales dans
les tableaux  de m, sigma, rho.

Que penser par exemple d'un prix de 19,04375 francs ?
A reprendre. Le tri par moyenne décroissante est stupide (unités incompatibles).

Il faut étudier plus finement la relation linéaire entre superficie
et nombre d'emplacements, ainsi que l'interprétation financière entre
le tarif et le prix pour personne supplémentaire.

Pour "analyse de la variable nbre d'étoiles en tant que variable quantitative",
je ne comprends pas la phrase "on a pas pris en compte ici les terrains de camping
une étoile, n'étant pas assez nombreux." car rien ne justifie que vous enleviez
des données. Vous forcez arbitrairement le nombre d'étoiles à être grand. A refaire.

Où est le tableau résumé des tris à plat des QL trié par mode ? C'est le seul
tableau qui permette d'avoir une vue d'ensemble des QL. A faire obligatoirement.
Cela donne aussi l'ordre dans lequel interpréter les variables : ainsi il faut
impérativement commencer par la variable "jeux enfants" qui fait pratiquement
l'unanimité.

La rédaction "on constate que" que vous utilisez à chaque fois est trop mécanique
pour être intéressante : la rédaction consiste à intéresser le lecteur, pas à fournir
des résultats "barbants". Un peu d'imagination que diable !

L'analyse conjointe du nombre d'étoile avec les autres variables est une bonne
idée mais attention "le nombre de terrain de campings (5) n'étant pas assez significatif"
n'est sans doute pas correctemnt exprimée : quelle définition mathématique ou statistique
précise utilisez-vous pour quantifier la significativité ?

Relisez : "plus de neuf terrain de camping sur dix n'ayant pas d'animations n'ont
pas de terrain de camping" mais si un terrain de camping n'a pas de terrain de
camping, qu'est-ce que c'est ?

Il faut supprimer des graphiques la mention "Déposer champs de page ici".

Le graphique du tri croisé du nombre d'étoiles avec les autres variables
est trop chargé : une ou deux variables bien choisies suffiraient pour
illustrer l'influence du nombre d'étoiles.

Globalement : vous avez fait pas mal de travail, mais la rédaction est à reprendre car
c'est trop scolaire : il n'y a pas assez de phrases. Essayze de travailler avec une base
de donnée plus petite pour les QT, par exemple celle qui ne contient que les
70 terrains avec tarif > 0 et  dist_p > 0 et prix_pers_ > 0 pour que ce soit plus clair.

 


Fichier BEA.ZIP note pour l'instant   11 / 20
=============================================


Relisez le descriptif : "Les données qui sans contre indications date de 2001."
contient une faute d'orthographe qui induit une perte de sens.

"Dans les analyses j'ai préféré étudier les régions plutôt que les départements
car c'est plus significatif (plus de villes par régions)." : ceci ne doit pas
figurer dans le descriptif car celui-ci ne fait que documenter (décrire) les
lignes et les colonnes. Attention au terme "significatif" : quelle définition
mathématique ou statistique précise utilisez-vous pour quantifier la significativité ?
De plus vous pouvez étudier vos variables par ville ou par région, ce n'est pas
la même étude et les deux sont valides et se justifient toutes deux.

Variable Inondations : le nom de la variable est sans doute mal choisi car il ne s'agit
que des indemnisations par l'Etat. Il peut y avoir inondation sans indemnisation.

Terrains pollués : une définition de la pollution (type de pollution notamment) et une
indication de qui reconnait qu'il y a pollution serait la bienvenue.

Usines de type Seveso : donner un lien internet sur la définition de Seveso (il y a
plusieurs degrés Seveso ?).

Le descriptif est mal présenté : il faudrait commencer par donner une petite idée de
ce que contient le dossier, trouver un titre (comme Danger ou Risques ou ...) puis
citer les sources...

Que signifie criminalité ou crimes et délits ? Les types de vols n'en font pas partie ?
A détailler.

Vos choix en ce qui concerne la conversion en QL des Usines à risques et Terrains pollués
sont discutables et non justifiés :

1 - votre avis n'est certainement pas important (car pas plus que moi vous n'êtes
    spécialiste de ce genre de données)

2 - il y a clairement des "petites" pollutions et des "grandes" ce que montre bien le
    nombre de terrains pollués ; la présence de nombreuses usines à risques est trés
    différente de la présence d'une seule ; résumer cette information en présence/absence
    est trop réductrice.

Donc : traitez aussi ces variables en QT comme cela on verra ce que vous pouvez en déduire.
A faire impérativement.

Vus les grands chiffres pour les QT, vous devriez arrondir à l'unité prés les valeurs et
les cdv.

Dans la matrice des corrélations, à quoi correspondent vos couleurs ?

Le tri des variables quantitatives par moyenne est certainement maladroit : ce ne sont pas
les mêmes unités : comparer un vol et un accident n'a aucun sens logique.

Pourquoi commencer la rédaction avec la matrice des corrélations ? Parler de différence selon
la population sans avoir commencé par détailler la variation du nombre d'habitants n'est pas
correct. De plus vous travaillez globalement avec l'ensemble des villes, contrairement à ce que
vous annoncez dans le descriptif (analyse par région).

Le terme de "corrélations sûres" est maladroit : il est du aux éléves Mass ayant écrit les macros
Excel et les programmes Dbase. Il n'y a aucune définition mathématique associée. De plus
0,847 est quand même plutot proche de 0,9 ...

Pour les graphiques de corrélation, une autre unité pour les X serait adaptée : 1200000 n'est pas
aussi lisble que 1,2 ; vous devriez aussi dire quelque chose sur les points "outliers" qui sont
très extérieurs à la courbe théorique. Est-ce à chaque fois la même ville ?

Pourquoi mettre le titre QT pour les tris à plat ? De plus, s'agissant d'un titre, il
vaudrait mieux écrire en toutes lettres Variables Qualitatives ou même
Etude des Variables Qualitatives. Je préférerais d'abord le résumé des tris à plat puis le
détail des tris. Cela me parait plus logique : une vue d'ensemble puis une analyse de détail...

N' y a-t-il pas un problème avec le nombre de terrains pollués finalement donné pour 100 000 habitants ?
Ramenés au nombre total d'habitants, on aurait une meilleure idée de la variation (et de l'étendue
des dégats). A faire impérativement.

Je pense que vous n'avez pas compris ce qu'on appelle un tri croisé. Un tri croisé utilise deux variables
QL et en aucun cas une QL et une QT. Traiter une QT en fonctions du découpage par modalités s'appelle
analyse de la variance. En particulier, vous devez croiser REGION avec les autres QL qui sont
NUCLEAIRE, USINES, TERRAINS et sans doute PREVENTION.

L'étude des moyennes par régions, intéressante toutefois, ne peut pas porter le nom de tri croisé.

Il serait bon, comme vous utilisez beaucoup le nombre d'habitants, de commencer par bien étudier
la variable QT correspondante. Vous pourriez ainsi avoir une variable QL "type de ville" avec
des modalités comme "grande ville", "ville moyenne" etc. qui permettrait au niveau des tris croisés
de mettre plus en évidence vos résultats. Cela gommerait sans doute aussi l'effet PLM
(Paris, Lyon ou Marseille).

Globalement : pas trop mal, mais des erreurs de rédaction et quelques calculs supplémentaires à faire.

Ajoutez aussi quelques graphiques pour les tris croisés (mais pas empilés).

 


Fichier BLS.ZIP note pour l'instant    08 / 20
===============================================


Commencer le descriptif qui est le premier fichier à lire par "Complément" est maladroit et malvenu.
Le descriptif est un fichier "self contained" qui introduit les données, pas l'inverse. On y cite
le cadre de l'étude, les sources, on y présente les données en tant que lignes, en tant que colonnes...

Le fichier BLS.DBF n'est pas au format Dbase3 Plus : recommencez la conversion avec DescDbf.

Il est tout à fait correct d'enlever les villes qui ne contiennent pas toutes les données
à condition de citer les villes enlevées et de s'interroger sur l'intérêt de ces villes pour l'étude :
faites remarquer rapidement que ces villes ne sont pas les plus importantes de France par exemple.
Imaginez que vous ayiez enlevé Paris, Lyon ou Marseille par manque de renseignements : l'analyse
n'aurait alors aucun intérêt. D'ailleurs l'analyse est certainement biaisée car du coup aucune ville
n'est station de sport d'hiver...

Comment avaient été choisies les 100 premières villes ? N'hésitez pas à critiquer les choix
du magazine...

Quelle est la réalité de la notion de zone ? La notion de région, gégographique et économique a un
sens. Mais celle de zone ? Qu'est-ce qui la justifie ?

Quel est l'intérêt de mettre ensemble métro et tramway ? Bus et tramway sont comparables en termes de
fonctionnement, mais métro et tramway ?

Transports en commun : cette variable ne veut rien dire sans plus de détails : qui voyage ? qu'est-ce
qu'un voyage ? comment est-il comptabilisé ?

La variable Restaurant est-elle vraiment pertinente ? On sait aujourd'hui que la restauration rapide
(snacks, brasserie, sandwicheries...) est plus importante que la restauration à étoiles...

Où est le tableau résumé des tris à plat des QL trié par mode ? C'est le seul
tableau qui permette d'avoir une vue d'ensemble des QL. A faire obligatoirement.
Cela donne aussi l'ordre dans lequel interpréter les variables.

Il manque certainement un tri croisé important : celui entre MER et SKI.

Vous mettez inutilement trop de décimales dans les tableaux  de m, sigma, rho
pour l'analyse des QT : les valeurs sont illisibles. De plus, que penser d'une
moyenne de 4,764044944 restaurants étoilés  ? A reprendre.

Que signifie "l'existence d'écarts significatifs entre les villes paraît évidente,
et ceci  se justifie par l'analyse conjointe des variables.". D'abord,
quelle définition mathématique ou statistique précise utilisez-vous pour quantifier
la significativité ? Ensuite quelle "justification(s)" voyez-vous ?

Dans la matrice des corrélations vous mettez inutilement trop de décimales. Cela
entraine une mauvaise lisibilité.

Pour les graphiques de corrélation, une autre unité pour les populations serait plus adaptée :
1200000 n'est pas aussi lisble que 1,2 ; vous devriez aussi dire quelque chose sur les points
"outliers" qui sont très extérieurs à la courbe théorique. Est-ce à chaque fois la même ville ?

Essayer d'utiliser les équations des meilleures liaisons linéaires pour dire quelque chose
de plus détaillé que "plus c'est grand, plus y'a de transport".

Vos graphiques de corrélation ne correspondent pas à l'analyse chiffrée que vous présentez :
vous calculez des corrélations linéaires et vous donnez des graphiques polynomiaux non linéaires.
A reprendre ou à détailler.

Pourquoi fournir une dernière page vide avec des paragraphes vides dans le fichier Word ?

Vous ne semblez pas avoir exploité la notion de zone. Essayer de reprendre une étude des différentes
QT par zone.

Il faudrait rédiger un peu plus vos observations sur les divers tableaux des QT et des QL.

Globalement : quelques petites erreurs et une rédaction un peu trop succinte.

 


Fichier BVA.ZIP note pour l'instant     09 / 20
===============================================


Vous n'avez pas fourni de fichier .DBF lisible par Dbase3 Plus.

Ce serait bien de mettre une page de titre dans le document Word avec votre nom et
le nom du dossier, l'année etc.

Le fichier Excel mobilesQTQL est incorrectement nommé : mon logiciel de récupération
automatique n'ayant vu aucun BVA*.XLS, le fichier Excel n'est pas pris en compte.

Relisez le descriptif : "Je l'ai ai séléctionné " n'est pas français.

"J'ai séléctionné les QT et les QL en fonction de leur pertinence". Que voulez-vous dire ?
Etes-vous spécialiste des téléphones pour juger de la pertinence des caractères ? N'est-ce pas
plutot un choix subjectif ?

Commencer le document Word sans un rappel rapide des données, de l'étude, sans titre etc. n'est pas
digne d'un rapport en Licence.

Début du rapport : les données sont triées par ordre décroissant sur la moyenne et vous dites
"Cette analyse n'est pas très utile" alors pourquoi la mettre ? Allons plus loin : ce tableau
est stupide car un changement d'unité (comme minutes au lieu d'heures) change l'ordre des
moyennes. A supprimer obligatoirement.

Vous mettez inutilement trop de décimales dans les tableaux  de m, sigma, rho
pour l'analyse des QT : les valeurs sont illisibles. De plus, que penser d'un
prix moyen de 419,5645161 euros ? A reprendre obligatoirement.

Il est trés maladroit d'utiliser la valeur 9999 pour calculer la moyenne car c'est un code indiquant
que la mémoire du répertoire est quasiment illimitée. Réfléchissez et trouvez une façon correcte de
calculer la moyenne et la part de téléphones avec une mémoire répertoire non limitée.
A refaire impérativement.

"Le coefficient de variation du prix est donc plus significatif". Comme pour vos collègues,
quelle définition mathématique ou statistique précise utilisez-vous pour quantifier
la significativité ?

Vous dites que 110 % n'est pas un coefficient de variation très élevé mais à mon avis
100 % n'est pas une borne forte... regardez le dossier vins : le CANADA avait un cdv de 309 % !

Varaible POIDS : n'hésitez pas à dirre que c'est une variable assez homogène, le poids
étant un argument de vente : tous les constructeurs essaient des faires des mobiles
légers, de même poids que leurs concurrrents... A mettre en regard avec HAUTEUR.

Pourquoi écrire "a fortiori" dans l'analyse séparée des QL ? C'est beau car c'est du
latin, mais cela s'oppose à "a priori" qui n'apparait pas dans la phrase précédente...

Bonne analyse des corrélations même si elles sont faibles. Juste une remarque : je ne
suis pas complètement d'accord sur le fait que plus le portable est haut, plus le
portable sera lourd : l'épaisseur et la largeur doivent jouer un role car le poids est lié en
général au volume qui utilise 3 dimensions... sauf si épaisseur et largeur sont les mêmes
pour tous les mobiles. De plus, si les composants électroniques ne sont pas les mêmes, un même
volume peut correspondre à des poids différents.

"D'après les différents tris à plat analysés dans la deuxième partie, on remarque
qu'il ne serait pas judicieux de faire une analyse conjointe avec la numérotation vocale
et avec la fonction mains libres car celles-ci sont présentes à égalité dans notre étude.
Je n'ai donc pas fait d'analyse avec ces deux champs." : ceci n'est pas correct. Une équirépartition
globale ne garantit pas une équirépartition sur d'autres modalités. Il aurait mieux valu retirer
BlueTooth qui de toutes façons est trés peu présent. Regarder la distribution de la fonction mains libres
est de toutes façons intéressant en soi car là encore c'est un argument de vente et une fonctionnalité
"intéressante" alors que la composition de sonnerie peut sans doute être considérée comme un
"gadget". A reprendre.

La conclusion ressemble plutot à un résumé ; je me serais attendu à des remarques sur la
variabilité de ceci ou cela sur la diversité, l'homogénéité ou l'absence d'homogénéité
de ceci ou de cela. Gardez votre "conclusion" mais rajoutez une vision plus globale des
variables.

 


Fichier DIB.ZIP note pour l'instant  11  / 20
===============================================


"on a choisi Datafiles puis parmi les thèmes proposés on a sélectionné" : mettez
ce texte dans une phrase ou alors dites : il sufit de suffit de sélectionner ...
dans la rubrique....

"Les spécificités des données sont relatives au projet". ???  Ce n'est pas la peine
d'en parler.

"enfant de petit âge" : cela ressemble à une mauvaise traduction. Un enfant
en bas age serait plus approprié.

Relisez : "1 variables QX" contient une faute d'orthographe facilement corrigeable.
De même pour "code de l'observateur qui a remplis" et "en générale".

La phrase "alors on a transformé 3 QT... en QL" est mal rédigée.

La variable sur la météo serait plutot QE que QX. Comme les descriptions de
temps sont fixées, la considérer comme QL est tout à fait normal.

Comment fonctionne l'identificateur ? Il n'est pas possible d'avoir 75 jours de
week-end entre janvier et avril ?

Votre description des variables qualitatives est intéressante. Mais vous ne
pouvez pas dire que "entre 62 et 80 visiteurs" est un code. Reprenez vos descriptions
en séparant

 - le code, qui est une valeur numérique,
 - la modalité qui dit à quoi le code correspond,
 - le label, qui est le nom de la modalité.

Vous pouvez omettre le label quand il est identique à la modalité
(comme pour "samedi" et "observateur_1").

La rédaction pour le "nombre de commentaire" est incorrecte :
comme il s'agit d'un entier, vous ne pouvez pas avoir le code 1
et le code 2 pour 1 commentaire. Mettre "entre x et y" n'est pas
aussi clair que l'indication d'intervalle [ x ; y [.

Au lieu de "75 journées étudiées" mettez "75 journées d'études".

"Dans un premier temps" va avec "dans un deuxième temps" et non pas
avec "la deuxième partie".

"Nous donnons" : il vaudrait mieux dire "nous donnerons...".

Le tri par ordre historique d'entrée des colonnes ne présente aucun
intérêt : c'est un ordre arbitraire qui ne met rien en évidence.

"Cette interprétation est basée sur le tri décroissant par moyenne
et cdv mais présentée selon l'ordre historique d'entrée des colonnes
dans le tableau de valeurs." : ceci n'a aucun sens. Quel ordre utilisez-vous ?
Il ne peut y en avoir qu'un à la fois.

Vous devez présenter les résultats dans l'ordre décroissant de cdv.

Ne détaillez pas les minimum et maximum pour chaque variable : ce ne sont
pas de bons indicaateurs.

Dans la mesure où les variables sont comparables pour les hommes et les
femmes, comparez les : qui pousse le plus, homme ou femme  ? Y a-t-il
plus d'enfants garçons ou filles ? Etc.

"Dans un premier temps on va étudier les variables QL avec modalité majoritaire" :
ce n'est pas possible car vous ne pouvez pas savoir si les variables ont une
modalité majoritaire avant de les avoir étudiées.  Il s'agit plutot de les
commenter que de les étudier...

Je ne comprends pas pourquoi la variable "Jour de la semaine" n'est pas
considérée comme majoritaire car Samedi fait 52 % ; comme la majorité est à 50 %,
samedi est majoritaire, non ?

Comme pour l'analyse des QT, essayer d'élever un peu le niveau des commentaires :
que pouvez dire globalement des commentaires, des jours ?

Même remarque pour l'analyse des corrélations linéaires : globalement, qu'y a-t-il ?
Peut-on dire qu'il y a un effet de taille ? Quelle différence ou quelle liaison
entre les garçons et les filles ?

Il n'est pas correct de dire "certains tris n'auraient aucun sens puisque toutes
les variables ne sont pas liées" car vous ne pouvez pas savoir si les variables sont
liées tant que vous n'avez pas fait les tris croisés.... Reprenez la rédaction.

Il serait intéressant d'effectuer le tri croisé Temps/Durée qui devrait facilement
mettre en évidence que s'il fait beau on reste plus longtemps...

En conclusion, vous dites "le nombre de poussettes augmente à peu près d'une
poussette pour chaque femme ou homme qui pousse une poussette." : n'est-il pas
possible de faire une phrase plus compréhensible ?

Il aurait été intéressant de pousser un peu plus loin l'analyse comparée homme/femme
et garçon/fille à l'aide des tests de comparaison de pourcentages vus
en cours.

 


Fichier HAN.ZIP note pour l'instant  12 / 20
===============================================


Ce serait bien de mettre une page de titre dans le document Word avec votre nom et
le nom du dossier, l'année etc.

Relisez : "Le tri par ordre décroissant de moyenne n'a pas très important"
n'est pas une phrase française. Pourquoi présenter des tableaux qui ne sont
pas intéressants ? Il s'agit d'un rapport, pas d'un brouillon.

Vous mettez inutilement trop de décimales dans les tableaux  de m, sigma, rho
pour l'analyse des QT : les valeurs sont illisibles. De plus, que penser d'un
prix moyen de 26,3436364 euros pour un forfait FHS ? A reprendre obligatoirement.

Ne commentez pas les minima et maxima, ce ne sont pas des indicateurs révélateurs
de l'ensemble des valeurs.

A partir de quel calcul arrivez-vous à déduire que "En général, la majorité des
campings ont entre 80 et 600 emplacements au total." ? Et pourquoi "au total" ?

Vous devez commenter les variables dans l'ordre des cdv décroissant. C'est le
seul ordre qui s'impose.

Puisqu'il y a des prix hors saison et basse saison, ce serait intéressant de les
comparer, notamment avec les tests de comparaison de moyennes vus en cours.

La phrase "Le nombre d'emplacements réservés aux tentes et caravanes varie en
fonction du nombre total d'emplacements." correspond à une mauvaise rédaction
pour exprimer la linéarité de la meilleure liaison linéaire.

Idem pour : "Ce qui est tout à fait logique, car si le camping s'agrandit,
il aura des emplacements supplémentaires.". Il pourrait y avoir d'autres explications :
augementation de l'espace pour la construction de piscines, pour l'aménagement
de surfaces de jeux...

Attention : la phrase "on remarque que chaque fois que le camping reçoit une étoile supplémentaire,
il augmente son forfait de 8 euros." est incorrecte : vous analysez les variables en
même temps. Il ne peut donc y avoir de relation causale différée. Or vous dites : "le camping
reçoit une étoile donc il augmente son forfait". Vous ne pouvez pas faire mieux que constater
la simultanéité des croissances.

Où est le tableau résumé des tris à plat des QL trié par mode ? C'est le seul
tableau qui permette d'avoir une vue d'ensemble des QL. A faire obligatoirement.
Cela donne aussi l'ordre dans lequel interpréter les variables.

La rédaction  "On remarque que" pour chaque variable qualitative est lassante. Faites un
effort de rédaction et d'imagination...

Vous avez choisi des tris croisés comme "pertinents". Pourriez-vous expliquer comment
vous avez trouvé cette pertinence ? Par exemple la variable piscine est trop majoritairement
présente pour qu'un tri croisé soit intéressant...

Pourqoui n'y a t-il pas de conclusion, de vue générale sur l'ensemble  des campings et
des variables ? Car en principe, c'est à cela que sert une étude statistique...

Compte-tenu du nombre élevé de variables, ce n'est pas mal mais pas assez "soutenu".

A consolider, notamment par une conclusion pour augmenter votre note...

 


Fichier HEM.ZIP note pour l'instant   11 / 20
===============================================


Le fichier HEM3.DBF n'est pas au format Dbase3 Plus : recommencez la conversion avec DescDbf.

Certaines données sont de 1999, d'autres de 2001, de 2002. Ce serait bien de dire un mot sur
la compatibilité de ces données.

"INSCRITS BIBLIO : (QL) C’est en rapport avec le pourcentage d’habitants de la ville qui sont
inscrits dans une bibliothèque municipale de la ville. " : mauvaise rédaction. Que veut dire
"c'est en rapport ? " ; ce registre de langue est trop "populaire" en comparaison avec les autres
descriptions. De plus la liste des codes est suffisamment courte pour être reprise dans le
descriptif ce qui évite de lancer Excel.

Ce serait bien de mettre une page de titre dans le document Word avec votre nom et le nom
du dossier, l'année etc.

Relisez le document word : "La variable concernant les régions permet de d'avoir" est
facilment corrigeable.

"Maintenant c'est un code (0,1,2,3,4,5)" : rédaction maladroite. Ce n'est pas un état de fait
mais une action de votre part. Dans la mesure où vous avez une autre population (les étudiants)
vous devriez garder les inscrits en QT et convertir aussi les étudianst en QL. Soit 2 variables
à rajouter dans votre dossier : NbINscritsBiblio et EtudiantsQL. A faire impérativement.

Quelle méthode classique avez-vous utilisée pour le choix des classes ? Et pourquoi 5 classes ?
En l'absence des données, je ne peux vérifier la validité du choix du nombre de classes.

Ne commentez pas les minima et maxima, ce ne sont pas des indicateurs révélateurs
de l'ensemble des valeurs.

La phrase "A savoir aussi que près des trois quarts des villes se situe sous la moyenne nationale."
est mal rédigée : pas de verbe central, vous ne donnez pas la moyenne nationale (est-ce celle des 100
villes -- ce qui n'est pas la moyenne nationale -- ou une autre dont vous ne donnez pas la
source ?).

Pourquoi fournir dans l'onglet analyse QT le tableau des stat. par ordre d'entrée des colonnes ?
C'est un ordre arbitraire qui ne fournit aucun résultat intéressant. De plus je vous rappelle
que vous devez commenter les variables dans l'ordre des cdv décroissant. A refaire obligatoirement.

"Paris détient à chaque fois les valeurs maximales. C'est assez logique du fait que c'est la capitale
française et même une des villes les plus touristiques du monde." : je ne vois pas le rapport entre
le tourisme, l'université et la bibliothèque !

Bonne rédaction pour l'analyse globale des QL en tri à plat, mais où est le tableau résumé des tris
à plat des QL trié par mode ? C'est le seul tableau qui permette d'avoir une vue d'ensemble des QL.
A faire obligatoirement. Cela donne aussi l'ordre dans lequel interpréter les variables : ainsi il faut
commencer par la variable "centre chorégraphique national".


Analyse conjointe des QT : "dans toute cette analyse, il a été omis volontairement les données de la
ville de Paris..." et si vous laissiez un onglet où l'analyse avec Paris est effectuée qu'on
voie la différence ? A faire obligatoirement.

"meilleures corrélations...ne sont pas pertinentes car certaines relations entre variables ne
signifient pas grand chose." : vous ne pouvez pas dire cela. Que cela ne signifie rien pour vous
ne veut pas dire qu'il n'y a pas de sens à ces relations. De plus, une forte corrélation a toujours
au moins la signification d'une simultanéité de croissance (ou de décroissance).

"Première meilleure corrélation : Cinéma/Festivals... On peut y voir l'effet de festivals concernant
le cinéma." : ceci est une affirmation gratuite. Vous ne pouvez pas, sauf à fournir d'autres données
prétendre qu'il y a surtout des festivals de cinémas (même si c'est peut être vrai). Par exemple
Orléans, que vous citez, n'a pas de festival de cinéma, contrairement à Paris, Cannes, Avoriaz et Cognac.

Vos graphiques de corrélation ne correspondent pas à l'analyse chiffrée que vous présentez :
vous calculez des corrélations linéaires et vous donnez ceratins graphiques exponentiels non linéaires
et d'autres polynomiaux. A reprendre ou à détailler.

D'où sortez-vous les informations "beaucoup d'organisateurs de festivals (surtout musicaux) comptent
sur la présence d'étudiants en tant que public" et "les étudiants représentent une grande part du
public dans les cinémas" ? Est-ce de votre culture personnelle ? Ou un fait établi (par qui ?) ou
une rumeur ? Vous devriez suggérer plutot qu'affirmer.

Tous les coefficients de corrélations linéaires sont forts et positifs : il faut certainement en
déduire un effet global de taille que vous ne dégagez pas clairement. A rédiger.

Le choix de région pour les tris croisés est à la fois obligatoire et contraignant car
on sait déjà que PACA a beaucoup de villes...

Vous devez enlever les décimales pour les pourcentages dans les tris croisés. Cela rend les
tableaux peu lisibles : mettre 50 % est largement mieux que 50,00 %.

Puisque les centres chorégraphiques sont très peu présents, un tri croisé ne montrera
rien sinon l'absence pour chaque modalité. Ce tri croisé est donc sans doute inutile.

Il serait par contre intéressant de croiser Université et Théatre.

Pourqui n'y a t-il pas de conclusion, de vue générale sur l'ensemble  des villes et des
régions, des "profils culturels" ? Car en principe, c'est à cela que sert une étude statistique...

 


Fichier HEN.ZIP note pour l'instant   07 / 20
===============================================


Ce serait bien de mettre une belle page de titre dans le document Word avec votre nom et
le nom du dossier, l'année etc.

Le fichier HEN.DBF n'est pas au format Dbase3 Plus : recommencez la conversion avec DescDbf.

En quoi le prix de l'embrayage est-il intéressant ? Il ne me semble pas que c'est une question
que l'on pose lorsqu'on achète une voiture.

Sur le codage des QT en QL : comment avez vous choisi vos plages de prix d’intervalle régulier ?
Pourquoi ne pas utiliser des techniques classiques de découpage ? Est-ce que cela correspond
à des usages ou à des pratiques commeciales ?

Le découpage en QL de la vitesse n'est pas détaillé : quel choix du nombre de classes, des
bornes de classe ?

Où est le tableau résumé des tris à plat des QL trié par mode ? C'est le seul tableau qui
permette d'avoir une vue d'ensemble des QL. A faire obligatoirement. Cela donne aussi l'ordre
dans lequel interpréter les variables : ainsi il faut commencer par la variable carburant.

A la suite du commentaire pour chaque QL, ne pouvez-vous pas dégager des grandes tendances ?

"Les voitures familiales et monospaces ont un prix de minimum 15000€." : rédaction maladroite.

Bonne analyse des tris croisés.

Vous mettez inutilement trop de décimales dans les tableaux  de m, sigma, rho
pour l'analyse des QT : les valeurs sont illisibles. De plus, que penser d'un
prix moteur de 4003,526316 euros ? A reprendre obligatoirement.

Le document Word ne comporte pas de commentaire sur l'analyse séparée des QT
ni sur leur analyse conjointe. Le rapport est incomplet. La matrice des
corrélations semble incorrecte. A reprendre impérativement.

Il faut aussi adjoindre une conclusion.

 


Fichier LIS.ZIP note pour l'instant  14 / 20
===============================================


Ce serait bien de mettre votre nom sur la page de titre dans le document Word.

Sous quelle forme le document officiel est-il transmis ? Fichier Word ? Rapport imprimé ?
Comment l'avez-vous eu ? Où est-il consultable ?

Dans le descriptif, vous devriez rappeler ce qu'est un contentieux, un conflit, ce qu'est l'aide
juridictionnelle, comment fonctionnent les tribunaux en introduction dans le document word. Sans
cela, un lecteur "moyen" n'y comprend rien car pénal, appel, correctionnel, contraventionnel n'évoque
rien (ou la même idée...). Une copie de l'onglet Excel en début de descriptif serait excellent.

Dans le descriptif, vous donnez des variables QL définies par des bornes de classes dans détailler
comment vous avez choisi le nombre et les bornes des classes.

Relisez : "Les barèmes d'admission étant différent en France" contient une faute d'orthographe
facile à corriger. Idem pour "Nous pouvons tout d'abord constaté".

Ne commentez pas les minima et maxima, ce ne sont pas des indicateurs révélateurs
de l'ensemble des valeurs.

C'est bien de commenter variable par variable, mais au bout du compte, que pouvez-vous dire ?
Comment voyez-vous l'ensemble des dossiers ? Quelle profil de répartition se dessine ?

Dans le graphique CRIM - CORREC quel est le point extrême ? Quelle explication peut-on en donner ?

Bonne analyse des tris à plat et des tris croisés. Vous auriez pu faire moins de tris croisés
en suggérant que les autres tris croisés doivent être similaires compte-tenu d'un effet de taille
probable du à l'importance du tribunal (ce qui est assez visible car les variables QT d'où sont
extraites les QL sont toutes corrélées positivement).

Conclusion intéressante. Mais ne serait-il pas possible de détailler un peu plus, notamment pour les
E/S ?

 


Fichier SOL.ZIP note pour l'instant   10 / 20
===============================================


Pour le pauvre petit français inculte que je suis, quelle est l'importance de la marque
FangZhengYiHe en Chine ?

Il faudrait détailler ou simplifier vos sigles : 24*CD, COMBO+DVDram  car pour le grand public,
c'est incompréhensible. CD et DVD seraient peut être suffisants.

L'unité pour le poids est sans doute pratique à lire mais peu usuelle : kilo, ce serait mieux.

Pour la mémoire, M n'est pas une unité ; dites Mo ou méga-octets ; idem pour G.

L'unité pour l'écran est curieuse : il ne s'agit pas de la taille (d'habitude en pouces)
mais de la résolution car XGA est une norme de résolution (1024x768). Pourquoi ?

Vous mettez inutilement trop de décimales dans les tableaux  de m, sigma, rho
pour l'analyse des QT : les valeurs sont illisibles. De plus, que penser d'un
prix de 16612,59615 Yuans ? A reprendre obligatoirement.

Vous devez commenter les variables dans l'ordre des cdv décroissant. C'est le
seul ordre qui s'impose.

Ne commentez pas les minima et maxima, ce ne sont pas des indicateurs révélateurs
de l'ensemble des valeurs.

Relisez : "on obtient ainsi un coefficient de variation éleve 60%." n'est pas correct.
Idem pour "car plus de capacité de memoire, le prix est plus cher.".
Faites relire par un français ou une française car de nombreuses phrases sont
incorrectes.

Les graphiques des QT sont intéressants compte-tenu du fait qu'il n'y a pas
beaucoup de valeurs possibles.

"Le fait que cette corrélation DisqueDur/Memoire est possible" : rédaction maladroite.
Dites que cette corrélation s'explique bien par un effet taille. La corrélation n'est
pas possible mais réalisée.

"car un portable a un écran plus grand, plus il est lourd." : est-ce sur ? ne serait-ce
pas plutot le poids de l'alimentation induit par l'écran ?

"Certains croisements sont physiquement impossibles." : lesquels ?

Les tris croisés montrent que Compaq et Toshiba ont des choix technologiques. Vous
devriez l'indiquer plus nettement.

La conclusion est discutable, mais au moins, elle est présente.