Valid XHTML 1.0!

 

  Commentaires sur les projets fournis
  pour les analyses statistiques en Licence Mass
  année 2005/2006

 

     (gH) gilles.hunault@univ-angers.fr

 

 


 Dossier AMFR   note provisoire  07 / 20
 ============



Pourquoi n'y a-t-il pas de fichier descriptif AMFR.DSC ?

Il n'y a pas de fichier AMFR.DBF ; est-ce un oubli ?

Je ne comprends pas : il y a un fichier Word qui contient des résultats et un
fichier Excel qui contient des résultats. Lequel est votre rapport ?

"Nos données traitent de betacarotène et de plasma de rétinol en précisant
leur variation chez" : non. Il y a de nombreuses variables dont betacarotène et
plasmarétinol.

Pourquoi écrire les paragraphes 2 et 3 en police "Courier New" dans votre document Word ?

Qu'est-ce que l'unité "Neuengamme" ?

Vous dites que les classes d'IMC sont définies dans le livre de la santé 2004. Quel
en est l'auteur, l'éditeur ?

Votre définition de QL à savoir "ne peut pas faire l'objet d'une mesure et ne peut
pas être ordonnée" est incorrecte. Les QL ordinales sont ordonnées et la mesure du pH
des solutions en chimie aboutit aux modalités "acide" et "base" de la QL classe de pH.

Que signifie "10 variables quantitative ni quantitative" ?

"Je définie" : s'écrit avec un S.

Il y a beaucoup trop de décimales dans votre analyse QT : mettre 3,2793651 comme moyenne
de nombre de verres d'alcool par exemple est d'une précision exagérée.

Idem pour la matrice des corrélations (et non pas matrice de corrélation) : deux chiffres
après la virgule sont largement suffisants.

Pourquoi y a-t-il un onglet vide nommé Feuill1 dans votre fichier Excel ?

Qu'est-ce que des "données descriptives" ?

Les valeurs en bleu ciel sur fond gris sont illisibles dans l'onglet "Etude univariée QT".
Pourquoi choisir de telles couleurs ?

Que voulez-vous dire par "En prenant la variable age comme quantitative ne nous permettra
pas de trouver une meilleur corrélation nécéssaire d'etre étudiée" ? Vous devez traiter
AGE à la fois comme QT et comme QL.

Pour l'analyse QT, vous devez mettre des courbes, des boites à moustaches, puis commenter
chaque variable.

Pour l'analyse QL, vous devez enlever tous les codes. Ainsi on ne doit jamais voir 1/2
pour le sexe mais uniquement les labels Homme/Femme. Et vous devez faire une phrase
pour chaque tri à plat.

A quoi correspondent les pourcentages dans les tris croisés (% de la ligne, % de la
colonne...) et pourquoi avoir choisi ce sens-là de pourcentage ?

Pour le tri croisé SEX/VIT, il faut calculer et afficher les fortes contributions
relatives puisque vous dépassez le chi-deux de la table...

"rois du vieillissement" : c'est de l'oral et pas très scientifique comme expression.

"quelques remarques ou plutôt quelques confirmations" : vous ne pouvez pas écrire cela.
Vous n'êtes pas médecin alors comment pourriez-vous confirmer des choses que vous ne
connaissez pas ?

La phrase "les hommes sont des fumeurs avec 69% qui a fumé contre 47% de femmes" ne veut
rien dire. De plus vous oubliez qu'il s'agit d'une population ciblée et sans doute pas
d'un échantillon représentatif.


 

 


 Dossier ANSA   note provisoire  09 / 20
 ============


Le fichier ANSA.DBF n'est pas lisible par Dbase3+.

"chaque variable sera étudiée individuellement et conjointement avec d'autres variables" : il
est délicat de le dire ainsi. Pour les QT, chacune variable est étudiée conjointement avec
toutes les autres alors que pour les QL certaines seulement sont traitées par couple.

A aucun moment vous n'indiquez la taille de l'entreprise (environ 80 personnes...).
Pourquoi ?

Pourquoi laisser toutes les décimales d'ASGQT ? Fournir 0,80263158 comme nombre moyen
d'enfants est délirant de précision !

L'analyse séparée des QT consiste à fournir un tableau de résumés statistiques ET à commenter
ces résultats. Vous ne fournissez aucune phrase concernant les cdv, les moyennes...

De plus il serait bon de fournir des graphiques (courbes, boites à moustaches...) pour les
QT.

Vous avez fait remarquer que certains coefficients de corrélations sont positifs et que d'autres
sont négatifs, même faiblement. Que signifie la positivité ou la négativité ici ?

Graphe des meilleures corrélations : mettre des axes qui commencent en (0,0)
écrase le graphique sans ajouter d'information...

"On remarque que la corrélation AGE/ANCIEN n'est pas prononcée" : je ne suis pas d'accord.
L'ancienneté ne peut pas aller de pair avec un age jeune. D'autre part, si on excepte quelques
individus sous la droite de régression, on voit très bien un nuage linéaire...

"La majorité est entrée" : ajoutez "des employés".

"Les 2/3 du personnel sont de sexe féminin"  : une raison à cela ?

"Seuls certains tris croisés ont été réalisés, en fonction de leur intérêt." : cette phrase
pose un problème. Si vous n'avez pas passé en revue tous les tris croisés, comment pouvez-vous
savoir ceux qui sont intéressants ?


L'analyse conjointe des QL ne consiste pas à fournir des tris croisés et des histogrammes.
Vous devez rédiger ce que vous déduisez du calcul des tris croisés, effectuer un calcul
de chi-deux et commenter les plus fortes contributions relatives si vous dépassez le chi-deux
de la table...

Il manque aussi une conclusion qui reprend les QT et les QL.

 

 


 Dossier CHCO   note provisoire   12 / 20
 ============



Le fichier CHCO.DBF n'est pas lisible par Dbase3+.

"Je vous présente, donc, les variables" : c'est de l'oral. Mettez : "voici les variables".
Idem pour "Je commence la présentation par". Pour la pression artérielle, il serait bon
d'indiquer les valeurs "normales" classiques pour un individu adulte "sain".

Au lieu de "12/7 veut mentionner" écrivez "12/7 signifie".

Pourquoi fournir  1 kg = 2.2046 lbs (livres) alors qu'on veut effectuer la conversion dans
l'autre sens ? Idem pour les pouces et cm.

Descriptif très bien rédigé.

Dans l'onglet données, des valeurs apparaissent comme incohérentes (triangle vert en haut et
à gauche de la cellule) comme par exemple la valeur 48 pour l'age en ligne 5, colonne 2.
Pourquoi ?

Le fait que les cdv soient faibles ne vous permet pas de dégager la conclusion
"il n' y a pas de cas particulier" car un cdv exprime une valeur moyenne. Un seul cas
particulier sur 184 personnes ne peut pas modifier beaucoup le cdv. Un cdv faible
exprime simplement qu'il n'y pas globalement (en moyenne) de grandes différences entre
les individus.

Pour les graphes des meilleures corrélations, mettre des axes qui commencent en (0,0)
écrase le graphique sans ajouter d'information...

Pour la partie QT, il faut commenter tous les résultats par ordre de cdv décroissant,
même si les cdv sont faibles.

Comme il y a des mesures similaires prises à deux dates différentes, il faut comparer
les variables pour ces deux dates, essayer de détecter des différences, des similitudes.
Par exemple on aurait pu s'attendre à ce que les meilleures corrélations soient
Systo1/Systo2, Diasto2/Diasto2 etc.

Essayer de commenter aussi dans la matrice des corrélations le signe des
coefficients.

Il serait bon de commencer par un tableau récapitulatif des QL avant de traiter les QL
dans l'ordre de mode décroissant.

L'histogramme pour STACLIn est sans doute inutile (on ne voit qu'une seule barre).

Présenter les histogrammes par effectif décroissant est une erreur car on ne peut
plus se servir de l'ordre des modalités utilisé dans les tris croisés...

Après réflexion, la variable MORT est mal nommée, EN_VIE aurait été plus adaptée
car on a une variable DECES et 75 % des gens étaient encore en vie en 1968.

"moyennement majoritaire" me parait un terme ambigu et peu utilisé.

Dans les histogrammes des tris croisés, vous ne devez pas laisser les numéros
des modalités mais mettre les labels des modalités.

Il serait bon de doubler les tris croisés d'un calcul de chi-deux. En particulier
pour mort/malcard et stasoc/staclin.

"on s'aperçoit que la majorité des personnes décédées chaque année appartenaient"
est tout à fait normal puisque la moitié de la population est dans la classe moyenne.

"Cette étude a pour but de mettre en avant l'état de santé des employés" NON ! Votre
étude à vous ne sert qu'à effectuer des calculs pour vous entrainer à rédiger.

Dans votre conclusion, vous avez du négligé le fait qu'il ne s'agit pas de malades
mais des employés de l'hopital. Il aurait été intéressant de faire
au moins une comparaison de moyennes pour montrer que les causes (QT) influent sur
le décès comme vous le dites dans le descriptif.

Pour augmenter votre note, il faut rajouter les chi-deux, remettre les
histogrammes de tri à plat dans l'ordre et "gratter" un peu plus l'analyse des QT.



 

 


 Dossier CLGO   note provisoire  14  / 20
 ============


Le fichier CLGO.DBF n'est pas lisible par Dbase3+.

"données anormales," "semblent élevées" : n'hésitez pas à dire "beaucoup trop élevées pour
être considérées comme correctes".

Qu'est-ce qu'un "procédé chirurgical électif" ?

"Les variables AGE et IMC que nous avons coupées en classes : mettez directement
les noms "CLAGE et CLIMC, qui résultent du découpage en classe des variables AGE et IMC".

"Nous allons définir certains termes" est un peu court. Essayez une phrase un peu plus longue
comme "Pour comprendre les termes médicaux mis en jeu dans ce dossier, nous allons définir...".

Il serait souhaitable de rappeler les bornes des plages de variation pour le  cholestérol et le
betacarotène considérées comme "normales" (sans doute pour un individu adulte "sain").

Vous pouvez simplifier le descriptif en évitant les redondances. Par exemple dire que la
variable SEXE sera nommée sexe que homme correspond à "homme" est inutile.

Avez-vous une référence médicale sur les bornes pour les classes d'IMC ?
La modalité "poids souhaitable" est mal nommée. "Poids correct" serait plus neutre et moins
subjectif.


Un titre aussi précis que "causes déterminantes des concentrations" laisse supposer que vous
allez être capable de trouver ces causes, ce qui n'est pas le cas (et ce n'est pas le but
du projet).

Jolies couleurs pour les onglets des données mais il est dommage que les valeurs numériques ne
soient pas cadrées à droite pour une meilleure lisibilité.

Il ne faut pas dire "à l'inverse" si vous opposez un rho fort (0.89) à un rho presque nul
(0.0043). A l'opposé de rho proche de +1 il y a rho proche de -1.

"qui sont les suivante" : il manque un S.

Bonne rédaction des tris à plat mais il est dommage de ne pas présenter les histogrammes dans
l'ordre des modalités car la comparaison des histogrammes de tris à plat et de tris croisés
est plus difficile : ainsi il est difficile de se rendre compte si la distribution de TABAC
par classe d'age correspond à la distribution générale de TABAC.

Très bien pour les calculs de chi-deux mais la conclusion du troisième test est fausse.
Si le chi-deux avec un degré de liberté de 4, au seuil de 5% vaut 9,488 et si la
distance du chi-deux est de 9,999 alors les deux distributions NE suivent PAS le même modèle.

"une lésion avéré" : il manque un E.

"Pour ce les" : des mots oubliés ?

"ce trouve " : se trouve.

"les personnes ont été interrogé" : manque E et S.

"que ça va" : c'est de l'oral. Dites "la plage de variation de l'age est..."

"les lésions touchent les personnes de tout âge."  NON ! On a peut-être été chercher
des personnes de tout age alors que la maladie est peut-être ciblée sur certaines
catégories d'age.

"nous leur avons demandé leur sexe" : FAUX ! rien n'indique que les choses se sont passées
dans cet ordre. de plus ce n'est pas vous qui leur avez demandé personnellement. Mettez plutot
"l'enquête portait ensuite sur..."

"femmes sont plus touché" manque E et S.

"les lésions étudiées ne sont pas toutes mixtes" : le terme mixte est maladroit.

"les personnes ont donné leur IMC" : je ne le pense pas. On le leur a calculé, sans doute.


Très bon essai de conclusion même si sa rédaction est à reprendre.

"il semble que cette étude est imcomplète" (avec un N au lieu d'un M) : dit comme cela,
c'est maladroit. Statlib ne fournit que les données, c'est vous qui faites l'étude.

Pourquoi parler du "type de lésions" ? Quel est le rapport avec les "cause déterminantes"
du titre ? Ce serait plutot des conséquences...

Finalement, vous ne dites rien sur ces causes alors que vous l'annonciez en titre...


 

 


 Dossier DADO   note provisoire     06 / 20
 ============


Aucun fichier descriptif (fichier de type .DSC) transmis ?

Aucun fichier Dbase (fichier de type .DBF) fourni ?

Aucun fichier nommé DADO.* ? Etes-vous venu au moins une fois en cours ?

"Se sont" : s'écrit ave "Ce sont".
Sous Excel, dans le menu Outils, le sous-menu Orthographe
(raccourci par défaut F7) corrige l'orthographe...

"Nos données" : dites plutot "les données originales" de façon à nommer vos données
les valeurs obtenues après transformation.

"nous les avons transformer" : faites l'accord !

Ne mettez pas <<1 coquille>> mais plutot <<une "coquille">>.

Selon vous "Le code pénal considère comme infraction tout événement contraire à la loi.
Il différencie ensuite les crimes des délits par leur gravité: le délit est plus grave
que le crime." Pourtant, selon votre source http://fr.wikipedia.org/wiki/Crime#Classification,
je lis "On distingue généralement le crime du délit considéré comme moins grave.". De
plus le site http://www.educnet.education.fr/juri/juricampus/t3chap1se1.htm indique
"La peine d'emprisonnement peut aller jusqu'à dix ans pour les délits. Pour les crimes,
le minimum de réclusion criminelle est de quinze ans."...

"Pour chacune de ces variables, on distingue clairement une coupure supérieure, ce
qui définie à chaque fois la classe supérieure." : mettez un T à définie. Comment distingue-t-on ?
Au vu des valeurs dans la colonne Excel ou au vu du tracé des valeurs triées par ordre
croissant dans le graphique ?

Que signifie "(les bornes des classes 1 sont ses)" ? Il manque des mots ?

Vous devez nommer les modalités. Ainsi pour "vols à main armée",
vous devez dire que 1 correspond à "peu de vols" ou "moins de 62 vols"
comme label de modalité. idem pour toutes les autres modalités.

"Par souci de lisibilité les adresses web sont  référencées ici:" c'est plutot le
contraire : au lieu de voir tout de suite de quel site il s'agit (avec un lien
actif sous Excel), il faut interrompre la lecture, aller en bas du document, séparer
le lien du numéro de bas de page, ouvrir un navigateur etc.

Les valeurs numériques dans l'onglet "Données" ne sont pas cadrées à droite avec un
même nombre de décimales. Pourquoi ? Du coup, il est difficile de lire une colonne de
chiffres...

Pourquoi ne pas analyser la variable population ? C'est une QT intéressante.
Rajoutez cette variable dans votre étude. Cela permettra de mettre en évidence un
éventuel effet de taille...

Pourquoi mettre autant de chiffres après la virgule ? Cela gâche la lecture.

Vous ne décrivez ni n'analysez aucune corrélation linéaire, pourquoi ?
Rajoutez la population et vous aurez peut-être une causalité...

Il faut dire quelque chose sur le fait que tous les coefficients de corrélation
linéaire sont positifs et assez forts...

Pour les tris à plat, il est INTERDIT de laisser les codes. Vous devez utiliser les
labels des modalités.

"Les QL sont construites à partir de QT déjà fortement corrélées. Il n'est donc pas surprenant
de retrouver cette caractéristique ici." : exprimé ainsi, c'est faux. Il y a d'une part la
construction des QL et d'autre part une liaison entre QT. On ne peut pas retrouver une liaison
linéaire entre les modalités des QL.

Pour les tris croisés, il est INTERDIT de laisser les codes. Vous devez utiliser les
labels des modalités.

Avec un aussi petit nombre de variables, vous devez faire plus de tris croisés.

Votre conclusion parait intéressante mais comme vous n'avez pas traité la variable
population, on ne peut pas vérifier ce que vous dites.

Il faut absolument

   - ajouter et traiter la population en tant que QT et en tant que QL
   - nommer les modalités QL
   - faire les histogrammes de QL pour les tris à plat ET les tris croisés


 

 


 Dossier FRGU   note provisoire  08 / 20
 ============



Le fichier FRGU.DBF n'est pas lisible par Dbase3+.

Si vous dites qu'on peut trouver sur le site de Forbes des données pour chaque année,
pourquoi traiter de vieilles données de 1985 ?

"établit le top 500" : c'est de l'oral. Dites que qu'on établit le classement par ordre
décroissant des 500 meilleures entreprises pour...

"L'échantillon présenté étant constitué d'un dixième de cette liste" : qui vous a autorisé
à n'utiliser que 10 % de la liste initiale ? Comment avez-vous choisi ces 10 % ? Dans la
mesure où c'est l'ordinateur qui effectue les calculs, il n'y a aucune raison de se limiter
à 79 entreprises. Le mieux serait de recommencer avec les 800 entreprises...

Vos découpages en classes sont corrects pour 79 valeurs mais ils ne correspondent à rien
par rapport aux 800 entreprises.

"Le résultat a le plus fort cdv mais la plus faible moyenne parmi les variables comptées
en millions de dollars" : attention, ici résultat signifie RESULT en MDO et non pas un
quelconque résultats statistique. De plus vous ne tenez pas compte du fait que cette
variable peut prendre des valeurs négatives. Un graphique de la courbe et de la boite à
moustaches pour RESULT permettrait de comprendre d'où vient la petitesse de la moyenne.

"Le résultat, la valeur marchande et la Flux de Trésorerie semblent très sélectifs" : je ne
comprends pas ce que vous voulez dire par sélectif. On réserve en général cet adjectif
pour des personnes, des pays, des variables qui effectuent des choix. Mais ici ?

"Elle semble meilleure pour estimer la taille de l'entreprise" : depuis quand avez-vous pour
objectif d'estimer la taille de l'entreprise ? Ce mot taille est d'ailleurs ambigu dans ce
contexte. Classiquement, la taille correspond au nombre d'employés... A reprendre.

"On remarque que les actifs ont l'ordre de grandeur le plus élevé, en terme de masse
financière." : vous ne vous attendiez pas à avoir des ventes supérieures aux actifs,
tout de même ?

"Pour plus de lisibilité, un ou deux couples de valeurs très différentes du reste des
données n'apparaissent pas." : c'est très dommage. Soit ces valeurs sont extrèmes
("outliers") et ne doivent pas être prises en compte, soit vous les utilisez pour calculer
la droite de régression et alors elles doivent figurer sur le graphique.

Le graphique de "Corrélation entre valeur marchande et flux de trésorerie" est plus lisible
que les autres à cause des points verts clair entourés de vert foncé. Ce serait bien
d'afficher les autres graphiques avec ces mêmes options de tracé.

"Le nombre d'employés est assez révélateur de la production." : il faut alors indiquer
qu'il ne s'agit pas d'entreprises de ventes par correspondance car pour celles-ci le
nombre d'employé ne révèle pas la production...

"La corrélation est un peu moins prononcées" : un S en trop.

"les flux de trésorerie constituent une variable cachée" : si la variable existe dans le
dossier, ce n'est pas une variable cachée.

Il serait intéressant de faire remarquer que toutes les coefficients de corrélation
linéaire sont positifs ce qui signifie que...

N'est-ce pas surprenant qu'à chaque fois dans vos tris à plat, les effectifs décroissent
lorsque les codes augmentent ? Cela réflète que vos découpages en classes sont
biaisés...

Comme vous n'avez que 79 valeurs et au moins 3 modalités par QL, chaque tri croisé
comporte des cases avec moisn de 5 entreprises. Vous n'auriez sans doute pas eu ce
problème avec les 800 entreprises.

(Conclusion) "les actifss" : un S en trop. Vous reparlez encore de la taille et de la
façon de l'évaluer. Pourquoi vous focaliser sur cette "taille" ?

"Le fait d'avoir les ressources n'impliquent pas forcément de réussir en affaire" : si
c'est le fait, il ne doit pas y avoir ENT  pour le verbe impliquer. Quel est le rapport
entre "réussir en affaire" (il manque un S) et le controle continu qui consiste à analyser
des variables statistiques ?

"Il serait intéressant d'avoir les valeurs des années précédentes et suivantes pour analyser
l'évolution de la situation des entreprises" : oui, mais ce serait une étude chronologique...

Vous devriez faire une conclusion plus générale en essayant de lier les Qt et les QL.


 

 


 Dossier JEHO note provisoire  10  / 20
 ============


Aucun fichier nommé JEHO*.* ? Etes-vous venu au moins une fois en cours ?

"Les données étudiées proviennent du site http://www.cnc.fr" : ce n'est pas assez précis car
il y a 11 tableaux de données dans la page citée.

Qu'appelez-vous une "unité urbaine" ?

"Cette variable ne peut donc pas être étudiées" : un S en trop.

Ecrire "consulter le fichier Organisation_en_classe.xls" (qui est mal nommé puisque sans vos
initiales) ne vous dispense pas d'expliquer rapidement votre méthode de découpage en classes.

Il y a beaucoup de fichiers dans l'archive .zip et je ne sais même pas lequel
il faut regarder pour lire votre rapport. Regroupez vos fichiers Excel sous forme
d'onglet complémentaires...

"arrondies au pourcentage près" : NON. Au pourcent prés.

Commencer par la classe de population est maladroit. La variable de départ est la QT
nommée population. La QL associée est à traiter aprés. De plus vous utilisez les termes
"unités urbaines" et "agglomérations" sans les avoir définies. Pourtant, ce n'est pas la
même chose...

En principe, vous devez commencer par fournir un tableau récapitulatif des QL pour ensuite
présenter les QL dans l'ordre décroissant de mode.

Toutes vos QL révèle le même ordre : faible/moyen/fort... ce qui ne parait absolument pas
naturel. C'est sans doute votre technique de découpage qui produit ce genre de phénomène
qui est surprenant et peu fréquent.

"L'analyse conjointe des variables qualitatives montre de forte dépendance entre toutes"
mettez des S à forte et dépendance. Ceci est une conclusion et non pas une introduction
aux tris croisés.

"entre TOUTES ces variables" : cela signifie que vous avez étudié TOUS les tris croisés ?

Si vous calculez le chi-deux et qu'il est significatif, vous devez présenter les
plus fortes contributions relatives de façon à indiquer où est la liaison entre
modalités.

Comment justifiez-vous les % (en ligne, en colonne...) dans les tris croisés ?

Pourquoi afficher de nombreux graphiques et mettre tout d'un coup
"Pour visualiser le graphique, cliquer ici" avec un lien ? ce n'est pas cohérent.

"la tendance globale est", "Cela caractérise de grandes fluctuations" : ces deux phrases
mises bout à bout n'ont aucun sens.

"fluctue également relativement abondamment." et avec 4 adverbes vous savez le faire
vraiment exactement précisément scientifiquement ?

Pourquoi mettre "Attention, échelle logarithmique en ordonnée" ? Pourquoi ne pas utiliser
des graphiques "classiques". Par exemple des boites à moustaches...

"moyenne supérieur à la médiane" : manque un E.

"En raison de l'étendue des données, aucun diagramme en moustache n'est présenté.
Ils seraient illisibles." : FAUX. Ils seraient peut-être étalés mais pas
"illisibles". Mettez-les dans le document et on en rediscute.

"Ne pouvant pas faire l'analyse deux à deux de toutes ces variables" : qu'est-ce qui
vous en empêche ? Le froid, une certaine fainéantise, l'absence de la macro asgqt.xlt ?
Vous avez pourtant analysé presque tous les couples....

D'autre part, la présence d'un point très éloigné (outlier) vous oblige certainement
à refaire l'analyse des liaisons linéaires en retirant ce point...

Bonne remarque sur "forte dépendance et non une relation de causalité". Vous
pourriez toutefois faire une comparaison de moyennes pour tester vos hypothèses...

"Une autre étude intéressante serait de refaire les classes des variables quantitatives
indépendamment de la population." Bien sur. Les quantiles se calculent directement sur les
classes et vous auriez du le faire...

"les estimateurs" : ce terme me parait incorrect. il s'agit plutot d'indicateurs
statistiques.

Malgré les erreurs de découpage en classe et l'utilisation de Paris, vous devriez être
capable de faire une conclusion plus soutenue et plus fine, une fois l'effet "taille"
repéré. A reprendre...

 

 


 Dossier MABL   note provisoire  12 / 20
 ============



Le fichier MABL.DBF n'est pas lisible par Dbase3+.

Avec quoi avez-vous écrit votre descritpif ? Il n'est pas lisible avec notepad. Nous
avons pourtant fait plusieurs exemples en cours...

"association de professionnels" : il manque le mot "statisticiens" sans doute.

Pourquoi écrire "tdf .dat" avec un espace devant le point ?

Le terme "dans l'étude" est ambigue. Il y a l'étude officielle du site et la votre.
Dites plutot "pour mon analyse".

Pour chacune des variables découpées en classes, il faut nommer les modalités.
En plus de "1 : moins de 3690km" pour CLDIST il faut ajouter "petite distance".
Idem pour tous les autres codes.

Bonne rédaction pour l'analyse séparée des QT mais c'est beaucoup trop court.
Vous devez afficher des graphiques de courbes, de boites à moustaches, décrire
chaque variable. Même si le cdv est faible, il y a des choses à dire. Ainsi la durée
varie de 82 h à 151 h, ce qui fait presque le double. "le Tour de France est une course
qui est assez semblable tous les ans" est donc incorrect. N'hésitez pas à détailler,
à rédiger. Vous devez rédiger une phrase pour chaque variable dans l'ordre des
cdv décroissant.

"Analyse conjointe : on peut voir les relations entre les variables" : NON. Seulement
les relations linéaires. C'est un mot important qu'il ne faut pas oublier d'écrire.

Pour les corrélations linéaires, il faut réfléchir au sens de la relation. Vous présentez
DUREE en fonction de DIST, VITMOY en fonction de DIST, DUREE en fonction de VITMOY.
Pourquoi pas VITMOY en fonction de DUREE ? Coryez-vous vraiment que la vitesse
moyenne d'un coureur soit liée à la durée totale de la course ? Ne serait-ce pas
plutot lié à ses compétences physiques ?

Il serait bon de commenter aussi la non relation entre ETAP, DIST, DUREE et VITMOY.
On aurait pu croire que plus il y a d'étapes, plus la distance est longue...

Si vous commenciez par le tableau récapitulatif des QL, vous sauriez dans quel ordre
présenter les QL...

Ce n'est pas bon de présenter un histogramme de tris à plat dans l'ordre décroissant
des effectifs parce que cela fait double emploi avec le tableau des pourcentages et
parce que cela ne permet pas de comparer avec les histogrammes des tris croisés.

"37,5%, soit 3 vainqueurs du Tour de France sur 8" : qu'est-ce que c'est que ce
calcul "sur 8" ?

"Tri à plat de CLVIT" : il faut peut-être discuter sur le fait qu'il n'y a pas
beaucoup de personnes dans la classe la plus rapide CLVIT.

Dans les tris croisés, pourquoi effectuer des % par rapport aux lignes, plutot
qu'aux colonnes ?

Vous dites "On peut étudier ici la relation entre l'âge des coureurs cyclistes
et la vitesse moyenne de leur course.". D'accord. Où est le reste de l'étude ?
Vous donnez le tri croisé mais pas de commentaire...

Vous devriez doubler les 3 derniers tris croisés de calcul de chi-deux avec
le détail des meilleures contributions relatives...

Il vous manque une conclusion pour regrouper l'ensemble des résultats QT et QL.


 

 


 Dossier MAGR   note provisoire 08 / 20
 ============



Le fichier MAGR.DBF n'est pas lisible par Dbase3+.

Il serait bon de citer l'origine des données dans le descriptif.

Qu'est-ce qu'une "appellation transparente" ?

La liste des définitions est très bien.

Lors de la transformation de QT en QL, il faut donner un nom à chaque modalité.
Par exemple le code 1 de F_C peut être nommé "peu de faits" (bornes 22 à 593).

"A ma base de données initiales, j'ai supprimé 4 lignes" : dites plutôt "de la base
initiale j'ai..."?

Lors de l'analyse des QT, il est inutile de donner 4 chiffres après la virgule.
Compte-tenu de la nature des données, des valeurs entières arrondies sont largement
suffisantes. Pour les coefficients de variation et les rho aussi.

"les français et plus particulièrement les hommes de plus de 18 ans" : cela me parait faux
car il y a les français d'un coté, les hommes de plus de 18 ans d'un autre coté.
"Hommes de plus de 18 ans" doit regrouper hommes français de plus de 18 ans et
hommes étrangers de plus de 18 ans. Plus particulièrement fait penser à une inclusion,
ce qui n'est pas le cas ici.

"j'ai utilisée la macro" oh, ce E !

Nommer une variable H+18 est très maladroit (HP18 est plus correct) car dans l'équation
G24MAX=0,51 * H+18 + 235,408 il y a un symbole plus qui n'est pas un plus !

Une conclusion sur l'analyse conjointe des variables quantitatives serait la bienvenue.
Par exemple les plus fortes corrélations mettent en jeu les hommes plutot que les femmes.
Regardez aussi dans la matrice des corrélations les variables pour lesquelles rho est inférieur
à 0.5 (il y en a peu).

"les tris à plat n'ont pas rendu de résultats lisibles" : c'est incorrect car les résultats
sont très lisibles au contraire : il y a équirépartition.

aucun tri croisé ?

Votre conclusion est incorrecte : vous ne pouvez pas dégager de profil-type avec ce que vous
avez analysé. En particulier, vous n'avez rien fait sur les QL.

 

 


 Dossier MIBE     note provisoire 11 / 20
 ============


Le fichier MIBE.DBF n'est pas lisible par Dbase3+.

Vous dites <<J'utiliserai l'expression "infractions (terme général)" pour parler
de plusieurs variables regroupées>> : d'accord mais quelles variables regroupez-vous ?

Il serait bon de redonner quelques définitions sur le notion de crime, délit, infraction
ou d'indiquer des références Web...

N'aurait-il pas été judicieux de calculer les quartiles pour les taux afin de faire les QL ?

Pourquoi mettre certains graphiques QT en courbes et d'autres en boites à moustaches ?
Avec si peu de variables, donner systématiquement les deux graphiques permettrait de
comparer toutes les variables d'un coup...

Il faut rajouter la variable POPULATION en QT comme en QL pour mieux comprendre
l'effait "taille" au niveau de chaque département.

Le graphique de corrélation linéaire crim_délist en fonction de cambriol me semble faux :
il n'est pas possible que votre droite en vert passe par le point moyen des deux variables.
De plus vous n'indiquez pas sur le graphique l'équation...

Il est tout à fait sensé d'utiliser les totaux comme indicateurs globaux, y compris
pour la régression linéaire même s'ils reprennent les données d'autres colonnes.

Il faut dire quelque chose sur le fait que tous les coefficients de corrélation
linéaire sont tous positifs et assez forts car cela indique une tendance commune...

Bonne idée que de mettre l'affichage des tris croisés triés par chi-deux décroissant. Mais
pourquoi le mettre (mal présenté) dans une zone de texte plutot que comme des cellules Excel ?
Même remarque pour tous les tableaux de cet onglet (effectifs observés, théoriques....).

La légende des graphiques pour les tris croisés est "farfelue" : les couleurs correspondent
à des modalités pour une variable, pas pour deux variables à la fois. A reprendre.

Il semblerait qu'à chaque fois il y a liaison entre modalités pour les tris croisés.
Mais vous ne commentez aucune "surabondance" ni sous-abondance, pourquoi ? Comme vous
disposez des contributions relatives au chi-deux, vous devriez être capable d'analyser
pourquoi la répartition observée différe de la distribution théorique...

Votre conclusion sur l'effet taille me semble trop simpliste. Même s'il y a beaucoup de
départements pour lesquels le nombre de XXX a été inférieur à la moyenne, il doit y en
avoir d'autres pour lesquels ces valeurs sont très fortes (pour "équilibrer" la moyenne).
Il faudrait envisager de classer les départements en classes pour s'en rendre compte.

Il faut absolument rajouter et étudier la variable POPULATION pour mieux comprendre la
distribution des valeurs.


 

 


 Dossier NIVI     note provisoire 13  / 20
 ============


Le fichier descriptif ne doit pas avoir l'extension .TXT mais .DSC ; vous ne savez pas
renommer un fichier ?

Aucun fichier nommé NIVI*.* ?  Etes-vous venu au moins une fois en cours ?

"fournit un estimation" : il manque un E.

"panel de consommateur qui fixe" : il manque un S et un NT.

"des tries" : pas de E.

(sucre) : plutot que "on choisira de faire trois classes" mettez
"nous avons choisi de faire trois classes".

"approtées" : apportées, sans doute.

qu'est-ce qu'une cérale "saine" ?

Etes-vous sur que découper CLASSEMENT "de façon arbitraire" comme vous le
dites est scientifique ?

Bonne rédaction du descriptif, toutefois, car il y a plein de choses à préciser.

Que vient faire ici le fichier Classeur1.dbf ?

L'onglet sujet me parait mal nommé : c'est plutot un titre qu'un sujet.

Comment pouvez-vous laisser autant de chiffres après la virgule ?
Mettre 4,329557644 pour des grammes est délirant. Un seul chiffre doit
suffire. Il est plus important de bien cadrer à droite les valeurs numériques
pour qu'on puisse les lire...

Le graphique sur le cdv est inutile. Par compte, exprimer les cdv en % aurait
été plus lisible.

Vous devez rédiger les commentaires dans l'ordre des cdv décroissant.

Puisque vous avez tracé les boites à moustaches, n'avez-vous pas remarqué que
certaines sont trés différentes des autres en terme de forme ? A commenter...

Il est inutile de reproduire tous les calculs fournis par Statbox car cela
encombre inutilement l'onglet. De plus vous ne commentez pas ces calculs
(aplatissement, asymétrie etc.) alors pourquoi les mettre ?

Au vu des résultats numériques et graphiques pour le sucre, je ne vois rien
qui justifie le découpage en trois classes (et avec vos bornes...).

Pour l'étude des corrélations linéaires, ce serait bien de réfléchir aux
quelques coefficients négatifs. Cela veut surement dire quelque chose...

Pour la droite calorie/poids, mettre des axes qui commencent en (0,0)
écrase le graphique sans ajouter d'information...

Pourquoi mettre certains des graphiques des tris à plat QL en histogrammes
et d'autres en diagrammes circulaires ?

Bonne rédaction et bonne présentation des tris à plat. Il faudrait juste
ne pas afficher les "déposer champs de page ici"...

Vous avez  doublé vos tris croisés d'un calcul de chi-deux pour montrer scientifiquement
la liaison entre modalités, c'est très bien. Mais vous avez oublié de mettre les labels des
modalités au lieu des numéros, ce qui rend les tableaux illisibles. De plus vous n'indiquez
pas les contributions au chi-deux ce qui donnerait les liaisons, c'est dommage.

Je ne suis pas d'accord sur "On voit clairement apparaître que les céréales qui obtiennent
un meilleur classement (>66,66%) de la part des consommateurs sont celles à la plus
faible quantité en sucre et que dans celles qui ont le moins bon classement (<33,33%)
on retrouve en majorité les céréales à forte quantité en sucre."

Dans votre conclusion, que signifie "les céréales à forte quantité de sucre sont
les plus courantes ?" car vous n'avez aucune variable qui traite de la disponibilité
des céréales. Vous dites "au milieu de l'étagère d'un magasin, endroit qui de surcroît.."
ce qui semble en contradiction avec la phrase précédente. Attention....

"L'idée est ainsi là" que vient faire cette phrase ici ? On dirait de l'oral.

Le terme "pouvoir marketing" jamais défini, ni jamais utilisé avant apparait
magiquement dans la conclusion. Ce n'est pas correct. De plus, il n'est absolument
pas possible de l'étudier au vu des variables utilisées.

C'est un bon travail mais très perfectible sur des points de détail pour améliorer
votre note.


 

 


 Dossier ROGE     note provisoire   08  / 20
 ============


Aucun fichier nommé ROGE*.* ? Etes-vous venu au moins une fois en cours ?

"on se permettra quelques liberté" : (manque un S). NON ! Par contre vous
pouvez écrire "on pourra accepter l'imprécision sur la définition des données".

"L'impact de ces 6 lignes sur l'analyse du reste des données n'étant pas crucial"
vous ne pouvez pas le savoir avant d'avoir traité les données !

"On choisit de rajouter une colonne "IDENT", qui n'a pas vraiment d'importance" SI !
Elle sert au moins à repérer les individus.

"les bornes définissant les différents  étant arbitraires" : il manque un mot ?
Vous n'avez pas le droit de prendre des bornes arbitraires. Au contraire, elles
doivent être réfléchies, muries...

"Après réflexion, on se donne comme autre objectif" : NON ! L'objectif est celui
que je vous impose, à savoir réaliser une étude statistique. Tout autre objectif
(même s'il est intéressant) ne correspond pas au controle continu.

"à par" : manque un T.

"seulement de ne pas intervertir les lignes accidentellement" : l'étude porte sur les
colonnes, intervertir des lignes ne pose aucun problème.

"le carde" ? Relisez !

Pourquoi écrire "Les effectifs sont certes inégaux mais permettent de bien mettre en
évidences certains points" (évidence sans S) ? de quels point s'agit-il ? Vous avez
choisi une méthode, pas la peine d'en rajouter ! idem pour
"on considérera que cette classe correspond à un très bas niveau de connaissance sur
le sujet..."

A quoi sert la phrase "cette classification a pour principal intérêt l'analyse des données" ?

Vous ne pouvez pas écrire "Unités des variables" si vous listez les modalités
des QL.

"une seul" : manque un E.

"PARTQL : 0: personnes ayant eu une seul ou aucune expérience sexuelle" : NON !
Il s'agit de partenaire, pas d'expérience.

PARTHOMO : l'unité n'est pas "unités" mais "personnes".

"données recueillis" : manque un E.

"comprendre les bases de cette analyse" : de quelles bases s'agit-il ?

"n'ont jamais eut"  un T en trop.

"délimitées arbitrairement" : ce n'est pas arbitraire !

"l'analyse univarié." manque une E.

"la répartition... ne présente pas un grand intérêt" : mais si, puisque vous mettez
en évidence un manque flagrant d'information par rapport au sida.

"La variable revenu ne permet quant à elle pas de dégager une information clair" :
manque un E. Je ne suis pas d'accord. Vous avez découpé des QT en classes. La première
chose à faire est d'abord d'analyser ces QT puis de montrer comment le découpage en QL
renforce ou permet de qualifier l'étude QT. Puisque vous faites l'analyse dans le
mauvais sens, "c'est clair que ce n'est pas clair !".

Pourquoi n'y a-t-il pas d'histogramme pour les tris à plat ?

"C'est pourquoi on propose maintenant" : maintenant est en trop.

"(est définit...") un T en trop.

"On peut donc supposer que ce sondage à été mené au sein d'une entreprise" : quel
intérêt pour discuter des valeurs statistiques ? En plus, c'est certainement faux.
Cela correspond à peu près à une distribution "au hasard".

Vos graphiques QT ne sont pas très parlant. Pourquoi ne pas tracer les boites à
moustaches ?

Vous parlez de "valeurs inattendues". Cela signifie donc que vous saviez à l'avance
quelles valeurs on devait trouver. D'où vient une telle connaissance ?

"n'en traité" même Word vous conseille d'écrire "traiter".

Pourquoi écrire "On fabrique tout d'abord un tableau dit tri croisé, qui n'est autre
que la répartition des effectifs relatifs à chaque modalité pour les deux variables."
Voulez-vous vraiment m'apprendre ce qu'est un tri croisé ? Ce n'est pas la peine
non plus de me faire un cours sur le chi-deux.

(salaires) "inégale répartition" : rajoutez "si on compare les hommes et les femmes".

Tri croisé revenu/age : si vous aviez affiché les histogrammes des tris à plat
pour revenu et age, l'histogramme du tri croisé vous aurait paru plus "normal".

"On  remarque une anomalie par rapport à une répartition indépendante" : NON !
L'hypthèse d'indépendance ne signifie absolument pas qu'il y a équirépartition
mais seulement le respect des marges.

"des calcules" : un E en trop.

"On propose maintenant trois tris croisés à la suite car ils mènent à la même
conclusion" : NON. Ces tableau sont très différents et ne disent pas la même
chose.

"variables quantitative" : manque un S.

"Ceci risque de limité" : même Word vous dit de l'écrire "er".

Je ne suis pas d'accord avec votre phrase "l'analyse conjointe des variables
qualitatives ne peut pas soulever d'hypothèse solide dans cette étude". Au
contraire, cela montre clairement qu'il n'y aucune relation linéaire, ce qui est
un point très important.

"cette entreprise emploi" : manque un E.

"on plus tendance" : manque un T.

Détaillez plus l'analyse séparée QT afin de mieux justifier vos découpages
en classes et reprenez l'analyse séparée et conjointe des QL.

 

 


 Dossier VAJA     note provisoire   10 / 20
 ============


Le fichier VAJA.DBF n'est pas lisible par Dbase3+.

". Ce qui entraîne la" : comme c'est la suite et la fin de la phrase précédente,
écrivez plutot ", ce qui entraîne la...".

"QUELQUES INFORMATIONS POUR MIEUX COMPRENDRE LES VARIABLES :" il s'agit
plutot de définitions que d'informations.

"le liquide contenant... et d'autres substances sont continuellement drainées" : l'usage
français voudrait que l'accord soit fait au masculin pluriel...

Qu'est-ce que l'unité UI/L ?

"Nombre de jours entre l'enregistrement et le plus tôt entre" : il manque un
mot ? le plut tôt ???

"D : Code : 1 si NBJOUR est fonction du décès, 0 si c'est fonction  de l'étude" : pouvez-vous
être plus explicite ?

Pourquoi y a-t-il des étoiles après certains mots dans le descriptif ?

Bonne présentation des données. Je suppose que vous avez trouvé les définitions sur
Internet ou dans le Vidal. Pourquoi ne pas citer vos sources, cela pourrait éviter
des erreurs de recopie...

onglet analyse : le texte affiché est "Cela traduit"
"des patients a un taux sanguin vraiment élevé de ces élements" : en fait,
la partie de texte "Cela traduit  le fait qu'une partie" n'est pas affichée.
Pourquoi ?

Vous changez de police de caractères d'une ligne à l'autre (de MS Sans Serif à Arial) alors que rien
ne le justifie...

"taux sanguin vraiment élevé de ces élements" : cette expression est un peu maladroite. ce n'est pas
le taux sanguin qui est élevé mais le taux de ces éléments dans le sang.

Puisque vous disposez des valeurs "normales" vous devez comparer les moyennes calculées à ces valeurs.

Une analyse QT séparée se fait à l'aide de courbes et de boite sà moustaches pour qu'on voie
les données en plus des résultats statistiques.

Une phrase sur chaque variable QT serait la bienvenue.

"La gent féminine est principalement touchée par la cirrhose biliaire primitive (près de 90%)." : dire
la gent féminine plutot que les femmes est un effet de style sans doute inutile. Si votre commentaire est
exact, il faut le doubler soit de la précision "pour ce qui concerne les patients de notre étude" soit
de l'affirmation "ce qui correspond à un phénomène général" avec une référence Web le justifiant.

La modalité du milieu pour Oedeme n'a pas de label dans l'histogramme, pourquoi ?

Vous avez un onglet analyse et un onglet analyse univariée. Or le tableau QT séparé est pratiquement
le même dans ces deux onglets. Il ne sert à rien de dupliquer les résultats... Il serait plus judicieux
de garder l'onglet analyse pour les phrases et les autres onglets pour les tableaux de chiffres et
graphiques...

Même remarque pour les tris croisés qui sont mélangés à travers deux onglets.

Vous devez doubler les tris croisés d'histogrammes et de calculs de chi-deux. Sans
cela, vous ne pouvez pas affirmer statistiquement qu'il y a des liaisons entre modalités (même si
elles sont visibles).

Dans votre conclusion, la fin des phrases est tronquée, sans raison apparente...

Votre affirmation sur l'inefficacité apparente du traitement me parait bien sévère et sans
doute peu justifiée. Après tout, vous traitez à froid quelques chiffres et vous vous
permettez des conclusions. Une analyse quantifiée par le chideux vous donnerait peut-être
raison sur le résulat statistique mais pas sur le traitement médical. Si un médecin lit
ce texte, il va se facher ! Essayer d'étoffer un peu plus l'analyse séparée de chaque QT et de
chaque QL, rajoutez les histogrammes de tris croisés, les chideux et on en reparle...