Commentaires sur les rapports d'étude transmis par mail
(gH) gilles.hunault@univ-angers.fr
Dossier AD note provisoire 09 / 20 ========== Vous n'avez pas fourni de fichier .DSC "Ma base de données" : dites plutot "la base de données que j'ai étudiée". "j’ai extrait les 50 villes les plus peuplées afin de se concentrer" : le "se" est incorrect en termes d'accord. "nous avons réalisé un découpage en classe avec la méthode des moyennes emboîtées" : Pourquoi cette méthode plutot qu'une autre ? Avec de grands chiffres, utiliser la personne comme unité est une mauvaise idée. Le millier de personnes ou la centaine de milliers serait plus lisible. Le mot "somme" dans l'onglet est impropre : il s'agit de l'effectif (Excel est maladroit...). A corriger. Faites une phrase, même relativement "plate" pour chaque tri à plat. Vous devez discuter sur le choix des tris croisés et dire ce que vous déduisez de chaque tri croisé puis de l'ensemble des tris croisés. Il y a beaucoup trop de décimales dans votre tableau récapitulatif des QT et dans la matrice mdc. Cela rend peu les résultats peu lisibles. "on voit clairement ici que ces différents types de population sont très liés." : vous devez détailler l'analyse de ces corrélations et en conclure quelque chose : que les hommes et les femmes sont semblables, que les ménages sont comme la population des ménages, etc. De plus, vous devriez regarder en détail les équations qui doivent sans doute pouvoir aider à comprendre par exemple la composition des ménages en termes d'hommes et de femmes... "conclusion" : s'il y a une ville qui perturbe l'analyse, vous devez recommencer toute l'analyse sans cette ville et discuter la comparaison des résultats. Votre conclusion est beaucoup trop courte : vous ne semblez rien avoir à dire. Pourtant tous vos résulats montrent des choses...
Dossier AF note provisoire 09 / 20 ========== Vous n'avez pas fourni de fichier .DSC Descriptif : les discrétisations ont été effectuées à l'aide de la méthode des moyennes emboîtées. Pourquoi cette méthode plutot qu'une autre ? Quelle est la correspondance entre "ounce" et milligrammes ? Dans le tableau récapitulatif des QL, vous ne pouvez pas écrire "Modes" car il n'y a qu'un mode par ligne. Pour chaque tableau d'analyse QL, vous utilisez l'ordre des codes alors que je vous demande d'utiliser l'ordre des pourcentages décroissants... Pouvez-vous justifier votre choix ? Qu'est-ce que c'est que ces tris croisés qui ne sont pas des tableaux ? Il n'y a pas deux chiffres alignés, c'est inacceptable. Vous aviez beacoup de tris croisés possibles. Lesquels avez-vous choisis et pourquoi ? "Il est donc intéressant de voire" : corrigez l'orthographe. "L'analayse conjointe n'apparait donc pas indispensable." : corrigez l'orthographe. "L'analayse conjointe n'apparait donc pas indispensable." : expression maladroite. Vous êtes déjà en train de faire l'analyse conjointe. Ce que vous voulez dire c'est qu'il n'y a pas lieu de faire d'autre analyse de relation linéaire détaillée pour un autre couple de variables. "ne se rappochant pas de la droite définie par le modèle linéaire." corrigez l'orthographe. ANALYSE DE LA LIAISON LINEAIRE ENTRE PROTEINES ET FIBRES, "En effet il apparaît beaucoup de valeurs extrêmes" : personnellement, je n'en vois pas beaucoup. Vos graphiques en points bleus doivent utiliser des valeurs triées par ordre croissant pour qu'on puisse distinguer et donc discuter des valeurs, notamment des valeurs extrêmes. conclusions : "paquets de céréales distribués dans les épiceries (Américaines)". Non. Le concept d'épicerie n'est pas présent aux Etats-Unis, sauf dans de très rares exceptions. Il doit plutot s'agir de grande distribution (grandes surfaces). "25%, ce qui semble raisonnable." : qu'est-ce qui justifie de dire que c'est raisonnable ? Où se situe la raison là-dedans ? Comment vous, qui n'êtes sans doute pas nutritionniste, pouvez-vous en juger ? "favorisées", "a consommées", "consommé" : corrigez l'orthographe. De plus il manque un sujet à votre phrase après le point-virgule. "adaptés" : corrigez l'orthographe. Vous pourriez étoffer votre conclusion quant à la qualité des données...
Dossier AO note provisoire 00 / 20 ========== Auucun fichier reçu avec ces initiales.
Dossier CD note provisoire 09 / 20 ========== Vous n'avez pas fourni de fichier .DSC Onglet Descriptif : Vous ne citez pas vos sources. D'où viennent les données ? Où avez-vous trouvé vos références sur la vitamine A, le rétinol et les quantités d'apports journaliers ? Pourquoi le champ fumeur s'appelle-t-il SMK ? Vous ne pouvez pas dire "on a interrogé ces personnes". Dites qui l'a fait ou dites que vous ne savez pas comment cela s'est fait... L'IMC (pourquoi l'appeler QUET ?) n'est pas une QT. Trouvez une référence Internet sur cet indice et démontrez qu'il n'est pas Qt comme sur ma page http://www.info.univ-angers.fr/pub/gh/wstat/variables.htm Qu'est-ce que l'unité mcg ? Vous avez deux indices de concentration comme celui du béta-carotène dans le plasma. Comment avez-vous choisi les bornes comme 1<113 ng/ml, 113<2<191, 191<3<428, 428>4 ? Onglet "Analyse des données qualitative" : il manque un S à "qualitative". Tri à plat de SEXE : vous devez afficher par pourcentage décroissant. "trois dois plus de femmes" : pas de f ? dois ??? Après SEX ET SMK, vous n'avez pas fait de phrase sous les autres questions pour les tris à plat. Pourquoi ? C'est obligatoire. Il n'y a pas de tableau récapitulatif de l'analyse des QT. Avec 5 variables, vous avez le choix entre 10 tris croisés. Comment avez-vous décidé lesquels retenir ? La phrase "Il ne semble pas utile ici de faire un tri croisé entre ... on prévoit que ces 2 variables n'ont aucun lien" n'est pas une attitude scientifique acceptable. Faire un tri croisé prouvera qu'il n'y a pas de lien. Dire qu'il n'y a sans doute pas a priori ne permet pas de prouver quoi que ce soit... "la quantité de vitamines absorbé pas cet individu" : orthographe incorrecte. Onglet "Analyse des données quantitativ" : pourquoi la variable présentée comme BETA devient-elle BEDATDIET ? Idem pour RET qui devient RETDIET. Rajoutez le mot "linéaire" quand vous parlez de corrélation car il existe d'autres types de corrélation... A la suite du tableau récapitulatif des QT, commentez les variables dans l'ordre CDV décroissant. "matrice des corrélation" : corrigez l'orthographe. Il y a beaucoup trop de décimales dans votre matrice mdc. Cela la rend peu lisible. S'il n'y a aucune corrélation marquée, vous devez essayer d'expliquer pourquoi. Il faut recommencer la mdc sans QUET et sans les variables qualitatives : SEX n'a rien à faire ici, ni VITUSE. Refaites une analyse des QT pour les hommes seulement et pour les femmes seulement. Là, on aura peut-être des corrélations linéairés plus nettes... Il y a donc pas mal de choses à reprendre.
Dossier EF note provisoire 14 / 20 ========== Vous n'avez pas fourni de fichier .DSC "Descriptif" : IVS (Institut de Veille Sanitaire) : une référence Web à fournir ? idem pour IMC. "tirés au sort" : avez-vous des renseignements sur ce tirage ? D'où viennent les bornes pour les choix des classes de l'IMC ? "De plus les relations entre les variables SURPDS OBESE et MAIGRE sont évidentes." : je n'en suis pas sur car les qualificatifs sont les mêmes pour les variables et pour les labels de l'IMC alors que les effectifs ne sont pas exactement les mêmes. C'est vous qui avez choisi les mêmes mots. Il serait très intéressant au contraire, de voir à combien de % près on peut dire que SURPDS et OBESE sont similaires... Bonne rédaction, cependant, de l'analyse des QL. Dans le graphique pour "Corrélation PDSNAISS/TAILNAIS", un point semble avoir une taille à la naissance très faible. C'est suspect... "Corrélation PDS/TAILLE" "Ce graphique montre que la corrélation entre les variables PDS et TAILLE est mauvaise" : maladroit. En fait les données sont en gros dans un rectangle (sauf les données très grandes). Il y a donc une corrélation, mais non linéaire... Rubrique "Comparaison de moyennes" pour les garçons et les filles : très bien. La conclusion devrait être plus étoffée. S'il n'y a pas de dépendance entre QL, pas de liaison entre QT, il faut chercher pourquoi...
Dossier FK note provisoire 00 / 20 ========== Aucun fichier ne portant vos initiales n'est présent dans l'archiven d'où la note. Si le fichier "desccrip[1].doc" est votre descriptif, il faut le renommer en fk.doc. Si le fichier "donne.xls" est votre fichier de données, il faut le renommer en fk.xls. Vous devez donner un titre à votre projet, par exemple "production de pommes". "Les variables QL ont été ajouté pour conformer les données aux critères de l'étude" : cette phrase est incompréhensible. "Que nous allons faire," : que fait cette phrase ici ? Faites un effort de rédaction. "Code 1 = production supérieure à 1000" : d'où sort cette valeur de 1000 ? Vous devez justifier cette borne. Avant de passer à l'analyse des variables, vous devez présenter chaque variable en donnant au minimum son nom et son type... Vous ne pouvez pas laisser le mot "Nombre de NUM" dans un tableau. Soit vous avez des effectifs, soit des pourcentages. Pourquoi y a-t-il des majuscules au début de chaque ligne ? "vu qu'il qu'il y une" : avez-vous RELU et FAIT RELIRE votre travail ? "5 tableaux possibles" de QL : vous devez TOUS les présenter et les commenter. Vous pourrez ensuite éventuellement dire qu'il y a similarité, mais en aucun cas symétrie. "les niveau" : corrigez l'orthographe. "39% environ son européens" : corrigez l'orthographe. Comment avez-vous choisi vos tris croisés ? Justifiez ces choix. Il n'y a pas de tableau récapitulatif de l'analyse des QL. Vous devez fournir des graphiques en plus des calculs, pour les QL comme pour les QT. Il y a beaucoup trop de décimales dans votre tableau récapitulatif des QT et dans la matrice mdc. Cela rend peu les résultats peu lisibles. Vous devez analyser en détail la ou les meilleures corrélations linéaires... Vous devez rédiger une conclusion.
Dossier KL note provisoire 07 / 20 ========== Fichier descriptif : Vous avez fourni un fichier .DSC, c'est bien. Mais faites des phrases, même un peu simples comme "ce dossier traite de...". N'hésitez pas à mettre dès le départ à la référence Web de vos données : ouvrir l'URL permet de suivre en parallèle ce que vous dites. "cependant seulement données" : dites plutot "cependant, seules les données...". "patients écrivant l'étude" : je ne comprends pas ce que cela veut dire. C'est bien de donner les variables et en français à condition de traduire tout le texte anglais. Ainsi on dit "bien différencié" et non pas "well différencié". Fichier Excel : Si vous n'avez que 2 variables QT, il y a un gros problème puisqu'il vous en faut 5. Je n'ai jamais validé de telles données. Vous devez commenter chaque QT après avoir calculé ses caractéristiques. Il n'y a pas de tableau récapitulatif de l'analyse des QT. Pourquoi utilisez des labels anglais dans l'analyse des QL si vous avez traduit les modalités ? Il n'y a pas de tableau récapitulatif de l'analyse des QL. Pour chaque tableau d'analyse QL, vous utilisez l'ordre des codes alors que je vous demande d'utiliser l'ordre des pourcentages décroissants... Pouvez-vous justifier votre choix ? Pourquoi faire des graphiques différents ? Les graphiques sectoriels sont moins lisibles, vous faites une fois des histogrammes en hauteur, une autre fois en largeur, puis des histogrammes empilés. Pourquoi changer sans arrêt ? Votre analyse dite séparée est déjà une analyse conjointe. Séparée signifie 1 seule variable à la fois. A recommencer. Chaque tableau de fréquences doit être commenté. Vous devez rédiger, c'est à dire écrire des phrases pour expliquer ce qu'il y a dans les tableaux de chiffres.
Dossier MH note provisoire 00 / 20 ========== Auucun fichier reçu avec ces initiales.
Dossier PM note provisoire 14 / 20 ========== Vous n'avez pas fourni de fichier .DSC Bonne présentation des données et des conversions des unités américaines en unités françaises. Vous dites qu'il n'y a pas de donnée "nombre d'habitants" pour le Texas. Que faites-vous alors du Texas ? La conversion dollar/euro est plus douteuse car le coefficient de conversion change tous les jours. Dites 1 dollar = 0,7973 euros le jour où nous avons fait cette étude. "Le minimum étant 38% et le maximum 73%, on pourrait trier... 35%... 75%..." mais ces valeurs ne sont pas atteintes. Pourquoi les choisir ? Vous avez seulement raison, mais détaillez encore plus... Je ne sais pas ce que c'est que des "écarts types interclasses" (ou alors, il en manque car avec 4 classes, il faut en calculer 6... ou alors, comment faites-vous ? Et avec quel logiciel, quelle fonction ? Pourquoi "diagramme en tiges et feuilles" pour "indice de mortalité" et pas pour "humidité relative" ? "Densité de population" : quelle technique choisissez-vous pour découper et pourquoi ? "Cette donnée quantitative" : non, elle est semi-quantitative. Vous n'avez pas le droit de calculer des variances avec cette densité. "Nombre d'individus moyen qui composent un ménage" : [...] cette variable semi-quantitative. Non. Celle-là est une variable quantitative discrète. Mais vous avez tout à fait le droit de la traiter en QL. Et corrigez l'orthographe. Pour les trois polluants, pourriez-vous essayer de trouver un site Internet qui détaille ces polluants (ou un livre à la bibliothèque) car il faut sans doute justfifier que ces polluants sont similaires pour utiliser les mêmes bornes de découpage... "Souvent, une classe a été créée pour mettre les valeurs..." : avec aussi peu de variables, il vaut mieux citer explicitement pour quelles variables vous l'avez fait. Pour 5 variables, souvent signifie combien ? "choix des intitulés de classe" [...] "il n'y a pas de normes scientifiques" : il n'y en a pas en général, pas plus que de bornes prédéfinies la plupatr du temps. Par contre, pour les polluants, il y a souvent des valeurs et des qualificatifs liés aux normes pour la qualité de l'environnement... Bonne analyse séparée des QT. Pourquoi ne pas donner pour "Education" le même graphique que pour les autres variables QT ? Pour la population, l'unité est mal choisie car elle empêche la lisibilité. Utiliser des milliers ou des centaines de milliers serait meilleur ici. Même remarque pour le revenu moyen. Milliers d'euros serait ici plus adapté. Pour chaque tableau d'analyse QL, vous utilisez l'ordre des codes alors que je vous demande d'utiliser l'ordre des pourcentages décroissants... Pouvez-vous justifier votre choix ? "normalement il faut que R2 soit supérieur à 0,81" : maladroit. On dit prudemment "proche de 1" mais 0.7 voire même 0.6 est parfois pertinent. 0.81 est le carré de 0.9 et sert de référence, pas de norme... Comment pouvez-vous conclure à une liaison linéaire entre tempjanvier et tempjuillet alors que le rho associé est nettement moins important qu'entre revenu et éducation pour lesquelles vous ne parlez que d'une faible corrélation linéaire ? "En fait, aucune étude conjointe n'est valable" : là encore, rédaction maladroite. Toutes les études conjointes sont justifiées par le fait que les variables sont ensemble dans le même dossier et elles sont donc toutes "valables". Par contre, aucune corrélation n'est forte. Le terme "valable", ni même "valide" n'est pas approprié ici. "ceux qui ont ou qui pourrait avoir" : orthographe incorrecte. "L'hypothèse d'indépendance est de déduire les effectifs à partir des pourcentages." : expression un peu maladroite : on utilise les marges du tableau croisé, le terme pourcentage n'est pas suffisant ici car il y a les pourcentages en ligne, en colonne, par rapport au total... Il n'est pas possible de calculer un chi-deux lorsque les effectifs dans une cellule sont trop faibles. En particulier, si la valeur théorique t (attendue) est nulle, le calcul de (o-t)2/t renvoie une valeur infinie... certains de vos chi-deux ne sont donc pas "légaux". Par contre vos commentaires sont bien rédigés et cohérents avec vos résultats. Dans la conclusion, cependant je ne comprends pas bien comment vous pouvez dire "on ne peut pas conclure qu'il y a une dépendance entre la pollution de l'air des villes et la mortalité dans ces villes" alors que dans la section précédente vous affirmez : "On voit [...] que plus la concentration en SO2 est forte et plus la mortalité est élevée. Ceci est confirmé par le test du chi deux qui nous révèle que, au risque de 5%, on peut considérer que ces deux variables sont dépendantes." Ne pourriez-vous dire "dépendance mortalité/pollution générale : non, dépendance mortalité/SO2 : oui" ? Un bon travail globalement, d'où la note.
Envois incorrects ================== ANALYSE DE DONNEES REELLES note provisoire 05 / 20 --------------------------- Le nom du fichier ne correspond à aucun groupe d'initiales. De plus il ne s'agit pas d'un fichier .ZIP mais d'un fichier .RTF. Ce fichier ne contient nulle part le nom de son auteur (mais qui est-ce ?). "Il s'agit d'une analyse générale des variables présentes dans les données et d'établir un commentaire pertinent pour expliquer certains résultats obtenus" : que fait cette phrase dans le texte ? Il s'agit de présenter les variables et de faire des calculs, pas de définir des objectifs. "si c'est le cas j'éluciderai les raisons de ce problème." : ne promettez pas ce que vous ne pourrez pas tenir. De plus, vous devez faire un travail scientifique, pas donner vos sentiments ou états d'ame. Dites "les données sont intéressantes parce qu'elles doivent permettre de savoir si..." plutot que "elles ont capté mon attention". "Ce dossier est un échantillonnage" : non. Un échantillon, peut-être mais en aucun cas un échantillonnage qui est une action. "RSTAT qui est selon moi un logiciel très complet en terme de statistique" : votre avis n'a pas sa place ici. Il s'agit de science, pas d'avis personnel. Vous devriez présenter les résultats des QT dans un tableau au sens de Word : les chiffres seraient cadrés et bien présentés. Il n'y a pas de tableau récapitulatif de l'analyse des QT. "Je vais réaliser une étude intégrale de toutes ces variables qualitatives à l'aide de la fonction ALLQL" : cette phrase est inutile ici. Ne parlez pas au futur mais au passé car vous rendez compte du travail déjà effectué. "Regieon" quel est ce mot ? Vous devriez présenter les résultats des QL dans un tableau au sens de Word : les chiffres seraient cadrés et bien présentés. Effectuer un copier/coller des résultats de R ne suffit pas : vous devez mettre en forme les résultats. Vous devez rédiger un commentaire pour chaque tri à plat, pour chaque analyse QT. Vous devez fournir des graphiques en plus des calculs, pour les QL comme pour les QT. Vous devez rédiger une conclusion. ANNICEXXXXXXXXXXX note provisoire 08 / 20 (sous réserve d'envoi correct) -------------------- Le nom du fichier ne correspond à aucun groupe d'initiales. N'avez-vous pas signé un document où vous disiez avoir compris qu'il fallait utiliser les initiales AO ? Ceci pour assurer l'anonymat, vu que ces commentaires sont sur internet... Pourquoi mettez-vous un répertoire dans votre archive ? Du coup, mon programme automatique d'extraction de fichier ne voit rien, comme si vous n'aviez rien envoyé... "nous avons effectuer" : corrigez l'orthographe. Je suis très surpris qu'il y ait marqué "Réalisé en Août 1996" dans votre fichier Excel, onglet Titre. Si les données dont de 96, précisez-le. Tel qu'écrit, on croirait que le dossier date de 96 ! "Ce Dossier est soumis à un questionnaire" : cela ne veut rien dire. Le questionnaire a été soumis aux étudiants, plutot... "Nous avons fait ce choix de données afin de faire une étude plus poussée sur la vie des étudiants en dehors des études" : c'est maladroit. D'abord les données sont vieilles (il y a 10 ans) et de plus ce ne sont que quelques étudiants de Floride, donc aucune généralité ici. [de plus, d'après vos calculs ils sont tous végétariens !]. "Nous avons aussi fait le choix de supprimer certaines données car celles-ci ne nous apportent pas d'informations relatives à notre étude." : précisez lesquelles. De plus vous ne dites pas quel est le but de votre étude. Comment pouvez-vous alors justifier de supprimer certaines variables ? "vous regardez la télé", "vous faites du sport.." : il ne faut pas recopier le texte du questionnaire... "Analyse Coinjointe" : corrigez l'orthographe. Pour l'individu M002, DH vaut 1930800 km. D'après vos explications (distance convertie en kilomètres), il s'agit donc d'extraterrestre ! Un peu de sérieux, s'il vous plait. Relisez et vérifiez vos calculs... VARIABLES QUANLITATIVES : corrigez l'orthographe. "Les étudiants (52%) qui croient à la vie après la mort et ceux qui ne croient pas (48%) sont presque proportionnels" : des étudiants ne peuvent pas être proportionnels. Si les étudiant(e)s sont presque tous (toutes) végétarien(ne)s, la représentativité de l'échantillon est à remettre en question... "sont contre ça" : mauvais registre de langue. Pensez que vous êtes en train de rédiger un texte scientifique, choisissez vos mots... "Les autres tris croisés effectués dans le document ci-joint ne sont pas intéressants car ils ne sont pas liés." : mal dit. Tous les tris croisés sont intéressants car ils montrent la dépendance ou l'indépendance entre variables. Ce que vous appelez un tri croisé non intéressant est un tableau qui montre que les variables ne sont pas liées, ce qui est un fait intéressant en soi (mais sans doute banal pour l'étude...). De toutes façons, ce ne sont pas les tris croisés qui sont liés mais les variables... "ETUDE DE VARIABLE QUANTITATIVE" il faut un pluriel car vous étudiez plusieurs variables. "pas de corrélations entre les différentes variables étudiées." : oui, mais dites-bien corrélations linéaires. S'il n'y a pas corrélation, essayez de trouver pourquoi. Vous ne semblez pas tirer de conséquences du fait que la plupart des comparaisons ne montrent aucune différence au seuil de 5 %. Votre conclusion n'est pas assez détaillée. Reprenez les points forts de l'analyse QL et de l'analyse QT, essayez de dégager des grandes lignes. "Cependant, nous n'avons pas pu dégager une corrélation entre ces variables car elles ne sont pas liées entre elles. Ce qui rend les données de cette étude difficilement exploitables." : non. Le fait que vous ayiez pu exploiter ces données montre que ce que vous dites est faux. Les données sont exploitables. Par contre les observations que l'on peut en déduire ne sont pas très flagrantes (selon vos calculs).