Module de Biostatistiques,
partie 1
Ecole Doctorale Biologie Santé
gilles.hunault "at" univ-angers.fr
Enoncés pour la séance numéro 6 (solutions)
Gérez les données DIABETES (voir l'exercice 13 de la séance 3 pour plus de détails sur les données). On traitera le problème des données manquantes, on convertira les unités américaines dans le système métrique et on construira une variable "diabète diagnostiqué" suite à la lecture de l'abstract (encadré ci-dessous). Pour cet exercice, on pourra ignorer les variables chol, stab.hlu, hdl, ratio, location, frame, bp.1s, bp.1d,bp.2d, bp.2s et time.ppn et ne retenir que id, glyhb, age, gender, height, weight, waist et hip.
Pour celles et ceux qui voudraient s'entrainer à lire le fichier Excel des données, consulter la page révision1.
On pourra batir un PES (plan d'études statistiques) à l'aide de l'abstract de l'étude disponible via l'URL http://www.ncbi.nlm.nih.gov/pubmed/9258308 dont nous reproduisons une partie ci-dessous :
Prevalence of coronary heart disease risk factors among rural blacks: a community-based study (diabetes Dataset). These data are courtesy of Dr John Schorling, Department of Medicine, University of Virginia School of Medicine. The data consist of 19 variables on 403 subjects from 1046 subjects who were interviewed in a study to understand the prevalence of obesity, diabetes, and other cardiovascular risk factors in central Virginia for African Americans. According to Dr John Hong, Diabetes Mellitus Type II (adult onset diabetes) is associated most strongly with obesity. The waist/hip ratio may be a predictor in diabetes and heart disease. DM II is also associated with hypertension - they may both be part of "Syndrome X". The 403 subjects were the ones who were actually screened for diabetes. Glycosolated hemoglobin > 7.0 is usually taken as a positive diagnosis of diabetes. Background. Coronary heart disease (CHD) remains the most common cause of death among blacks, and the difference in CHD mortality between blacks and whites is growing. This trend may be due in part to higher rates of CHD risk factors among blacks. This study was done to determine the prevalence of CHD risk factors among a population-based sample of 403 rural blacks in Virginia. Methods. Community-based screening evaluations included the determination of exercise and smoking habits, blood pressure, height, weight, total and high-density lipoprotein (HDL) cholesterol, and glycosylated hemoglobin. (C) 1997 Southern Medical AssociationTrois fonctions à étudier pour la gestion des données : transform(), na.omit() et ifelse().
Etudiez séparément puis conjointement les variables conseillées de ce dossier DIABETES. On commencera par les variables qualitatives.
On pourra utiliser les fonctions decritQL(), decritQT(), allQT(), anaLin() et decritQTparFacteur() de statgh.r.
Si vous avez un doute sur les tests statistiques à effectuer, utiliser la page américaine whatstat ou notre page testscompar.
Comment visualiser les corrélations linéaires entres les variables quantitatives du fichier de données ?
Fonctions conseillées : cor(), pairs(), princomp() et qgraph() du package qgraph.
On pourra utiliser les fonctions pairsi(), corCircle(), acp(), acpFacteur() de statgh.r.
Quelles régressions linéaires et logistiques sont intéressantes à effectuer dans ce dossier DIABETES ? Quels en sont les résultats ?
Voici les fonctions de référence à consulter pour les régressions : lm() et glm().
Il serait bon d'essayer de sélectionner les variables les plus pertinentes pour chaque modèle.
On pourra utiliser les fonctions auroc(), rchModeleLogistique() de statgh.r.
Retour à la page principale de (gH)