Valid XHTML     Valid CSS2    

Actualités statistiques janvier 2015 (HIFIH)

                     gilles.hunault "at" univ-angers.fr

1. Une nouvelle page web pour des  calculs statistiques 

Suite à une demande de Paul CALES, une page de calcul d'AUROCs appariées a été ajoutée avec une sortie en matrice triangulaire supérieure à l'écran et dans un fichier .CSV de façon à pouvoir inclure les résultats dans un article pour publication.

               AUROCs appariées

Du coup, afin d'obtenir la même présentation en sortie, la page pour les calculs d'index et de test d'Obuschowski a aussi été modifiée.

               OBUCHOWSKI

Enfin, pour ceux celles que cela intéresse, une page est disponible pour des calculs de spécificité et de sensibilité en cas de "gold standard" imparfait.

               imperfect Gold Standard

Si vous aviez raté le premier lien de la page, la page Web qui donne la liste des calculs disponibles est  là , par exemple
pour tracer une courbe ROC, ou pour calculer des valeurs diagnostiques.

2. Ouvrages récents conseillés

non su

R for Medicine and Biology (Paul D. LEWIS)

Ce n'est certainement pas le meilleur ouvrage pour apprendre à utiliser R, mais c'est un bon ouvrage pour voir comment on peut utiliser R en médecine clinique. On y parle de gestion de données, de traitements statistiques, d'analyses d'images DICOM, etc. L'ouvrage fait 400 pages dont au moins 150 de code R et de résultats mal présentés...

non su

Applied Predictive Modeling (Max KUHN, Kjell JOHNSON)

Là, «c'est du lourd !» : toutes les méthodes classiques et récentes en régression et classification sont présentées et utilisées sur des exemples réels d'importance, avec du recul sur leur application. En 600 pages (couleurs) trés bien présentées avec une première partie sur les stratégies (processus de modélisation prédictive, pré-traitement des donnée, sur-apprentissage) c'est un ouvrage majeur qui doit faire partie de toute bibliothèque statistique sérieuse.

Le site associé indique cite les sources des jeux de données. Le package éponyme contient en plus des fonctions et des données le code R de chacun des chapitres pour refaire tous les exemples de l'ouvrage.

On remarquera que pour éviter la discussion clasique sur les termes d'apprentissage statistique ou artificiel (statistical learning vs machine learning) les auteurs ont choisi de parler de modélisation prédictive.

3. Les méthodes statistiques "modernes"

Si vous voulez rafraichir (ou approfondir) vos connaissances statistiques sur

  • les méthodes de rééchantillonnage (bootstrap, k-fold cross validation...)

  • les méthodes de régression linéaire et non linéaire (PLS, LASSO, RIDGE, MARS, SVM, KNN...)

  • les méthodes d'arbres de régression (CART, bagging, boosting, random Forests, cubist...) etc.

et que vous n'avez pas le temps de lire l'excellent ouvrage de Kuhn et Johnson, vous pouvez visionner des vidéos comme celles du bas de la page de A. Al Sharif ou vous inscrire à un MOOC... En plus de présenter les méthodes, les vidéos montrent souvent comment les appliquer avec R via Rstudio sur un exemple concret et vous renvoient à d'autres mini-films de démonstration comme par exemple :

          non su

          Introduction to Data Mining with R:
          Regression Trees, Bodyfat Dataset

 

 

retour gH    Retour à la page principale de   (gH)