Valid XHTML     Valid CSS2    

Exemple naif de régression logistique

pour une entrée quantitative

et une sortie qualitative binaire

 

Présentation des données

On dispose d'un fichier de données nommé pg.dar contenant un identifiant, la valeur de taille exprimée en centimètres et le groupe des individus "connus". On voudrait en déduire le groupe des individus "inconnus" du fichier pginc.dar. Cet exemple est simple parce qu'on va essayer de prédire la valeur du GROUPE à partir d'une seule variable, la TAILLE.

Fichier PG.DAR
 
  Fichier PGINC.DAR
 

Détails des calculs

Le tracé du groupe en fonction de la taille

reglogi1

montre que les groupes sont assez bien séparés, ce qui arrive rarement. C'est pourquoi il s'agit d'un exemple naif, non réel mais facile à suivre. L'utilisation de la procédure LOGISTIC du logiciel SAS via le fichier-programme reglogi_sas.txt fournit de nombreux résultats (fichiers reglogi_lst.txt et reglogi_log.txt) dont les coefficients de régression logistique

a = 0,1812 et b = -27.2103.

Nous allons retrouver et exploiter ces valeurs à l'aide du logiciel de R soit le fichier-programme reglogi_r.txt. A l'aide de la fonction logit et des formules

   reglogi gif
formules

nous construisons un prédicteur qui associe à une taille un nombre réel entre 0 et 1. Il suffit de situer ce nombre sur la courbe de régression pour en déduire le groupe, soit ici en prenant la partie entière de nos valeurs.

On peut donc prédire comme groupe pour nos "inconnus" les valeurs


             TAILLE    GROUPE
     B01G      164        1
     B02G      200        1
     B03P      147        0

La valeur du rapport de cotes ("odds ratio") s'obtient alors avec l'exponentielle de la pente de la courbe soit ici exp(0,1812) donc à peu près 1,198655.

L'illustration de la méthode et des résultats est fournie par le graphique suivant où les points bleus correspondant aux individus "inconnus" :

reglogi2
On aurait pu se demander si une régression linéaire classique n'aurait pas suffi. La réponse est non, bien sûr, fournie par le graphique suivant :
reglogi3

Pour aller plus loin

Un cours détaillé (PDF, 60 pages) uniquement sur la régression logistique est celui de Patrick Taffé (en français). Vous pouvez aussi consulter cet exemple commenté pour SAS (en anglais) et cette présentation des résultats de SAS également en anglais pour les réponses dichotomiques et polytomiques sans oublier le cours général de modélisation statistique du Pr. BESSE (PDF, 80 pages).

Pour une interprétation de ces calculs en médicine, on pourra consulter

Une petite difficulté pour un problème simple

Lorsque la situation est flagrante, c'est à dire si les groupes sont séparables linéairement, comme par exemple pour les données rlf.dar

reglogi4

alors la plupart des méthodes théoriques ne sont pas capables de résoudre correctement le problème, même si la courbe de régression logistique est "magnifique" :

reglogi5

On pourra lire les programmes et les fichiers résultats correspondants pour s'en rendre compte :

rlf_sas.txt

rlf_log.txt

rlf_lst.txt

rlf_r.txt

rlf_sor.txt

 

 

retour gH    Retour à la page principale de   (gH)