logo

Régression : qualité d’un modèle avec la proc LOGISTIC

Pour déterminer la qualité de mon modèle logistique j’ai utilisé la valeur c qui est de 0.71 ; peut-on dire que dans 71% des cas le modèle est bien prédit ? sinon, quel indicateur utiliser ? merci.

 

Le c de 0,71 ne signifie pas qu’on a 71% de bonnes prédictions. Pour pouvoir donner ce genre d’indications, il faut :

  1. choisir un seuil pour transformer les prédictions continues (le score) en prédictions binaires (par exemple : 0,5 : si P_1 < 0,5 alors Ypredit = 0, sinon Ypredit=1)
  2. calculer la nouvelle variable binaire Ypredit
  3. la croiser (dans une proc Freq) avec la variable Yobservé
  4. additionner les pourcentages (2e ligne de chaque case) des cellules dans la diagonale du tableau (correspondances entre Yobservé et Y prédit).

Là, on connaît le % de cas où le modèle fait de bonnes prédictions. Attention cependant, ça reste une estimation optimiste : ce taux est évalué sur les données ayant servi à construire le modèle. Si vous le pouvez, conservez de vos données initiales un échantillon de données (20 à 30%) qui ne sera pas utilisé pour construire le modèle, et sur lequel vous pourrez construire ce tableau croisé des prédictions versus observations.

On peut aussi utiliser les options CTABLE et PPROB de l’instruction MODEL pour obtenir les taux de bien / mal classés en fonction de différents seuils.