logo

Régression : Matrice confusion sur échantillon test

Bonjour,

J’ai effectué une régression logistique sur une table d’apprentissage contenant des variables explicatives continues et discrètes(option class de la proc logistique). Je souhaite savoir comment procéder pour obtenir la matrice de confusion sur l’échantillon test. Cela suppose le calcul au préalable des probabilités estimées sur l’échantillon test étant donné que je des explicatives continues et discrètes.

Merci

 

Bonjour.

Il n’existe pas d’option dans la procédure LOGISTIC pour prendre en compte un échantillon test (c’est le cas dans la procédure DISCRIM, ou encore dans DMREG, cette dernière étant rattachée au module Enterprise Miner).
L’astuce consiste à créer dans votre table une nouvelle variable (mettons Ybis), qui prend les valeurs de la variable cible sur l’échantillon d’apprentissage, et qui est non renseignée pour l’échantillon test. Toutes les observations (apprentissage et test) seront consignées dans une même table SAS, mais la proc LOGISTIC construira son modèle (pour expliquer Ybis) sur les observations renseignées (= apprentissage) uniquement. En revanche, lors de la récupération des données scorées (instruction OUTPUT OUT), toutes les observations en entrée (apprentissage et test) sont scorées.

On peut alors aisément construire les matrices de confusion, courbes ROC, de lift, etc.

A partir de SAS 9.3, l’instruction SCORE permet d’appliquer le modèle à un échantillon test et l’option FITSTATS affichera divers indicateurs de qualité sur ces données.