logo

Echantillon : Construction de score avec une régression logistique

Bonjour et merci d’avoir répondu à mes précédentes questions.

Ma régression logistique concerne 39 651 individus. J’ai donc, dans un premier temps, effectué un échantillon équilibré à 50/50 et j’obtiens 2 204 individus (car 1 201 ont la modalité cible égale à 1). Par la suite il est nécessaire de réaliser un partitionnement 70/30. On m’a conseillé de prendre 70% pour l’entrainement et 30% pour la validation. Ce que je voudrais savoir c’est comment faire ce partitionnement sous SAS (et non Miner) ? Faut-il que les deux partitions soient elles aussi équilibrées en fonction de la cible (35% — >0 et 35% –>1 pour l’entrainement et 15% –>0 et 15% –>1 ) ? Et à quel moment la partition à 30% va t-elle intervenir pour la validation ?

D’autre part, pour le seuil optimal, j’obtiendrai forcément 0,5 puisque mon échantillon est équilibré ? Cela n’est pas gênant ?

Le fait de travailler sur 70% des 2 204 individus ne fausse pas le modèle ?

Je vous remercie pour votre réponse.

Bonjour.

Partition 70/30 :

DATA work.train work.valid ;
     SET maBase ;
     alea = RANUNI(0) ;
     IF alea < .7 THEN OUTPUT work.train ;
     ELSE OUTPUT work.valid ;
 RUN ;

Seuil optimal :

Il sera sans doute aux alentours de 0,5, pas forcément exactement à cette valeur. En fait, le seuil optimal s’harmonise avec la valeur de la constante du modèle, ce ne sera donc pas faux de travailler ensuite sur une population non équilibrée avec ce seuil.

Volume de données :

70% de 2200 individus, ça en fait encore largement assez, sauf si vous avez 400 variables explicatives dans votre modèle.

Utilisation des données de validation :

On ne construit pas de modèle dessus, on se contente de leur appliquer le moteur de score (c’est à dire qu’on prédit avec le modèle). Et on comparer le taux de bien classés avec celui donné par les données d’entraînement. Ce taux est plus fiable (l’autre est biaisé vers 0), et la constance du taux est signe de robustesse.