Echantillon : Régression logistique - Equilibre populations, échantillons et application du modèle

Suite à une modélisation de variable binaire, j’utilise la PROC LOGISTIC de SAS 8.2. – Pour espérer obtenir de meilleurs résultats, faut-il équilibrer ma population de clients et de non clients? Exemple: expliquer une situation Y=1 alors que 80% de la population étudiée a Y=1, donne-t-il un poids trop important à ce groupe de clients ? – L’équilibre doit-il se faire dans l’échantillon d’apprentissage (70% de la population totale) sans s’en occuper dans l’échantillon test? – Après avoir obtenu les coefficients estimés du modèle sur les variables explicatives significatives dans le journal via la procédure ou sous EM, comment puis-je appliquer ce modèle sur une autre population (présentant évidemment les mêmes variables explicatives) afin de tous les attribuer un score? Suis-je obligée de faire cette étape manuellement ? Merci beaucoup de votre aide.

Il est toujours préférable de travailler sur un échantillon équilibré. Pour pouvoir comparer les performances de votre modèle sur le corpus d’apprentissage et sur celui de test, il est préférable que les deux soient équilibrés.

L’utilisation des coefficients du modèle peut se faire via la procédure SCORE si les variables explicatives de votre modèle sont quantitatives, ou des indicatrices. La prise en compte par la proc SCORE des variables quali est très mauvaise.
Sinon, il est possible d’effectuer automatiquement ces manipulations en écrivant un petit macro-programme.

A noter qu’à partir de la version 9, la proc LOGISTIC intègre une instruction pour préciser une table SAS à scorer.

Echantillon : Régression logistique – Equilibre populations, échantillons et application du modèle