Suite à une modélisation de variable binaire, j’utilise la PROC LOGISTIC de SAS 8.2. – Pour espérer obtenir de meilleurs résultats, faut-il équilibrer ma population de clients et de non clients? Exemple: expliquer une situation Y=1 alors que 80% de la population étudiée a Y=1, donne-t-il un poids trop important à ce groupe de clients ? – L’équilibre doit-il se faire dans l’échantillon d’apprentissage (70% de la population totale) sans s’en occuper dans l’échantillon test? – Après avoir obtenu les […]
je dispose d’une table SAS de la densité d’une variable discréte (modalité + proba) et je voudrais les quantiles mais la proc univariate n’accepte pas des valeurs < 1 dans son option FREQ. Comme j'ai certaines proba trés faibles si je multiplie ma freq par 1000, je risque de perdre de l'info et si je multiplie par un nombre trés grand, la proc TABULATE est limitée !
Habituellement, quand je fais une régression, je travaille sur une variable binaire. En amont, je construis donc un échantillon 50-50 (50% de détenteurs // 50% de non détenteurs). Aujourd’hui, je dois réaliser une régression sur une variable continue mais je ne sais pas comment procéder pour réaliser un échantillon. S’agit-il d’un tirage aléatoire ?
Ma régression logistique concerne 39 651 individus. J’ai donc, dans un premier temps, effectué un échantillon équilibré à 50/50 et j’obtiens 2 204 individus (car 1 201 ont la modalité cible égale à 1). Par la suite il est nécessaire de réaliser un partitionnement 70/30. On m’a conseillé de prendre 70% pour l’entrainement et 30% pour la validation. Ce que je voudrais savoir c’est comment faire ce partitionnement sous SAS (et non Miner) ? Faut-il que les deux partitions soient elles aussi équilibrées en fonction de la cible (35% — >0 et 35% –>1 pour l’entrainement et 15% –>0 et 15% –>1 ) ? Et à quel moment la partition à 30% va t-elle intervenir pour la validation ?
Je souhaiterai savoir comment faire un échantillonnage stratifié (sur une ou plusieurs variables qualitatives) avec la PROC SURVEYLECT comme le fait le noeud SAMPLING de SEM.
Est-il possible d’équilibrer automatiquement sous SEM une base de données à partir des modalités de la variable cible. Autrement dit au lieu de choisir manuellement par exemple 50% de clients et 50% de non-clients à partir d’une BD initiale, SEM propose-t-il cette option?
De plus, est-il préférable d’équilibrer avant de constituer l’échantillon d’apprentissage et celui de validation ou d’équilibrer chacun des deux échantillons? Quelles sont les procédures automatiques sous SEM?
Dans SEM, un point me pose problème : est ce qu’il a moyen de prendre comme critère le fait de maximiser le taux de détention=1. Je m’explique: en fait le score que j’ai obtenu a un bon taux global mais en fait je me suis rendue compte que peu de gens avaient une note de score élevé ce qui correspondrait au fait que le taux de détention=0 bien classés est supérieur à celui de détention=1 alors que j’aimerais favoriser le 2ème taux…
Je dois résoudre un pb de modélisation de personnes qui quittent un opérateur télécom (churn). Cependant, sur 5000 observations seules 700 churned effectivement. Du coup, le modèle apprend très bien les non churner mais pas les autres… Que faire ?
Bonjour, Voilà mon souci : je voudrais faire une Classification sur une énorme base (env 2 millions de lignes). Ce sont des données qualitatives, alors je dois passer par une ACM, donc construire un Tableau Disjonctif Complet (en tout j’ai 3 variables et 11*97*18 modalités). Seulement SAS bloque un peu beaucoup (il a mouliné toute la nuit et n’a pas avancé…)! La proc transreg que vous proposez dans cette FAQ n’est-elle pas appropriée ici? Ma base est-elle trop volumineuse pour un tel traitement? Si oui, comment faire ma classification? Merci beaucoup pour votre éclairage!