Echantillons Archives - OD-Datamining

Régression logistique : Équilibre populations, échantillons et application du modèle

Suite à une modélisation de variable binaire, j’utilise la PROC LOGISTIC de SAS 8.2. – Pour espérer obtenir de meilleurs résultats, faut-il équilibrer ma population de clients et de non clients? Exemple: expliquer une situation Y=1 alors que 80% de la population étudiée a Y=1, donne-t-il un poids trop important à ce groupe de clients ? – L’équilibre doit-il se faire dans l’échantillon d’apprentissage (70% de la population totale) sans s’en occuper dans l’échantillon test? – Après avoir obtenu les […]

Echantillon : Quantiles avec univariate

je dispose d’une table SAS de la densité d’une variable discréte (modalité + proba) et je voudrais les quantiles mais la proc univariate n’accepte pas des valeurs < 1 dans son option FREQ. Comme j'ai certaines proba trés faibles si je multiplie ma freq par 1000, je risque de perdre de l'info et si je multiplie par un nombre trés grand, la proc TABULATE est limitée !

Echantillon : A quelles règles doit répondre un échantillon pour une régression linéaire ?

Habituellement, quand je fais une régression, je travaille sur une variable binaire. En amont, je construis donc un échantillon 50-50 (50% de détenteurs // 50% de non détenteurs). Aujourd’hui, je dois réaliser une régression sur une variable continue mais je ne sais pas comment procéder pour réaliser un échantillon. S’agit-il d’un tirage aléatoire ?

Echantillon : Construction de score avec une régression logistique

Ma régression logistique concerne 39 651 individus. J’ai donc, dans un premier temps, effectué un échantillon équilibré à 50/50 et j’obtiens 2 204 individus (car 1 201 ont la modalité cible égale à 1). Par la suite il est nécessaire de réaliser un partitionnement 70/30. On m’a conseillé de prendre 70% pour l’entrainement et 30% pour la validation. Ce que je voudrais savoir c’est comment faire ce partitionnement sous SAS (et non Miner) ? Faut-il que les deux partitions soient elles aussi équilibrées en fonction de la cible (35% — >0 et 35% –>1 pour l’entrainement et 15% –>0 et 15% –>1 ) ? Et à quel moment la partition à 30% va t-elle intervenir pour la validation ?

Echantillon : Comment réaliser un échatillon stratifié comme avec SEM avec la PROC SURVEYSELECT

Je souhaiterai savoir comment faire un échantillonnage stratifié (sur une ou plusieurs variables qualitatives) avec la PROC SURVEYLECT comme le fait le noeud SAMPLING de SEM.

Echantillon : Echantillonage – Equilibre des sous-populations

Est-il possible d’équilibrer automatiquement sous SEM une base de données à partir des modalités de la variable cible. Autrement dit au lieu de choisir manuellement par exemple 50% de clients et 50% de non-clients à partir d’une BD initiale, SEM propose-t-il cette option?
De plus, est-il préférable d’équilibrer avant de constituer l’échantillon d’apprentissage et celui de validation ou d’équilibrer chacun des deux échantillons? Quelles sont les procédures automatiques sous SEM?

Echantillon : Mon score apprend mal !

Dans SEM, un point me pose problème : est ce qu’il a moyen de prendre comme critère le fait de maximiser le taux de détention=1. Je m’explique: en fait le score que j’ai obtenu a un bon taux global mais en fait je me suis rendue compte que peu de gens avaient une note de score élevé ce qui correspondrait au fait que le taux de détention=0 bien classés est supérieur à celui de détention=1 alors que j’aimerais favoriser le 2ème taux…

Echantillon : Echantillon déséquilibré

Je dois résoudre un pb de modélisation de personnes qui quittent un opérateur télécom (churn). Cependant, sur 5000 observations seules 700 churned effectivement. Du coup, le modèle apprend très bien les non churner mais pas les autres… Que faire ?

Arbre de décision : Niche d’individus.

Probleme de discrimination

Analyse de données : Tableau Disjonctif Complet et BDD volumineuse

Bonjour, Voilà mon souci : je voudrais faire une Classification sur une énorme base (env 2 millions de lignes). Ce sont des données qualitatives, alors je dois passer par une ACM, donc construire un Tableau Disjonctif Complet (en tout j’ai 3 variables et 11*97*18 modalités). Seulement SAS bloque un peu beaucoup (il a mouliné toute la nuit et n’a pas avancé…)! La proc transreg que vous proposez dans cette FAQ n’est-elle pas appropriée ici? Ma base est-elle trop volumineuse pour un tel traitement? Si oui, comment faire ma classification? Merci beaucoup pour votre éclairage!