logo

Echantillon : Echantillon déséquilibré

Je dois résoudre un pb de modélisation de personnes qui quittent un opérateur télécom (churn). Cependant, sur 5000 observations seules 700 churned effectivement. Du coup, le modèle apprend très bien les non churner mais pas les autres… Que faire ?

Dans votre problème, je conseille la constitution d’un échantillon équilibré, c’est à dire où le rapport des deux évènements (churn / pas churn) est voisin de 50/50. Dans SEM, faire un échantillon stratifié de 1000 à 1400 personnes, stratifié sur le churn, et où les strates sont à parts égales (onglet STRATIFICATION, sous-onglet OPTIONS : CRITERIA = EQUAL SIZE).