logo

Echantillon : Echantillonage – Equilibre des sous-populations

Bonjour,

Est-il possible d’équilibrer automatiquement sous SEM une base de données à partir des modalités de la variable cible. Autrement dit au lieu de choisir manuellement par exemple 50% de clients et 50% de non-clients à partir d’une BD initiale, SEM propose-t-il cette option?
De plus, est-il préférable d’équilibrer avant de constituer l’échantillon d’apprentissage et celui de validation ou d’équilibrer chacun des deux échantillons? Quelles sont les procédures automatiques sous SEM?

Merci d’avance de votre réponse.

Oui, c’est possible en utilisant le noeud SAMPLING de SEM.

  1. Dans l’onglet principal du noeud SAMPLING, choisir le type d’échantillonnage STRATIFIED, et proposer une taille d’échantillon qui ne dépasse pas 2 fois l’effectif le plus faible (clients ou non-clients) ;
  2. Dans l’onglet STRATIFICATION, choisir d’utiliser la variable cible (client/non-client) en changeant la valeur de l’attribut STATUS (de DON’T USE à USE)
  3. Dans le sous-onglet OPTIONS (très bien caché en bas à droite de l’onglet STRATIFICATION), sélectionner EQUAL SIZE pour obtenir deux sous-échantillons de même taille.

Il est préférable de modéliser sur des populations équilibrées, d’une manière générale. Il est donc préférable d’avoir des échantillons d’apprentissage et de validation équilibré. L’enchaînement est donc INPUT DATA SOURCE –> SAMPLING –> DATA PARTITION dans SEM.