logo

Arbre de décision : Niche d’individus.

Probleme de discrimination :

Input : n individus sur lesquels sont mesurés p variables numériques.
Output : la variable binaire d’intéret.
Structure des données : seulement 20% des individus posseèdent la caractéristique binaire.
Modele : par exemple un reseau de neurones de type perceptron multicouche.

Question : les individus présentant la valeur 1 (dans 20% des cas) apparaissent naturellement sous représentés dans le jeu de données. Par conséquent, le modèle estimé s’adapte très pauvrement : il prédit dans la grande majorité des cas une valeur = à 0.
Quelles sont les techniques existantes pour sur-pondérer la sous population présentant la valeur 1 de la variable binaire d’intéret. La seule que je connaisse etant :répliquer plusieurs fois cette meme sous population, ou utiliser des methodes de type arcing.

Merci d’avance pour la réponse apportée.

La duplication d’individus est toujours dangereuse, sauf quand elle est contrôlée par un mécanisme de type bootstrap, comme dans les méthodes d’arcing.

N’est-il pas préférable de travailler sur un échantillon équilibré (50% de 0, 50% de 1) quitte à réduire la taille de votre échantillon de travail ?

L’emploi d’un arcing (boosting ou bagging) sur ce genre de population donne en général de bons résultats (plus spectaculaires si vous partez d’un modèle moins stable qu’un réseau de neurones, par exemple un arbre de décision).