logo

Arbre de décision : Sélection de variables avec le Chi-2

Je me pose des questions sur la sélection de variables sous SEM : en effet le test du chi-deux proposé ne semble pas correspondre au test du chi-deux sous SAS (PROC FREQ avec option CHISQ). Qu’en est-il vraiment? je suis allée voir ce que faisait SEM dans le Program Editor et il fait une PROC DMSPLIT : qu’est-ce que c’est que cette PROC ? Dans quel module est-elle disponible ?

En fait, le noeud VARIABLE SELECTION construit un arbre comme le noeud TREE (d’où la proc DMSPLIT qui est en fait celle qui tourne derrière TREE), sur la base de l’algorithme CHAID. Les variables retenues sont donc celles qui sortent les premières dans l’arbre. Cependant, il ne faut pas non plus espérer retrouver exactement le même arbre qu’avec le noeud TREE (hé non, ce serait trop simple !!!), sauf à ne pas avoir de valeurs manquantes dans les données (le noeud VARIABLE SELECTION traite les valeurs manquantes différemment de TREE).