logo

Enterprise Miner : Sélection de variables avec le Chi-2

Je me pose des questions sur la sélection de variables sous SEM : en effet le test du chi-deux proposé ne semble pas correspondre au test du chi-deux sous SAS (PROC FREQ avec option CHISQ). Qu’en est-il vraiment? je suis allée voir ce que faisait SEM dans le Program Editor et il fait une PROC DMSPLIT : qu’est-ce que c’est que cette PROC ? Dans quel module est-elle disponible ?

 

En fait, le nœud VARIABLE SELECTION construit un arbre comme le nœud TREE (d’où la proc DMSPLIT qui est en fait celle qui tourne derrière TREE), sur la base de l’algorithme CHAID. Les variables retenues sont donc celles qui sortent les premières dans l’arbre. Cependant, il ne faut pas non plus espérer retrouver exactement le même arbre qu’avec le nœud TREE (hé non, ce serait trop simple !!!), sauf à ne pas avoir de valeurs manquantes dans les données (le nœud VARIABLE SELECTION traite les valeurs manquantes différemment de TREE).

La proc DMTREE fait partie des procédures spécifiques à Enterprise Miner. A partir de SAS 9, elle est remplacée par la proc ARBORETUM.