logo

Enterprise Miner : Scoring à partir d’une régression

Je ne trouve pas la même note de score que SEM lors de la régression… En fait moi je considère que quand par exemple sur une variable à 2 modalités l’individu a la modalité 2 le coefficient de cette modalité 2 est égal à zéro alors que SEM prend comme coeff -(le coeff de la modalité 1)…
Exemple pour la variable détention de sécurité12, on a 2 modalités sec1 et sec2.. Sur la grille des coefficients, le coeff de sec1=0.23 et dans ce cas si un individu a la modalité 2, SEM va lui mettre un coeff de -0.23 alors que moi je lui mettrais zéro…
Ma question est : de quelle théorie sort-il cette règle? et qu’est ce que ça change et qui a raison?

 

Il s’agit d’une des petites subtilités du noeud régression : il fonctionne selon deux types de codage, donc d’évaluation des paramètres… Le premier, appelé DEVIATION, est celui par défaut. Il contraint la somme des paramètres à faire toujours 0, d’où l’obligation de prendre l’opposé comme coefficient du niveau de référence quand on a une variable binaire.
Le second modèle de codage, GLM, est celui qu’on a l’habitude de manipuler. (Y compris dans les procédures REG et LOGISTIC.) Il consiste à mettre 0 pour la modalité de référence, et à donner les autres coeffs en fonction.
Comme toujours, sur les fondements théoriques de leurs implémentations, les docs SAS restent d’une louable discrétion. En revanche, comment se débarrasser de ce codage bizarre ? Il suffit de cocher la case INPUT CODING = GLM au lieu du défaut INPUT CODING = DEVIATION. Cela se passe dans l’onglet MODEL OPTIONS, sous-onglet REGRESSION, dans le paramétrage de ce noeud.