logo

Régression : Régression logistique : quanti ou quali ?

Je voudrais connaitre comment faire pour savoir si les variables sont meilleures en classes ou en continues (pour les quantitatives). Faut-il les tester une par une sachant que j’en ai beaucoup ?

 

A priori, une variable quantitative n’est inclue comme continue que si elle a un impact linéaire sur la cote (rappel : cote = odd = P(Y=1|X)/P(Y=0|X) pour une variable X quanti donnée). Cela n’est pas systématique, mais quand c’est le cas, on obtient un modèle plus robuste qu’en coupant en classes, car il n’y a qu’un seul coefficient et non autant que de classes.

Cela dit, d’une manière systématique, un modèle n’ayant en entrée que des variables discrètes sera meilleur que celui ayant en entrée les variables quanti d’origine : le 1er des deux a plus de coefficients, donc plus de degrés de liberté pour ajuster correctement les données. Il est aussi moins robuste, et donc moins stable en prédiction.

Je vous recommande donc de ne mettre en classes que les variables quanti dont l’impact n’est clairement pas linéaire.

Ce qui nous amène à la question de savoir, comment repère-t-on cette linéarité ? Elle se voit sur un graphique comportant la variable X en abcisses et le log de la cote (log-odds) en ordonnée : on se ramène alors au cas d’une régression linéaire, en recherchant un alignement d’un maximum de points, ou à tout le moins une tendance assez linéaire dans le nuage de points. S’il y a une boule à l’écran, ou une parabole, alors dans le premier cas la variable est vraisemblablement inutile, dans le second, une mise en classes s’impose.