logo

Régression : Sommes de carrés et tests

Dans la procédure GLM, nous souhaiterions connaître la signification des tests :

  • Type I SS
  • Type II SS
  • Type III SS

Quels degré d’erreur est admis dans les calcul de la proc GLM ? peut on le changer ?
Quel est le lien entre ces 3 tests et la significativité des variables ?

 

Il existe en fait 4 types de sommes de carrés des écarts (SS pour Sum of Squares) : ce sont des modes de calcul des parts de variance expliquée par chacune des variables du modèle. Ces sommes ne sont différentes que dans le cas de plans déséquilibrés (pas le même nombre d’observations pour tous les cas de figures).

  • Types I et III : sommes de carrés sur les EFFETS SIMPLES. C’est à dire la contribution de chacune des variables explicatives, sans les croiser entre elles. Le type I les introduit dans le même ordre que dans l’instruction MODEL, tandis que le type III corrige le biais dû à cet ordre (en fait, c’est comme s’il n’en tenait pas compte).
  • Types II : il inclut les effets croisés.
  • Type IV : il permet de prendre en compte les données « trouées » (certains cas de figures ne se présentent pas).

L’interprétation des tests de type II et IV est plus délicate, aussi est-il recommandé d’utiliser plutôt les résultats du type III, à moins que l’ordre d’énumération des variables ait un sens.
Il s’agit en fait de tester si la contribution de la variable à l’explication de la variance est significativement non nulle. Ces tests sont acceptés, en général, quand la p-value est inférieure à 5% (10% sur de très petits ensembles de données).

On utilise ces indications pour les analyses de la variance, tandis que les coefficients permettent, eux, de faire des régressions linéaires. Il ne s’agit donc pas du même problème.