logo

Echantillon : A quelles règles doit répondre un échantillon pour une régression linéaire ?

Bonjour,

Habituellement, quand je fais une régression, je travaille sur une variable binaire. En amont, je construis donc un échantillon 50-50 (50% de détenteurs // 50% de non détenteurs). Aujourd’hui, je dois réaliser une régression sur une variable continue mais je ne sais pas comment procéder pour réaliser un échantillon. S’agit-il d’un tirage aléatoire ?

Merci d’avance pour votre réponse.

Bonjour.

Pour une régression linéaire, il n’y a pas d’intérêt particulier à pratiquer un échantillonnage « orienté » au préalable. Un échantillon aléatoire est amplement suffisant si vous disposez de données trop volumineuses.
En outre, travailler sur de plus faibles volumes de données vous permettra d’avoir des p-values plus réalistes pour les divers tests associés au modèle linéaire (Fisher, coefficients du modèle) que sur des milliers d’observations qui fournissent presque toujours des p-values inférieures à 0,0001.

Deux contraintes sont en revanche très importantes à satisfaire dans le cadre du modèle linéaire :

  • la variable Y expliquée doit suivre une loi normale, ou au moins être unimodale (un seul pic de fréquence parmi ses modalités) et à peu près symétrique. Sinon, vous devez la transformer (avec un logarithme par exemple si elle est asymétrique) ou vous tourner vers un modèle linéaire généralisé (PROC GENMOD de SAS) qui vous permettra de préciser une autre loi que la loi normale pour Y ;
  • les variables explicatives doivent être autant que possibles indépendantes les unes des autres. Comme dans tous les modèles linéaires, la multicolinéarité engendre de grandes instabilités dans les coefficients du modèle. La procédure REG propose des critères comme le VIF pour évaluer la multicolinéarité, à condition de travailler uniquement sur des variables explicatives quantitatives. Si ce n’est pas le cas et que vous utilisez la PROC GLM, alors une étude préalable des liaisons entre variables (ACM, tests du chi-2) serait la bienvenue.