logo

Régression : structure des données pour l’utilisation de la proc PHREG

Bonjour,
je souhaite réaliser un score « durée de conservation d’un véhicule » à l’aide de la proc PHREG.

Je voulais savoir s’il était possible d’avoir dans la table SAS plusieurs lignes par client. En effet l’unité d’observation étant le vehicule, il peut y en avoir au moins 2 par client.
Cela pose-t-il un problème ? Sous quelle forme doivent apparaître les données ?

 

Comme pour toute modélisation, la question est de savoir si les observations sont indépendantes. Si vous travaillez exclusivement sur les caractéristiques des véhicules et de leur contrat, on peut considérer que les données que vous voulez attaquer sont effectivement indépendantes. Si vous ajoutez au modèle les caractéristiques des propriétaires, cela peut conduire à des observations considérées comme répétées. Cependant, ce n’est qu’une question d’appréciation : ce n’est pas parce qu’on ajoute l’âge en tranches du propriétaire par exemple que cela va grandement modifier l’indépendance des observations.
En tout cas, au pire, il s’agit d’un petit biais par rapport à la théorie, qui va conduire votre modèle à sous-estimer la variance de vos coefficients et peut-être, au pire, à vous indiquer comme significatifs des coefficients qui ne le sont pas.