logo

Régression

Régression : structure des données pour l’utilisation de la proc PHREG

Bonjour, je souhaite réaliser un score « durée de conservation d’un véhicule » à l’aide de la proc PHREG. Je voulais savoir s’il était possible d’avoir dans la table SAS plusieurs lignes par client. En effet l’unité d’observation étant le vehicule, il peut y en avoir au moins 2 par client. Cela pose-t-il un problème ? Sous quelle forme doivent apparaître les données ?   Comme pour toute modélisation, la question est de savoir si les observations sont indépendantes. Si vous travaillez […]

Régression : qualité d’un modèle avec la proc LOGISTIC

Pour déterminer la qualité de mon modèle logistique j’ai utilisé la valeur c qui est de 0.71 ; peut-on dire que dans 71% des cas le modèle est bien prédit ? sinon, quel indicateur utiliser ? merci.   Le c de 0,71 ne signifie pas qu’on a 71% de bonnes prédictions. Pour pouvoir donner ce genre d’indications, il faut : choisir un seuil pour transformer les prédictions continues (le score) en prédictions binaires (par exemple : 0,5 : si P_1 […]

Régression : modèle logistique polytomique

Bonjour, j’aimerai savoir à l’aide de quelles options sous sas peut on mesurer l’efficacité d’un modèle logistique polytomique (Y a 4 modalités). Est ce que l’on peut tracer les courbes roc, du lift et de concentration comme pour un modèle binaire ? Ou faut t’il tracer une courbe pour chacune des modalités de la variable Y ?? D’avance merci.   L’évaluation d’un modèle polytomique n’est pas simple, puisqu’on a 3 fonctions de score indépendantes pour Y à 4 modalités. La […]

Régression : la constante dans la proc logistic

Bonjour, on sait que pour la proc Logistic, la constante est la note moyenne des modalités de référence, mais qu’en est-il pour la Genmod ? Les modalités de référence y sont mises à 0 dans les sorties. Merci beaucoup.   Quand les coefficients de référence sont non nuls, la constante correspond au log de la proportion évènements / non-évènements sur l’ensemble de la population ; quand les coefficients de référence sont des zéros, la constante traduit le log de la […]

Régression : Modélisation d’un taux de destruction en assurance Dommages

Bonjour, je souhaite modéliser un taux de destruction (rapport du sinistre sur capital assure), dans des cases tarifaires (croisement de variables tarifaires). La loi beta est souvent utilisée pour cela (support sur [0,1]]. Je souhaitais utiliser GENMOD, mais la loi Beta ne fait pas partie de la famille exponentielle. Y a t-il une autre procédure plus adaptée ? Merci d’avance.   Les documents suivants (http://psychology.anu.edu.au/people/smithson/details/betareg/Readme.pdf, http://psychology.anu.edu.au/people/smithson/details/betareg/Smithson_Verkuilen06.pdf et des exemples sur http://psychology.anu.edu.au/people/smithson/details/betareg/exemples_SAS_beta_regression.sas) expliquent comment faire de la régression beta avec une […]

Régression : Intervalles de confiance par la proc LOGISTIC de SAS

Bonjour, J’utilise la proc LOGISTIC de SAS avec les options de sortie LOWER et UPPER permettant d’obtenir un intervalle de confiance autour de la probabilité PRED, celui-ci est construit par la méthode de Wald. Je suis capable de recalculer la probabilité sur une autre population que celle de la construction du score via la formule de score, mais je ne sais pas simuler la méthode de Wald utilisée car je ne connais pas sa formulation mathématique. Pouvez-vous me communiquer le […]

Régression : Régression logistique, nombre d’observations qui varie

Comment se fait-il que lors d’une « proc logistic » à l’autre, le nombre d’observations changent. En effet, j’ai effectué celle-ci sur une base de 55 variables puis sur une de 32 variables. Dans cette procédure je ne change pourtant pas les variables qui doivent entrer dans le modèle et je me retrouve avec dans la première situation le nombre complet de mes observations et dans l’autre un nombre moins important avec 430 données enlevées dues aux valeurs manquantes me dit-il. Comment […]

Régression : Régression logistique : quanti ou quali ?

Je voudrais connaitre comment faire pour savoir si les variables sont meilleures en classes ou en continues (pour les quantitatives). Faut-il les tester une par une sachant que j’en ai beaucoup ?   A priori, une variable quantitative n’est inclue comme continue que si elle a un impact linéaire sur la cote (rappel : cote = odd = P(Y=1|X)/P(Y=0|X) pour une variable X quanti donnée). Cela n’est pas systématique, mais quand c’est le cas, on obtient un modèle plus robuste […]

Régression : modélisation d’un prix

Je dois modéliser un prix. J’ai utlisé jusqu’à présent la PROC REG mais je ne sais pas comment intégrer les variables qualitatives (certaines ont un gand nombre de modalités: par exemple 15).   La procédure REG ne permet pas d’inclure des variables qualitatives dans le modèle. Il faut utiliser alors la proc GLM qui fonctionne de manière assez semblable. PROC GLM DATA = tableSAS ;    CLASS listeVariablesQuali ;    MODEL variableY = listeVariablesQuantiEtQuali / ESTIMATE ; LSMEANS variableQuali / PDIFF=ALL ; […]

Régression : Valider un modèle avec la proc LOGISTIC, préférer un modèle à un autre

Pour valider un modèle avec la V6 j’utilisais la proba correspondante au Khi 2 de la log vraisemblance. Avec la V8 le Khi 2 ne sort plus automatiquement, et je n’ai pas trouvé l’option pour le faire apparaître. Connaissez-vous cette option ? Ou d’une manière plus générale, quels sont les critères qui nous permettent de valider un modèle ? Lorsque l’on compare 2 modèles, et que les statistiques d’Akaike et de Schwartz ne sont pas plus petites pour le même […]

Régression : Sorties de la proc LOGISTIC, valeur de l’AUC

Que représente la valeur c obtenue dans la proc logistic ?   Il s’agit d’une manière de calculer l’aire située sous la courbe ROC. Cette aire (comprise entre 0,5 et 1) détermine le pouvoir discriminant du modèle. La courbe ROC met en regard la sensibilité et la spécificité du modèle, c’est à dire sa capacité à identifier correctement l’évènement, et sa capacité à identifier correctement le « non-évènement ». Donc entre deux modèles, celui qui a la plus forte valeur de c […]

Régression : Sorties de la proc LOGISTIC, option CTABLE

Comment lire les tableaux issus de l’option CTABLE d’une procédure LOGISTIC ?   On y trouve, pour différents seuils de score, les nombres et les pourcentages d’évènements reconnus comme tels, de non-évènements reconnus comme tels, et d’erreurs commises dans un sens ou dans l’autre. La colonne « CORRECT » donne le pourcentage de bonnes réponses fournies par le modèle. Le seuil de score permet de faire varier la frontière qu’identifie le modèle entre les évènements et les non-évènements. On peut proposer plusieurs […]

Régression : Prédiction à partir d’une proc LOGISTIC

Comment utiliser le modèle obtenu à l’aide d’une proc LOGISTIC dans le cadre d’une prévision ?   Le plus simple est d’ajouter aux données servant à construire le modèle celles que l’on souhaite prévoir ; pour ces dernières, on laisse la variable à prédire à valeur manquante. On met la table en entrée de la proc LOGISTIC, et toutes les observations ayant une valeur manquante ne sont pas utilisées pour le calcul des coefficients (donc on retrouve le modèle). En […]

Régression : Sommes de carrés et tests

Dans la procédure GLM, nous souhaiterions connaître la signification des tests : Type I SS Type II SS Type III SS Quels degré d’erreur est admis dans les calcul de la proc GLM ? peut on le changer ? Quel est le lien entre ces 3 tests et la significativité des variables ?   Il existe en fait 4 types de sommes de carrés des écarts (SS pour Sum of Squares) : ce sont des modes de calcul des parts […]

SAS/STAT : Proc GENMOD ou LOGISTIC ?

Bonjour, durant mon stage j’ai beaucoup utilisé le modèle logistique. J’ai finalement choisi la proc GENMOD, plus claire. Mais peut on obtenir les odds-ratios sur celle-ci ? ou bien ne sont-ils présents que sur la proc LOGISTIC ?   Bonjour. Personnellement, ma préférence va à la proc Logistic, plus complète et spécialisée. En particulier, et pour répondre à votre question, elle est la seule à produire des odds-ratios. Mais elle édite également, par rapport à Genmod, des critères de qualité […]

ODS : Récupérer les odds ratio dans une table

Bonjour, J’utilise la proc logistic pour calculer des odds ratio ajustés. Comment faire pour récupérer ces odds-ratio et leurs intervalles de confiance dans une table ? Merci. Bonjour. Il vous suffit de faire précéder votre PROC LOGISTIC de l’instruction suivante : ODS OUTPUT OddsRatios = nomTableSAS ; Pour fonctionner, il faut que cette instruction soit entre les instructions PROC LOGISTIC et RUN.

ODS : récupérer une p-value d’un test de Fisher

Dans la procédure REG, comment récupérer la pvalue du modèle dans une table ?   ODS OUTPUT ANOVA = work.maTable ; PROC REG DATA = … ;    … RUN ; QUIT ;

ODS : récupérer les coefficients d’un modèle

Bonjour, Suite à un problème de modélisation via la procédure PROC LOGISTIC, j’aimerais récupérer les coefficients estimés du modèle dans une table SAS afin de pouvoir utiliser ensuite, la procédure SCORE et ainsi attribuer des scores à d’autres individus. Quel est l’option qui permet cette manipulation ? Merci d’avance de votre aide. Faites précéder votre proc LOGISTIC par l’instruction suivante : ODS OUTPUT parameterEstimates = work.coeffs ; et vous retrouverez dans la table COEFFS de la bibliothèque WORK vos coefficients. […]

Graphiques : Distinction de points par des symboles

Bonjour, J’ai fait une régression dans la laquelle on me demande de distinguer les points par des symboles selon leur type. Il s’agit de mesures faites dans deux endroits différents et qu’on a combiné. Dans la régression de l’ensemble des points, il faut par des symboles, distinguer le provenance des observations sur le graphique de la régression. Merci d’avance   S’il s’agit juste d’une représentation graphique, alors dans la procédure GPLOT, la syntaxe PLOT varY * varX = varGroupe ; […]

Régression logistique : Équilibre populations, échantillons et application du modèle

Suite à une modélisation de variable binaire, j’utilise la PROC LOGISTIC de SAS 8.2. – Pour espérer obtenir de meilleurs résultats, faut-il équilibrer ma population de clients et de non clients? Exemple: expliquer une situation Y=1 alors que 80% de la population étudiée a Y=1, donne-t-il un poids trop important à ce groupe de clients ? – L’équilibre doit-il se faire dans l’échantillon d’apprentissage (70% de la population totale) sans s’en occuper dans l’échantillon test? – Après avoir obtenu les […]

Enterprise Miner : Prise en compte des formats (modèle LOGIT)

Bonjour, Sous EM, le modele LOGIT prend-t-il en compte les formats ou doit-on recoder en dur les modalités ?   A priori, si un format est attaché de manière permanente à la variable, SEM le prend en compte dans tout son diagramme. Pour le vérifier, vous pouvez aller dans le nœud INPUT DATA SOURCE, et faire un VIEW DISTRIBUTION de votre variable formatée. Si les catégories affichées correspondent au format, le nœud REGRESSION en tiendra compte. Sinon, vous devez coder […]

Régression : Matrice confusion sur échantillon test

Bonjour, J’ai effectué une régression logistique sur une table d’apprentissage contenant des variables explicatives continues et discrètes(option class de la proc logistique). Je souhaite savoir comment procéder pour obtenir la matrice de confusion sur l’échantillon test. Cela suppose le calcul au préalable des probabilités estimées sur l’échantillon test étant donné que je des explicatives continues et discrètes. Merci   Bonjour. Il n’existe pas d’option dans la procédure LOGISTIC pour prendre en compte un échantillon test (c’est le cas dans la […]

Enterprise Miner : Scoring à partir d’une régression

Je ne trouve pas la même note de score que SEM lors de la régression… En fait moi je considère que quand par exemple sur une variable à 2 modalités l’individu a la modalité 2 le coefficient de cette modalité 2 est égal à zéro alors que SEM prend comme coeff -(le coeff de la modalité 1)…
Exemple pour la variable détention de sécurité12, on a 2 modalités sec1 et sec2.. Sur la grille des coefficients, le coeff de sec1=0.23 et dans ce cas si un individu a la modalité 2, SEM va lui mettre un coeff de -0.23 alors que moi je lui mettrais zéro…
Ma question est : de quelle théorie sort-il cette règle? et qu’est ce que ça change et qui a raison?

Echantillon : A quelles règles doit répondre un échantillon pour une régression linéaire ?

Habituellement, quand je fais une régression, je travaille sur une variable binaire. En amont, je construis donc un échantillon 50-50 (50% de détenteurs // 50% de non détenteurs). Aujourd’hui, je dois réaliser une régression sur une variable continue mais je ne sais pas comment procéder pour réaliser un échantillon. S’agit-il d’un tirage aléatoire ?

Echantillon : Construction de score avec une régression logistique

Ma régression logistique concerne 39 651 individus. J’ai donc, dans un premier temps, effectué un échantillon équilibré à 50/50 et j’obtiens 2 204 individus (car 1 201 ont la modalité cible égale à 1). Par la suite il est nécessaire de réaliser un partitionnement 70/30. On m’a conseillé de prendre 70% pour l’entrainement et 30% pour la validation. Ce que je voudrais savoir c’est comment faire ce partitionnement sous SAS (et non Miner) ? Faut-il que les deux partitions soient elles aussi équilibrées en fonction de la cible (35% — >0 et 35% –>1 pour l’entrainement et 15% –>0 et 15% –>1 ) ? Et à quel moment la partition à 30% va t-elle intervenir pour la validation ?

Echantillon : Régression logistique – Equilibre populations, échantillons et application du modèle

Suite à une modélisation de variable binaire, j’utilise la PROC LOGISTIC de SAS 8.2. – Pour espérer obtenir de meilleurs résultats, faut-il équilibrer ma population de clients et de non clients?

Arbre de décision : Arbre de régression

J’aimerais effectuer un arbre de régression, à savoir un arbre avec une cible quantitative. Cela est-il possible avec Sas EM? Et si oui, comment?
Les arbres de décisions sont-ils possibles avec Sas Guide ou Sas Base?