SAS/Stat Archives - OD-Datamining

Score : construire un score d’appétence

Je dois calculer le score d’apptence pour le contrat auto et je voudrais savoir si je dois prendre en compte dans mon étude tous les clients ayant un contrat auto existant dans mon portefeuille ou uniquement les clients qui ont souscrit au contrat auto depuis deux ans par exemple Merci d’avance Bonjour. Il n’y a pas de réponse tranchée à votre question. Tout dépend des effectifs dont vous disposez. En gros : soit vous avez peu de contrats auto […]

Régression : structure des données pour l’utilisation de la proc PHREG

Bonjour, je souhaite réaliser un score « durée de conservation d’un véhicule » à l’aide de la proc PHREG. Je voulais savoir s’il était possible d’avoir dans la table SAS plusieurs lignes par client. En effet l’unité d’observation étant le vehicule, il peut y en avoir au moins 2 par client. Cela pose-t-il un problème ? Sous quelle forme doivent apparaître les données ? Comme pour toute modélisation, la question est de savoir si les observations sont indépendantes. Si vous travaillez […]

Régression : qualité d’un modèle avec la proc LOGISTIC

Pour déterminer la qualité de mon modèle logistique j’ai utilisé la valeur c qui est de 0.71 ; peut-on dire que dans 71% des cas le modèle est bien prédit ? sinon, quel indicateur utiliser ? merci. Le c de 0,71 ne signifie pas qu’on a 71% de bonnes prédictions. Pour pouvoir donner ce genre d’indications, il faut : choisir un seuil pour transformer les prédictions continues (le score) en prédictions binaires (par exemple : 0,5 : si P_1 […]

Régression : modèle logistique polytomique

Bonjour, j’aimerai savoir à l’aide de quelles options sous sas peut on mesurer l’efficacité d’un modèle logistique polytomique (Y a 4 modalités). Est ce que l’on peut tracer les courbes roc, du lift et de concentration comme pour un modèle binaire ? Ou faut t’il tracer une courbe pour chacune des modalités de la variable Y ?? D’avance merci. L’évaluation d’un modèle polytomique n’est pas simple, puisqu’on a 3 fonctions de score indépendantes pour Y à 4 modalités. La […]

Régression : la constante dans la proc logistic

Bonjour, on sait que pour la proc Logistic, la constante est la note moyenne des modalités de référence, mais qu’en est-il pour la Genmod ? Les modalités de référence y sont mises à 0 dans les sorties. Merci beaucoup. Quand les coefficients de référence sont non nuls, la constante correspond au log de la proportion évènements / non-évènements sur l’ensemble de la population ; quand les coefficients de référence sont des zéros, la constante traduit le log de la […]

Régression : Modélisation d’un taux de destruction en assurance Dommages

Bonjour, je souhaite modéliser un taux de destruction (rapport du sinistre sur capital assure), dans des cases tarifaires (croisement de variables tarifaires). La loi beta est souvent utilisée pour cela (support sur [0,1]]. Je souhaitais utiliser GENMOD, mais la loi Beta ne fait pas partie de la famille exponentielle. Y a t-il une autre procédure plus adaptée ? Merci d’avance. Les documents suivants (http://psychology.anu.edu.au/people/smithson/details/betareg/Readme.pdf, http://psychology.anu.edu.au/people/smithson/details/betareg/Smithson_Verkuilen06.pdf et des exemples sur http://psychology.anu.edu.au/people/smithson/details/betareg/exemples_SAS_beta_regression.sas) expliquent comment faire de la régression beta avec une […]

Régression : Intervalles de confiance par la proc LOGISTIC de SAS

Bonjour, J’utilise la proc LOGISTIC de SAS avec les options de sortie LOWER et UPPER permettant d’obtenir un intervalle de confiance autour de la probabilité PRED, celui-ci est construit par la méthode de Wald. Je suis capable de recalculer la probabilité sur une autre population que celle de la construction du score via la formule de score, mais je ne sais pas simuler la méthode de Wald utilisée car je ne connais pas sa formulation mathématique. Pouvez-vous me communiquer le […]

Régression : Régression logistique, nombre d’observations qui varie

Comment se fait-il que lors d’une « proc logistic » à l’autre, le nombre d’observations changent. En effet, j’ai effectué celle-ci sur une base de 55 variables puis sur une de 32 variables. Dans cette procédure je ne change pourtant pas les variables qui doivent entrer dans le modèle et je me retrouve avec dans la première situation le nombre complet de mes observations et dans l’autre un nombre moins important avec 430 données enlevées dues aux valeurs manquantes me dit-il. Comment […]

Régression : Régression logistique : quanti ou quali ?

Je voudrais connaitre comment faire pour savoir si les variables sont meilleures en classes ou en continues (pour les quantitatives). Faut-il les tester une par une sachant que j’en ai beaucoup ? A priori, une variable quantitative n’est inclue comme continue que si elle a un impact linéaire sur la cote (rappel : cote = odd = P(Y=1|X)/P(Y=0|X) pour une variable X quanti donnée). Cela n’est pas systématique, mais quand c’est le cas, on obtient un modèle plus robuste […]

Régression : modélisation d’un prix

Je dois modéliser un prix. J’ai utlisé jusqu’à présent la PROC REG mais je ne sais pas comment intégrer les variables qualitatives (certaines ont un gand nombre de modalités: par exemple 15). La procédure REG ne permet pas d’inclure des variables qualitatives dans le modèle. Il faut utiliser alors la proc GLM qui fonctionne de manière assez semblable. PROC GLM DATA = tableSAS ; CLASS listeVariablesQuali ; MODEL variableY = listeVariablesQuantiEtQuali / ESTIMATE ; LSMEANS variableQuali / PDIFF=ALL ; […]

Régression : Valider un modèle avec la proc LOGISTIC, préférer un modèle à un autre

Pour valider un modèle avec la V6 j’utilisais la proba correspondante au Khi 2 de la log vraisemblance. Avec la V8 le Khi 2 ne sort plus automatiquement, et je n’ai pas trouvé l’option pour le faire apparaître. Connaissez-vous cette option ? Ou d’une manière plus générale, quels sont les critères qui nous permettent de valider un modèle ? Lorsque l’on compare 2 modèles, et que les statistiques d’Akaike et de Schwartz ne sont pas plus petites pour le même […]

Régression : Sorties de la proc LOGISTIC, valeur de l’AUC

Que représente la valeur c obtenue dans la proc logistic ? Il s’agit d’une manière de calculer l’aire située sous la courbe ROC. Cette aire (comprise entre 0,5 et 1) détermine le pouvoir discriminant du modèle. La courbe ROC met en regard la sensibilité et la spécificité du modèle, c’est à dire sa capacité à identifier correctement l’évènement, et sa capacité à identifier correctement le « non-évènement ». Donc entre deux modèles, celui qui a la plus forte valeur de c […]

Régression : Sorties de la proc LOGISTIC, option CTABLE

Comment lire les tableaux issus de l’option CTABLE d’une procédure LOGISTIC ? On y trouve, pour différents seuils de score, les nombres et les pourcentages d’évènements reconnus comme tels, de non-évènements reconnus comme tels, et d’erreurs commises dans un sens ou dans l’autre. La colonne « CORRECT » donne le pourcentage de bonnes réponses fournies par le modèle. Le seuil de score permet de faire varier la frontière qu’identifie le modèle entre les évènements et les non-évènements. On peut proposer plusieurs […]

Régression : Prédiction à partir d’une proc LOGISTIC

Comment utiliser le modèle obtenu à l’aide d’une proc LOGISTIC dans le cadre d’une prévision ? Le plus simple est d’ajouter aux données servant à construire le modèle celles que l’on souhaite prévoir ; pour ces dernières, on laisse la variable à prédire à valeur manquante. On met la table en entrée de la proc LOGISTIC, et toutes les observations ayant une valeur manquante ne sont pas utilisées pour le calcul des coefficients (donc on retrouve le modèle). En […]

Régression : Sommes de carrés et tests

Dans la procédure GLM, nous souhaiterions connaître la signification des tests : Type I SS Type II SS Type III SS Quels degré d’erreur est admis dans les calcul de la proc GLM ? peut on le changer ? Quel est le lien entre ces 3 tests et la significativité des variables ? Il existe en fait 4 types de sommes de carrés des écarts (SS pour Sum of Squares) : ce sont des modes de calcul des parts […]

ODS : n’afficher que certains quantiles dans la proc UNIVARIATE

je fais une PROC UNIVARIATE. Je m’intéresse au P90. Comment sortir spécifiquement ces stats ? (comme le nombre d’obs…) Par « sortir », vous entendez « … dans une table » ou « n’afficher que… » ? Dans le premier cas, on peut utiliser l’ODS OUTPUT, dans le second, ODS SELECT. Dans les deux cas, on doit connaître le nom de l’objet ODS (le bout de sortie) que l’on veut manipuler. Pour le connaître, on peut exécuter la proc ainsi : ODS TRACE ON / […]

SAS/STAT : Proc GENMOD ou LOGISTIC ?

Bonjour, durant mon stage j’ai beaucoup utilisé le modèle logistique. J’ai finalement choisi la proc GENMOD, plus claire. Mais peut on obtenir les odds-ratios sur celle-ci ? ou bien ne sont-ils présents que sur la proc LOGISTIC ? Bonjour. Personnellement, ma préférence va à la proc Logistic, plus complète et spécialisée. En particulier, et pour répondre à votre question, elle est la seule à produire des odds-ratios. Mais elle édite également, par rapport à Genmod, des critères de qualité […]

ODS : Récupérer les odds ratio dans une table

Bonjour, J’utilise la proc logistic pour calculer des odds ratio ajustés. Comment faire pour récupérer ces odds-ratio et leurs intervalles de confiance dans une table ? Merci. Bonjour. Il vous suffit de faire précéder votre PROC LOGISTIC de l’instruction suivante : ODS OUTPUT OddsRatios = nomTableSAS ; Pour fonctionner, il faut que cette instruction soit entre les instructions PROC LOGISTIC et RUN.

ODS : l’option NOPRINT ne marche pas avec la proc TTEST

Bonjour, Quelle option (ou démarche) utiliser pour éviter des sorties html de sas avec la proc ttest? Étant donné que je travaille sur un grand nombre de variables, je ne veux récupérer que les satistiques dans des tables sas avec l’option « ods output equality= statistics= ttests= « . En lançant cette procédure sur 240 variables et 59 300 individus, sas me renvoie un message selon lequel mes résultats sont trop volumineux au point de nécessiter beaucoup de ressources système. Le problème […]

ODS : récupérer une p-value d’un test de Fisher

Dans la procédure REG, comment récupérer la pvalue du modèle dans une table ? ODS OUTPUT ANOVA = work.maTable ; PROC REG DATA = … ; … RUN ; QUIT ;

ODS : récupérer les coefficients d’un modèle

Bonjour, Suite à un problème de modélisation via la procédure PROC LOGISTIC, j’aimerais récupérer les coefficients estimés du modèle dans une table SAS afin de pouvoir utiliser ensuite, la procédure SCORE et ainsi attribuer des scores à d’autres individus. Quel est l’option qui permet cette manipulation ? Merci d’avance de votre aide. Faites précéder votre proc LOGISTIC par l’instruction suivante : ODS OUTPUT parameterEstimates = work.coeffs ; et vous retrouverez dans la table COEFFS de la bibliothèque WORK vos coefficients. […]

Régression logistique : Équilibre populations, échantillons et application du modèle

Suite à une modélisation de variable binaire, j’utilise la PROC LOGISTIC de SAS 8.2. – Pour espérer obtenir de meilleurs résultats, faut-il équilibrer ma population de clients et de non clients? Exemple: expliquer une situation Y=1 alors que 80% de la population étudiée a Y=1, donne-t-il un poids trop important à ce groupe de clients ? – L’équilibre doit-il se faire dans l’échantillon d’apprentissage (70% de la population totale) sans s’en occuper dans l’échantillon test? – Après avoir obtenu les […]

Régression : Matrice confusion sur échantillon test

Bonjour, J’ai effectué une régression logistique sur une table d’apprentissage contenant des variables explicatives continues et discrètes(option class de la proc logistique). Je souhaite savoir comment procéder pour obtenir la matrice de confusion sur l’échantillon test. Cela suppose le calcul au préalable des probabilités estimées sur l’échantillon test étant donné que je des explicatives continues et discrètes. Merci Bonjour. Il n’existe pas d’option dans la procédure LOGISTIC pour prendre en compte un échantillon test (c’est le cas dans la […]

Echantillon : Quantiles avec univariate

je dispose d’une table SAS de la densité d’une variable discréte (modalité + proba) et je voudrais les quantiles mais la proc univariate n’accepte pas des valeurs < 1 dans son option FREQ. Comme j'ai certaines proba trés faibles si je multiplie ma freq par 1000, je risque de perdre de l'info et si je multiplie par un nombre trés grand, la proc TABULATE est limitée !

Echantillon : Construction de score avec une régression logistique

Ma régression logistique concerne 39 651 individus. J’ai donc, dans un premier temps, effectué un échantillon équilibré à 50/50 et j’obtiens 2 204 individus (car 1 201 ont la modalité cible égale à 1). Par la suite il est nécessaire de réaliser un partitionnement 70/30. On m’a conseillé de prendre 70% pour l’entrainement et 30% pour la validation. Ce que je voudrais savoir c’est comment faire ce partitionnement sous SAS (et non Miner) ? Faut-il que les deux partitions soient elles aussi équilibrées en fonction de la cible (35% — >0 et 35% –>1 pour l’entrainement et 15% –>0 et 15% –>1 ) ? Et à quel moment la partition à 30% va t-elle intervenir pour la validation ?

Echantillon : Comment réaliser un échatillon stratifié comme avec SEM avec la PROC SURVEYSELECT

Je souhaiterai savoir comment faire un échantillonnage stratifié (sur une ou plusieurs variables qualitatives) avec la PROC SURVEYLECT comme le fait le noeud SAMPLING de SEM.

Echantillon : Régression logistique – Equilibre populations, échantillons et application du modèle

Classification : cubic clustring criterion

Bonjour, si le CCC de la proc FASTCLUS est très très négatif, comment puis-je le corriger? J’ai essayé de changer le nombre de classes mais cela ne marche pas.

Classification : Classification à l’aide de la proc fastclus et la proc cluster

Je désire effectuer une CAH sous sas avec la PROC FASTCLUS suivi de la PROC CLUSTER car ma base de données est volumineuse.
J’aimerai savoir s’il existe une option permettant de fixer le nombre minimum d’individus acceptés dans chacune des classes afin de ne pas se retrouver avec des classes comportant 10 individus et une autre 5000.

Classification : Classification sur variables qualitatives

J’ai besoin de faire une classification sur des individus décrits par des variables discrètes. Est-ce qu’il me suffit de travailler sur des indicatrices de ces variables ?

Arbre de décision : Programme SAS

Bonjour, je suis en stage et je voudrais réaliser un arbre de décision sous SAS. Je voudrais connaître la forme du programme permettant de construire un arbre de décision sous SAS. Merci d’avance

Arbre de décision : Sélection de variables avec le Chi-2

Je me pose des questions sur la sélection de variables sous SEM : en effet le test du chi-deux proposé ne semble pas correspondre au test du chi-deux sous SAS (PROC FREQ avec option CHISQ). Qu’en est-il vraiment? je suis allée voir ce que faisait SEM dans le Program Editor et il fait une PROC DMSPLIT : qu’est-ce que c’est que cette PROC ? Dans quel module est-elle disponible ?

Score : Analyse discriminante qualitative (DISQUAL)

Bonjour,

Je souhaiterai réaliser une analyse discriminante qualitative via la méthode DISQUAL. Je sais qu’il faut réaliser une ACM pour transformer les variables qualitatives en variable quantitatives et que c’est à partir des résultats des facteurs de l’ACM que je pourrai ensuite effectuer l’analyse discriminante.

Analyse de données : Tableau Disjonctif Complet et BDD volumineuse

Bonjour, Voilà mon souci : je voudrais faire une Classification sur une énorme base (env 2 millions de lignes). Ce sont des données qualitatives, alors je dois passer par une ACM, donc construire un Tableau Disjonctif Complet (en tout j’ai 3 variables et 11*97*18 modalités). Seulement SAS bloque un peu beaucoup (il a mouliné toute la nuit et n’a pas avancé…)! La proc transreg que vous proposez dans cette FAQ n’est-elle pas appropriée ici? Ma base est-elle trop volumineuse pour un tel traitement? Si oui, comment faire ma classification? Merci beaucoup pour votre éclairage!

Analyse de données : Macro pour dessiner les AFCM, ACP, AFC avec SAS Base

Bonjour, j’aurais aimé savoir s’il existe une petite macro pour dessiner le graphique des axes factoriels des données obtenues par la proc corresp ?
Jusqu’à présent, je ne peux que tout envoyer sous Excel et faire un lourd traitement car on ne peut avoir le nom des modamités sur le graphiques en même temps que les points…
Merci d’avance !

SAS/Stat