Data Science & Big Data Archives

Séries temporelles : ARIMA – Ecriture du modèle

Bonjour, Comment traduire un modèle issu de la procédure PROC ARIMA (Ex : Factor 1: 1 – 0.52379 B**(1)) en une équation de prévision telle Xt en fonction de Xt-1, Xt-12, … ? Merci d’avance de votre réponse. Deux solutions : la proc ARIMA a une option FORECAST (avec une option LEAD pour indiquer le nombre de périodes pour lesquelles calculer des valeurs) pour créer une table de prévisions vous pouvez mettre en œuvre l’équation de prévision dans une […]

Séries temporelles : SARIMA

Bonjour, Le programme pour un ARIMA ((011)(011)12) est-il… proc arima data=a.s1; identify var=prod(1,12) nlag=24 noprint; estimate q=(1)(12) ; run; quit; ou proc arima data=a.s1; identify var=prod(1,12) nlag=24 noprint; estimate q=(1)(12) Q=(1)(12) ; run; quit; ??? merci Bonjour. On suppose qu’on cherche à estimer un processus SARIMA (p,d,q)(P,D,Q)s. Dans l’instruction ESTIMATE vous devez indiquer P,p, Q et q, avec une syntaxe qui défie un peu la logique : ESTIMATE P=(p)(P) Q=(q Q) ; En revanche, comme SAS ne fait pas […]

Séries temporelles : lire les autocorrélogrammes

Comment choisir p et q (pour un processus ARMA(p,q)) en lisant un autocorrélogramme? Merci Bonjour. Voici un petit extrait de support de cours sur la question. Dans SAS, outre les auto-corrélogrammes produits par la procédure ARIMA, il y a la possibilité de laisser SAS proposer ses rangs de modèle ARMA avec la procédure HPFDIAGNOSE incluse dans le très coûteux module Forecast Server.

Score : construire un score d’appétence

Je dois calculer le score d’apptence pour le contrat auto et je voudrais savoir si je dois prendre en compte dans mon étude tous les clients ayant un contrat auto existant dans mon portefeuille ou uniquement les clients qui ont souscrit au contrat auto depuis deux ans par exemple Merci d’avance Bonjour. Il n’y a pas de réponse tranchée à votre question. Tout dépend des effectifs dont vous disposez. En gros : soit vous avez peu de contrats auto […]

Régression : structure des données pour l’utilisation de la proc PHREG

Bonjour, je souhaite réaliser un score « durée de conservation d’un véhicule » à l’aide de la proc PHREG. Je voulais savoir s’il était possible d’avoir dans la table SAS plusieurs lignes par client. En effet l’unité d’observation étant le vehicule, il peut y en avoir au moins 2 par client. Cela pose-t-il un problème ? Sous quelle forme doivent apparaître les données ? Comme pour toute modélisation, la question est de savoir si les observations sont indépendantes. Si vous travaillez […]

Régression : qualité d’un modèle avec la proc LOGISTIC

Pour déterminer la qualité de mon modèle logistique j’ai utilisé la valeur c qui est de 0.71 ; peut-on dire que dans 71% des cas le modèle est bien prédit ? sinon, quel indicateur utiliser ? merci. Le c de 0,71 ne signifie pas qu’on a 71% de bonnes prédictions. Pour pouvoir donner ce genre d’indications, il faut : choisir un seuil pour transformer les prédictions continues (le score) en prédictions binaires (par exemple : 0,5 : si P_1 […]

Régression : modèle logistique polytomique

Bonjour, j’aimerai savoir à l’aide de quelles options sous sas peut on mesurer l’efficacité d’un modèle logistique polytomique (Y a 4 modalités). Est ce que l’on peut tracer les courbes roc, du lift et de concentration comme pour un modèle binaire ? Ou faut t’il tracer une courbe pour chacune des modalités de la variable Y ?? D’avance merci. L’évaluation d’un modèle polytomique n’est pas simple, puisqu’on a 3 fonctions de score indépendantes pour Y à 4 modalités. La […]

Régression : la constante dans la proc logistic

Bonjour, on sait que pour la proc Logistic, la constante est la note moyenne des modalités de référence, mais qu’en est-il pour la Genmod ? Les modalités de référence y sont mises à 0 dans les sorties. Merci beaucoup. Quand les coefficients de référence sont non nuls, la constante correspond au log de la proportion évènements / non-évènements sur l’ensemble de la population ; quand les coefficients de référence sont des zéros, la constante traduit le log de la […]

Régression : Modélisation d’un taux de destruction en assurance Dommages

Bonjour, je souhaite modéliser un taux de destruction (rapport du sinistre sur capital assure), dans des cases tarifaires (croisement de variables tarifaires). La loi beta est souvent utilisée pour cela (support sur [0,1]]. Je souhaitais utiliser GENMOD, mais la loi Beta ne fait pas partie de la famille exponentielle. Y a t-il une autre procédure plus adaptée ? Merci d’avance. Les documents suivants (http://psychology.anu.edu.au/people/smithson/details/betareg/Readme.pdf, http://psychology.anu.edu.au/people/smithson/details/betareg/Smithson_Verkuilen06.pdf et des exemples sur http://psychology.anu.edu.au/people/smithson/details/betareg/exemples_SAS_beta_regression.sas) expliquent comment faire de la régression beta avec une […]

Régression : Intervalles de confiance par la proc LOGISTIC de SAS

Bonjour, J’utilise la proc LOGISTIC de SAS avec les options de sortie LOWER et UPPER permettant d’obtenir un intervalle de confiance autour de la probabilité PRED, celui-ci est construit par la méthode de Wald. Je suis capable de recalculer la probabilité sur une autre population que celle de la construction du score via la formule de score, mais je ne sais pas simuler la méthode de Wald utilisée car je ne connais pas sa formulation mathématique. Pouvez-vous me communiquer le […]

Régression : Régression logistique, nombre d’observations qui varie

Comment se fait-il que lors d’une « proc logistic » à l’autre, le nombre d’observations changent. En effet, j’ai effectué celle-ci sur une base de 55 variables puis sur une de 32 variables. Dans cette procédure je ne change pourtant pas les variables qui doivent entrer dans le modèle et je me retrouve avec dans la première situation le nombre complet de mes observations et dans l’autre un nombre moins important avec 430 données enlevées dues aux valeurs manquantes me dit-il. Comment […]

Régression : Régression logistique : quanti ou quali ?

Je voudrais connaitre comment faire pour savoir si les variables sont meilleures en classes ou en continues (pour les quantitatives). Faut-il les tester une par une sachant que j’en ai beaucoup ? A priori, une variable quantitative n’est inclue comme continue que si elle a un impact linéaire sur la cote (rappel : cote = odd = P(Y=1|X)/P(Y=0|X) pour une variable X quanti donnée). Cela n’est pas systématique, mais quand c’est le cas, on obtient un modèle plus robuste […]

Régression : modélisation d’un prix

Je dois modéliser un prix. J’ai utlisé jusqu’à présent la PROC REG mais je ne sais pas comment intégrer les variables qualitatives (certaines ont un gand nombre de modalités: par exemple 15). La procédure REG ne permet pas d’inclure des variables qualitatives dans le modèle. Il faut utiliser alors la proc GLM qui fonctionne de manière assez semblable. PROC GLM DATA = tableSAS ; CLASS listeVariablesQuali ; MODEL variableY = listeVariablesQuantiEtQuali / ESTIMATE ; LSMEANS variableQuali / PDIFF=ALL ; […]

Régression : Valider un modèle avec la proc LOGISTIC, préférer un modèle à un autre

Pour valider un modèle avec la V6 j’utilisais la proba correspondante au Khi 2 de la log vraisemblance. Avec la V8 le Khi 2 ne sort plus automatiquement, et je n’ai pas trouvé l’option pour le faire apparaître. Connaissez-vous cette option ? Ou d’une manière plus générale, quels sont les critères qui nous permettent de valider un modèle ? Lorsque l’on compare 2 modèles, et que les statistiques d’Akaike et de Schwartz ne sont pas plus petites pour le même […]

Régression : Sorties de la proc LOGISTIC, valeur de l’AUC

Que représente la valeur c obtenue dans la proc logistic ? Il s’agit d’une manière de calculer l’aire située sous la courbe ROC. Cette aire (comprise entre 0,5 et 1) détermine le pouvoir discriminant du modèle. La courbe ROC met en regard la sensibilité et la spécificité du modèle, c’est à dire sa capacité à identifier correctement l’évènement, et sa capacité à identifier correctement le « non-évènement ». Donc entre deux modèles, celui qui a la plus forte valeur de c […]

Régression : Sorties de la proc LOGISTIC, option CTABLE

Comment lire les tableaux issus de l’option CTABLE d’une procédure LOGISTIC ? On y trouve, pour différents seuils de score, les nombres et les pourcentages d’évènements reconnus comme tels, de non-évènements reconnus comme tels, et d’erreurs commises dans un sens ou dans l’autre. La colonne « CORRECT » donne le pourcentage de bonnes réponses fournies par le modèle. Le seuil de score permet de faire varier la frontière qu’identifie le modèle entre les évènements et les non-évènements. On peut proposer plusieurs […]

Régression : Prédiction à partir d’une proc LOGISTIC

Comment utiliser le modèle obtenu à l’aide d’une proc LOGISTIC dans le cadre d’une prévision ? Le plus simple est d’ajouter aux données servant à construire le modèle celles que l’on souhaite prévoir ; pour ces dernières, on laisse la variable à prédire à valeur manquante. On met la table en entrée de la proc LOGISTIC, et toutes les observations ayant une valeur manquante ne sont pas utilisées pour le calcul des coefficients (donc on retrouve le modèle). En […]

Régression : Sommes de carrés et tests

Dans la procédure GLM, nous souhaiterions connaître la signification des tests : Type I SS Type II SS Type III SS Quels degré d’erreur est admis dans les calcul de la proc GLM ? peut on le changer ? Quel est le lien entre ces 3 tests et la significativité des variables ? Il existe en fait 4 types de sommes de carrés des écarts (SS pour Sum of Squares) : ce sont des modes de calcul des parts […]

ODS : n’afficher que certains quantiles dans la proc UNIVARIATE

je fais une PROC UNIVARIATE. Je m’intéresse au P90. Comment sortir spécifiquement ces stats ? (comme le nombre d’obs…) Par « sortir », vous entendez « … dans une table » ou « n’afficher que… » ? Dans le premier cas, on peut utiliser l’ODS OUTPUT, dans le second, ODS SELECT. Dans les deux cas, on doit connaître le nom de l’objet ODS (le bout de sortie) que l’on veut manipuler. Pour le connaître, on peut exécuter la proc ainsi : ODS TRACE ON / […]

SAS/STAT : Proc GENMOD ou LOGISTIC ?

Bonjour, durant mon stage j’ai beaucoup utilisé le modèle logistique. J’ai finalement choisi la proc GENMOD, plus claire. Mais peut on obtenir les odds-ratios sur celle-ci ? ou bien ne sont-ils présents que sur la proc LOGISTIC ? Bonjour. Personnellement, ma préférence va à la proc Logistic, plus complète et spécialisée. En particulier, et pour répondre à votre question, elle est la seule à produire des odds-ratios. Mais elle édite également, par rapport à Genmod, des critères de qualité […]

ODS : Récupérer les odds ratio dans une table

Bonjour, J’utilise la proc logistic pour calculer des odds ratio ajustés. Comment faire pour récupérer ces odds-ratio et leurs intervalles de confiance dans une table ? Merci. Bonjour. Il vous suffit de faire précéder votre PROC LOGISTIC de l’instruction suivante : ODS OUTPUT OddsRatios = nomTableSAS ; Pour fonctionner, il faut que cette instruction soit entre les instructions PROC LOGISTIC et RUN.

ODS : l’option NOPRINT ne marche pas avec la proc TTEST

Bonjour, Quelle option (ou démarche) utiliser pour éviter des sorties html de sas avec la proc ttest? Étant donné que je travaille sur un grand nombre de variables, je ne veux récupérer que les satistiques dans des tables sas avec l’option « ods output equality= statistics= ttests= « . En lançant cette procédure sur 240 variables et 59 300 individus, sas me renvoie un message selon lequel mes résultats sont trop volumineux au point de nécessiter beaucoup de ressources système. Le problème […]

ODS : récupérer une p-value d’un test de Fisher

Dans la procédure REG, comment récupérer la pvalue du modèle dans une table ? ODS OUTPUT ANOVA = work.maTable ; PROC REG DATA = … ; … RUN ; QUIT ;

ODS : récupérer les coefficients d’un modèle

Bonjour, Suite à un problème de modélisation via la procédure PROC LOGISTIC, j’aimerais récupérer les coefficients estimés du modèle dans une table SAS afin de pouvoir utiliser ensuite, la procédure SCORE et ainsi attribuer des scores à d’autres individus. Quel est l’option qui permet cette manipulation ? Merci d’avance de votre aide. Faites précéder votre proc LOGISTIC par l’instruction suivante : ODS OUTPUT parameterEstimates = work.coeffs ; et vous retrouverez dans la table COEFFS de la bibliothèque WORK vos coefficients. […]

Graphiques : Distinction de points par des symboles

Bonjour, J’ai fait une régression dans la laquelle on me demande de distinguer les points par des symboles selon leur type. Il s’agit de mesures faites dans deux endroits différents et qu’on a combiné. Dans la régression de l’ensemble des points, il faut par des symboles, distinguer le provenance des observations sur le graphique de la régression. Merci d’avance S’il s’agit juste d’une représentation graphique, alors dans la procédure GPLOT, la syntaxe PLOT varY * varX = varGroupe ; […]

Enterprise Miner : Valeurs manquantes

Dans Enterprise Miner, comment sont gérées les variables manquantes ? Généralement (sauf dans le noeud « Arbre de Décision »), les observations comportant au moins une valeur manquante sont exclues de l’analyse. On peut choisir de les compléter au préalable avec le nœud Replacement, ou avec un nœud SAS Code faisant appel à la PROC MI. Dans le nœud Arbre de Décision, on peut utiliser la valeur manquante comme une valeur à part entière, ou exclure les observations incomplètes comme dans […]

Enterprise Miner : Structure des réseaux de neurones

Les réseaux de neurones de SEM comprennent-ils toujours une seule couche cachée ? On peut forcer le nombre de couches cachées, pour cela il faut aller dans l’interface avancée (cocher ADVANCED USER INTERFACE dans l’onglet GENERAL) et cliquer droit n’importe où : on a la fonctionnalité ADD HIDDEN LAYER qui doit être disponible. Relier comme on le souhaite les couches.

Enterprise Miner : Sélection de variables avec le Chi-2

Je me pose des questions sur la sélection de variables sous SEM : en effet le test du chi-deux proposé ne semble pas correspondre au test du chi-deux sous SAS (PROC FREQ avec option CHISQ). Qu’en est-il vraiment? je suis allée voir ce que faisait SEM dans le Program Editor et il fait une PROC DMSPLIT : qu’est-ce que c’est que cette PROC ? Dans quel module est-elle disponible ? En fait, le nœud VARIABLE SELECTION construit un arbre […]

Régression logistique : Équilibre populations, échantillons et application du modèle

Suite à une modélisation de variable binaire, j’utilise la PROC LOGISTIC de SAS 8.2. – Pour espérer obtenir de meilleurs résultats, faut-il équilibrer ma population de clients et de non clients? Exemple: expliquer une situation Y=1 alors que 80% de la population étudiée a Y=1, donne-t-il un poids trop important à ce groupe de clients ? – L’équilibre doit-il se faire dans l’échantillon d’apprentissage (70% de la population totale) sans s’en occuper dans l’échantillon test? – Après avoir obtenu les […]

Enterprise Miner : Prise en compte des formats (modèle LOGIT)

Bonjour, Sous EM, le modele LOGIT prend-t-il en compte les formats ou doit-on recoder en dur les modalités ? A priori, si un format est attaché de manière permanente à la variable, SEM le prend en compte dans tout son diagramme. Pour le vérifier, vous pouvez aller dans le nœud INPUT DATA SOURCE, et faire un VIEW DISTRIBUTION de votre variable formatée. Si les catégories affichées correspondent au format, le nœud REGRESSION en tiendra compte. Sinon, vous devez coder […]

Enterprise Miner : Paramétrage du noeud Input Data Source

Bonjour, Dans SEM, et plus précisément dans le noeud Input Data Source, est-il possible d’enregistrer le paramétrage (notamment « Model role » et « Measurement »), puis de l’appliquer sur une nouvelle table (ou une mise à jour de la table) sans avoir à tout redéfinir? J’ai une table de départ de plus de 400 variables et j’essaie d’éviter de tout redéfinir à chaque nouvelle version de la table. Merci d’avance. Il existe la possibilité de cloner le noeud Input Data Source (IDS). […]

Régression : Matrice confusion sur échantillon test

Bonjour, J’ai effectué une régression logistique sur une table d’apprentissage contenant des variables explicatives continues et discrètes(option class de la proc logistique). Je souhaite savoir comment procéder pour obtenir la matrice de confusion sur l’échantillon test. Cela suppose le calcul au préalable des probabilités estimées sur l’échantillon test étant donné que je des explicatives continues et discrètes. Merci Bonjour. Il n’existe pas d’option dans la procédure LOGISTIC pour prendre en compte un échantillon test (c’est le cas dans la […]

Enterprise Miner : Variable sélection

Bonjour, J’aimerais savoir pour quelle raison statistique l’icone variable selection d’EM découpe les variables continues en 16 classes. Pourquoi 16 ? L’option de découpage des variables continues en 16 classes (notée AOV16 dans l’interface de Variable Selection) permet de travailler avec des classes. Ces classes peuvent amener à détecter une liaison non linéaire entre la cible et une variable explicative ainsi découpée, en dépit du fait que le critère de sélection est le R². Le nombre de 16 a […]

Enterprise Miner : Discrétisation supervisée

Bonjour, Je voudrais savoir si vous connaissez une procédure sas qui permet de faire de la discrétisation supervisée du type MDLPC ou autre? merci Bonjour. Dans SAS, les seuls instruments disponibles pour la discrétisation supervisées se trouvent dans le module Enterprise Miner (extrêmement coûteux) ; si vous pouvez l’utiliser, vous trouverez votre bonheur avec l’outil TRANSFORM qui propose une transformation appelée « OPTIMAL BINNING » à base d’analyse de variance. Pour ce qui est du MDLPC, ce qui s’en rapproche le […]

Enterprise Miner : Classification sur variables qualitatives avec SEM

Je souhaiterais réaliser une classification à l’aide de variables qualitatives. Je dispose de SAS Enterprise Miner et je souhaiterais savoir si ce dernier peut me réaliser ma classification. Et si oui, comment ? SEM est un peu borné côté variables qualitatives. L’idée serait de lui fournir des variables quanti qui racontent la même chose. Pour ça, il faudrait faire une ACM (proc CORRESP) dans un nœud SAS Code par exemple…

Enterprise Miner : Couches cachées (SEM, Neural Network)

Dans l’onglet basic>multiplayer perceptron il y a une case « hidden neurons ». Cette case nous permet-elle de choisir le nombre de neurones dans la seule couche cachée ou le nombre de couches cachées ?

Enterprise Miner : Paramétrer les réseaux de neurones

Dans l’onglet Basic du noeud Neural Networks à quoi correspondent « preliminary runs » et « training technique » ? Est-t-il important de les paramétrer ?

Enterprise Miner : Fonction de transfert des réseaux de neurones

Quel fonction de transfert utilise SEM pour les réseaux de neurone ? la logistique ?

Enterprise Miner : Lire les sorties des réseaux de neurones

Dans la sortie (output), à quoi correspond la table « weights » ? (on a des H11 – H12… cela correspond-il aux noeuds) et comment analyse-t-on le graph dans cet onglet (weight) ?

Enterprise Miner : Mauvais scoring des réseaux de neurones

En faisant une modélisation sur SEM avec des réseaux de neurones, on obtient un taux de mal classés de 50% : alors, que doit-on faire ? Arrêter ?

Enterprise Miner : Aide SEM

Y a t’il une aide sous SEM ?

Enterprise Miner : Réseaux de neurones, mode d’emploi ?

J’ai besoin d’utiliser les réseaux de neurones sous SEM.
Tout d’abord peut-t-on utiliser une variable « target » avec plusieurs modalités?
Je n’ai pas de problèmes pour les lancer mais je ne sais pas trop comment les interpréter, à part le « misclassification rate »… Dans l' »output validation data », il n’y a pas de variables permettant de savoir où les individus ont été classés…

Enterprise Miner : Scoring à partir d’une régression

Je ne trouve pas la même note de score que SEM lors de la régression… En fait moi je considère que quand par exemple sur une variable à 2 modalités l’individu a la modalité 2 le coefficient de cette modalité 2 est égal à zéro alors que SEM prend comme coeff -(le coeff de la modalité 1)…
Exemple pour la variable détention de sécurité12, on a 2 modalités sec1 et sec2.. Sur la grille des coefficients, le coeff de sec1=0.23 et dans ce cas si un individu a la modalité 2, SEM va lui mettre un coeff de -0.23 alors que moi je lui mettrais zéro…
Ma question est : de quelle théorie sort-il cette règle? et qu’est ce que ça change et qui a raison?

Enterprise Miner : Migration de projet SEM

Je voudrais changer le répertoire dans lequel se trouve mon projet SEM (déjà assez volumineux). Quels fichiers dois-je transférer ?

Enterprise Miner : Scoring individuel

Comment est ce que je peux récupérer facilement la note du score créé par SEM pour chaque client ?

Enterprise Miner : Capacités

Est-ce normal que pour 100 000 lignes, SEM indique le message d’erreur suivant : out of resources ?

Enterprise Miner : Classes sous SEM

Je voudrais faire une régression logistique en utilisant des classes de mes variables quantitatives…
Pour cela je peux utiliser le noeud transform variables et calculer des classes selon les quartiles ou quelque chose du genre mais le problème c’est que j’aimerais faire une classe exclusivement = 0 … car pour les montants par exemple il y en beaucoup qui sont égaux à zéro. Donc je voudrais avoir ma 1ère classe seulement pour des valeurs nulles puis la 2ème par exemple pour des valeurs comprises entre zéro exclus et 12000 F…
Comment m’y prendre ?

Enterprise guide : différence entre SAS guide et SAS entreprise miner

Bonjour, pouvez -vous me donner les caractéristiques et les différences entre les logiciels Sas Guide et Sas Entreprise Miner?
Peut on faire des scores avec Sas Guide?

Echantillon : Quantiles avec univariate

je dispose d’une table SAS de la densité d’une variable discréte (modalité + proba) et je voudrais les quantiles mais la proc univariate n’accepte pas des valeurs < 1 dans son option FREQ. Comme j'ai certaines proba trés faibles si je multiplie ma freq par 1000, je risque de perdre de l'info et si je multiplie par un nombre trés grand, la proc TABULATE est limitée !

Echantillon : A quelles règles doit répondre un échantillon pour une régression linéaire ?

Habituellement, quand je fais une régression, je travaille sur une variable binaire. En amont, je construis donc un échantillon 50-50 (50% de détenteurs // 50% de non détenteurs). Aujourd’hui, je dois réaliser une régression sur une variable continue mais je ne sais pas comment procéder pour réaliser un échantillon. S’agit-il d’un tirage aléatoire ?

Echantillon : Construction de score avec une régression logistique

Ma régression logistique concerne 39 651 individus. J’ai donc, dans un premier temps, effectué un échantillon équilibré à 50/50 et j’obtiens 2 204 individus (car 1 201 ont la modalité cible égale à 1). Par la suite il est nécessaire de réaliser un partitionnement 70/30. On m’a conseillé de prendre 70% pour l’entrainement et 30% pour la validation. Ce que je voudrais savoir c’est comment faire ce partitionnement sous SAS (et non Miner) ? Faut-il que les deux partitions soient elles aussi équilibrées en fonction de la cible (35% — >0 et 35% –>1 pour l’entrainement et 15% –>0 et 15% –>1 ) ? Et à quel moment la partition à 30% va t-elle intervenir pour la validation ?

Echantillon : Comment réaliser un échatillon stratifié comme avec SEM avec la PROC SURVEYSELECT

Je souhaiterai savoir comment faire un échantillonnage stratifié (sur une ou plusieurs variables qualitatives) avec la PROC SURVEYLECT comme le fait le noeud SAMPLING de SEM.

Echantillon : Echantillonage – Equilibre des sous-populations

Est-il possible d’équilibrer automatiquement sous SEM une base de données à partir des modalités de la variable cible. Autrement dit au lieu de choisir manuellement par exemple 50% de clients et 50% de non-clients à partir d’une BD initiale, SEM propose-t-il cette option?
De plus, est-il préférable d’équilibrer avant de constituer l’échantillon d’apprentissage et celui de validation ou d’équilibrer chacun des deux échantillons? Quelles sont les procédures automatiques sous SEM?

Echantillon : Régression logistique – Equilibre populations, échantillons et application du modèle

Echantillon : Mon score apprend mal !

Dans SEM, un point me pose problème : est ce qu’il a moyen de prendre comme critère le fait de maximiser le taux de détention=1. Je m’explique: en fait le score que j’ai obtenu a un bon taux global mais en fait je me suis rendue compte que peu de gens avaient une note de score élevé ce qui correspondrait au fait que le taux de détention=0 bien classés est supérieur à celui de détention=1 alors que j’aimerais favoriser le 2ème taux…

Echantillon : Probabilités a priori

Quand je spécifie une probabilité a priori (Prior proba) dans un noeud Tree, il prend cette proba pour l’échantillon d’apprentissage, de validation et de test. Or moi, ce que je voudrais, c’est qu’il prenne cette proba pour apprendre et qu’il valide et teste sur un échantillon normal. A part dupliquer les individus à qui je veux donner une plus grande importance, comment résoudre ce problème ?

Echantillon : Echantillon déséquilibré

Je dois résoudre un pb de modélisation de personnes qui quittent un opérateur télécom (churn). Cependant, sur 5000 observations seules 700 churned effectivement. Du coup, le modèle apprend très bien les non churner mais pas les autres… Que faire ?

Classification : cubic clustring criterion

Bonjour, si le CCC de la proc FASTCLUS est très très négatif, comment puis-je le corriger? J’ai essayé de changer le nombre de classes mais cela ne marche pas.

Classification : Classification à l’aide de la proc fastclus et la proc cluster

Je désire effectuer une CAH sous sas avec la PROC FASTCLUS suivi de la PROC CLUSTER car ma base de données est volumineuse.
J’aimerai savoir s’il existe une option permettant de fixer le nombre minimum d’individus acceptés dans chacune des classes afin de ne pas se retrouver avec des classes comportant 10 individus et une autre 5000.

Classification : Classification sur variables qualitatives

J’ai besoin de faire une classification sur des individus décrits par des variables discrètes. Est-ce qu’il me suffit de travailler sur des indicatrices de ces variables ?

Classification : Classification sur variables qualitatives avec SEM

Association : Noeud « Association » de SEM avec l’option sequence

Je voudrais savoir dans mon étude si dans le temps il y a un effet de propagation de différents types d’incidents (3 types).

Association : Noeud Association

Comment faire fonctionner le noeud Association de SAS Enterprise Miner ? Que faut-il lui donner comme variables cible et variables d’entrée ?

Arbre de décision : Arbre de régression

J’aimerais effectuer un arbre de régression, à savoir un arbre avec une cible quantitative. Cela est-il possible avec Sas EM? Et si oui, comment?
Les arbres de décisions sont-ils possibles avec Sas Guide ou Sas Base?

Arbre de décision : EM – Problème de variables numériques discrètes lors de modélisation

Les quatre mesures proposées telles BINARY, INTERVAL, NOMINAL ou ORDINAL ne répondent pas au problème de conserver des valeurs entières alors comment puis-je le résoudre ?

Arbre de décision : Programme SAS

Bonjour, je suis en stage et je voudrais réaliser un arbre de décision sous SAS. Je voudrais connaître la forme du programme permettant de construire un arbre de décision sous SAS. Merci d’avance

Arbre de décision : Niche d’individus.

Probleme de discrimination

Arbre de décision : Paramétrage et lecture d’un arbre de décision

Quels sont les critères importants et /ou indispensables à régler pour pouvoir valider mon arbre de décision ?

Arbre de décision : Valeurs manquantes sous SEM

Dans Enterprise Miner, comment sont gérées les variables manquantes ?

Arbre de décision : Score d’un arbre de décision

Je voulais savoir comment on pouvait exploiter le programme de l’arbre de décision issu de SEM. En fait SEM semble, comme pour la régression, calculer une probabilité de prise (un score). Je me demande comment est calculée cette proba.

Arbre de décision : Sélection de variables avec le Chi-2

Arbre de décision : Probabilités a priori

Arbre de décision : Codage de la cible sous Enterprise Miner

Est-ce qu’il faut que ma variable retour soit codée 0/1 ou bien est-ce que le codage 1 et . (valeur manquante) est accepté ?

Analyse de données : Classification de variables

J’ai une base de données avec beaucoup d’individus et 4 variables ( 46 modalités). les variables sont sous la forme d’un tableau disjonctif complet. Je veux effectuer une classification sur les variables. Ici, je ne m’interesse qu’aux variables et non aux individus. Je veux savoir quelles modalités peuvent être regroupées. Comment faire une classification? Il existe peut-être une autre méthode que les classifications ?

Score : Analyse discriminante qualitative (DISQUAL)

Bonjour,

Je souhaiterai réaliser une analyse discriminante qualitative via la méthode DISQUAL. Je sais qu’il faut réaliser une ACM pour transformer les variables qualitatives en variable quantitatives et que c’est à partir des résultats des facteurs de l’ACM que je pourrai ensuite effectuer l’analyse discriminante.

Analyse de données : Tableau Disjonctif Complet et BDD volumineuse

Bonjour, Voilà mon souci : je voudrais faire une Classification sur une énorme base (env 2 millions de lignes). Ce sont des données qualitatives, alors je dois passer par une ACM, donc construire un Tableau Disjonctif Complet (en tout j’ai 3 variables et 11*97*18 modalités). Seulement SAS bloque un peu beaucoup (il a mouliné toute la nuit et n’a pas avancé…)! La proc transreg que vous proposez dans cette FAQ n’est-elle pas appropriée ici? Ma base est-elle trop volumineuse pour un tel traitement? Si oui, comment faire ma classification? Merci beaucoup pour votre éclairage!

Analyse de données : Macro pour dessiner les AFCM, ACP, AFC avec SAS Base

Bonjour, j’aurais aimé savoir s’il existe une petite macro pour dessiner le graphique des axes factoriels des données obtenues par la proc corresp ?
Jusqu’à présent, je ne peux que tout envoyer sous Excel et faire un lourd traitement car on ne peut avoir le nom des modamités sur le graphiques en même temps que les points…
Merci d’avance !