logo

Data science & Big Data

La régression logistique avec R, sa vie, son oeuvre

La régression logistique sous R expliquée à ma fille La régression logistique n’est pas, en soi, un modèle si compliqué. Mais les résultats qu’on peut en tirer sont nombreux, et la seule fonction glm du package {stats} ne les présente pas toujours de façon simple. Petit tour des possibilités offertes par des packages complémentaires pour tout comprendre des résultats d’un modèle. Les données : passagers du Titanic Le package {carData} contient un data.frame appelé TitanicSurvival. Il recense les 1309 passagers […]

L’utilité d’un factor expliquée à ma fille

Je trouve que ma fille a l’air sonnée. Qu’est-ce qui a pu la secouer ainsi ? Je l’interroge et elle me dit qu’elle a essayé de manipuler des factors sous R. Ce n’est d’ailleurs pas la première fois que ça la met dans cet état… Le factor sonne toujours deux fois.   Commençons par créer deux petits jeux d’essai pour mieux saisir ce qu’est un factor dans R. Il s’agit des nombres d’élèves dans l’enseignement du 1er degré (maternelle + […]

Comment ne pas construire un score-Titanic

Olivier Decourt ABS Technologies / Educasoft Formations Séminaire DataMining Educasoft   1- Les principes   La robustesse, un premier exemple : Quelle confiance avoir dans cette droite si je rajoute de nouveaux individus ? La robustesse, un deuxième exemple : 2 groupes d’individus distincts : toute modélisation de l’ensemble sera médiocre. 2 modèles séparés : meilleure précision. La robustesse, une définition : « Qualité des modèles qui ne perdent pas en performance si on les applique à de nouveaux individus. » Un modèle robuste est donc loisible de bien prédire le […]

Cybermarché et analyse comportementale

Séminaire Data Mining – Educasoft Formations – 18 juin 2001 Antoine-Eric Sammartino : aesammartino@e-laser.fr   L’objectif   Pas de Data Mining sans Objectif ! : Identifier des logiques d’achat des internautes à travers les différentes boutiques Définir des actions personnalisées sur le Web   Les données : Back Office (1/2)     Les données : Web (2/2)     Les Indicateurs (1/2) Données de détail : OUI, mais pas de Data Mining sur données brutes ! Passer du transactionnel au relationnel : ➥ Une ligne […]

L’utilisation des méthodes PLS dans les études de satisfaction

Introduction : le contexte Les données issues de questionnaires de satisfaction ont certaines particularités : Il y a souvent beaucoup de questions très liées entre elles (corrélations importantes). Les questions sont souvent regroupées par thème ; chaque thème exprimant un concept . On cherche alors à simultanément décrire le contenu de chaque thème et explorer les liaisons entre les thèmes, en particulier celui qui reflète la satisfaction. Il faut alors disposer de modèles à plusieurs équations. La notion de satisfaction elle-même […]

Interprétabilité ou précision : un compromis à ajuster

Jean SAGAUT AI ACCESS BP 331 91940 LES ULIS Tél. : 01 64 46 54 09 E-mail : aiaccess@aol.com Data Mining Les données de l’entreprise sont inexploitables par le cerveau humain (volume, nombre de variables). Pourtant, elles contiennent implicitement des informations d’une grande valeur pour l’entreprise. DATA MINING : ensemble des processus qui permettent d’extraire de l’information à partir de données historiques de la vie de l’entreprise. Le Data Mining     Information et connaissance L’information est une représentation condensée […]

Data Mining : facteur de compétitivité des entreprises

Série de documents qui sont les présentations d’un séminaire sur le DataMining organisé par Educasoft Formations en juin 2001.   1. Présentation de Soft Computing Soft Computing : une mission claire et précise Structurer les données disponibles sur les clients et les marchés pour les rendre plus facilement accessibles et utilisables : •Datawarehouse Transformer ces données en informations puis en connaissances pour guider dans les décisions et les actions : •Web Mining •Data Mining •Personnalisation Exploiter cette connaissance pour personnaliser la relation et augmenter la valeur individuelle […]

Gestion de la relation client : l’expérience du Crédit du Nord

Série de documents qui sont les présentations d’un séminaire sur le DataMining organisé par Educasoft Formations en juin 2001. Etat des lieux des processus de Data Mining mis en place au Crédit du Nord, des premiers essais de score automatisé à la construction d’un ensemble DataWareHouse – Etudes DataMining industrialisé. Objectifs de la présentation ➢ Présentation de l’émergence du Data Mining au Crédit du Nord. ➢ Comment les processus de Data Mining ont pris une place indispensable dans la gestion […]

Le DataMining, qu’est-ce que c’est et comment l’appréhender ?

Extrait d’une conversation téléphonique (réelle) : « Allô, monsieur Decourt ? Je travaille pour X1 et nous désirons rencontrer tous les habitants de votre rue (sic). Quand pouvons-nous vous rencontrer pour vous parler de nos offres en matière d’assurances ? » Cette conversation date de juillet 2000. Elle foule aux pieds tous les concepts véhiculés par le DataMining, ce qui montre combien cette discipline encore jeune a du mal à se faire une place dans les services marketing actuels. Le plan […]

L’analyse discriminante expliquée à ma fille

Principe géométrique de l’analyse discriminante linéaire   Ce qu’on cherche : Une droite (un hyperplan / une séparation linéaire) entre deux groupes d’observations. Cette droite est une combinaison linéaire des variables explicatives, toutes continues, qui décrivent les deux groupes d’observations. Comment on s’y prend : Chacun des deux groupes d’observations est « remplacé » (synthétisé) par son barycentre (point de coordonnées moyennes de toutes les variables explicatives). La séparation entre les deux populations est faite selon une droite perpendiculaire au […]

Les réseaux de neurones expliqués à ma fille

Le but de cette annexe n’est pas d’expliquer en détail toute la théorie et la pratique des réseaux de neurones, mais seulement d’en définir les principaux termes : • Neurone • Poids synaptiques • Apprentissage • Réseau de neurones • Couche cachée • Linéarité • Données d’apprentissage et de validation Principe du neurone artificiel Le neurone artificiel (neurone informatique) est un petit modèle statistique à lui tout seul. Il doit accomplir deux tâches : 1) la synthèse des informations qui […]

Construire un tableau disjonctif complet avec SAS

Qu’est-ce qu’un Tableau Disjonctif Complet ? Table constituée d’indicatrices (variables codées 0 ou 1 selon la présence ou non d’un caractère)… très utile pour l’ACM avec la procédure CORRESP ! Exemple SEXE F F H devient SEXE_F SEXE_M 1 0 1 0 0 1 A gauche, la colonne d’origine. Les deux colonnes de droite (SEXE_F et SEXE_M) constituent un tableau disjonctif complet. La procédure TRANSREG A l’origine, la procédure TRANSREG sert à ajuster un modèle de régression sur des données […]

Représenter graphiquement la répartition d’un score

Intérêt Une régression logistique, ou d’autres modèles décisionnels comme les réseaux de neurones, les arbres de décision, les analyses discriminantes, etc., produisent des scores. Ceux-ci sont transformables, selon le problème, en décisions. Si ça doit être le cas, quel seuil doit-on choisir ? Est-ce qu’un score coupé à 0,5 est toujours le meilleur choix ? Le graphique présenté ici permet d’affiner le choix du seuil de score. Il utilise la procédure KDE, nouveauté de SAS/STAT en version 8. Type de […]