logo

Formation : Data Science & Big Data

[R_SCORING] Modélisation prédictive et scoring avec R

Modélisation prédictive et scoring avec R Ce stage apprend à construire des scores et des modèles statistiques prédictifs avec R : statistique exploratoire supervisée, régression logistique, arbres de décision, comparaison de modèles. Durée : 3 jours Logiciels possibles : R Pré-requis : R_BASE, REGQUALI 1. Gestion des données Imputation Equilibrage Bases d’apprentissage, de validation et de test 2. Statistiques descriptives Graphiques Mesures de liaison Découpage en tranches 3. Modélisation Régression logistique Arbre de décision Analyse discriminante SVM Forêts aléatoires Réseaux de neurones (PMC) […]

[TYPOMKT] Typologie pour la segmentation client

Typologie pour la segmentation client Ce stage est destiné aux chargés d’étude marketing qui ont besoin de bâtir des groupes homogènes de clients. Les techniques abordées sont la classification hiérarchique, les K-moyennes, ainsi que la méthode mixte ; une méthode proposée par  Spad, la segmentation par arbre, est également présentée (dans ce logiciel, avec une macro SAS ou du code R). Durée : 1 à 2 jours selon les attentes et le niveau du public Logiciels possibles : SAS, SAS Enterprise Guide […]

[SCOMKT] Scoring pour le ciblage marketing

Scoring pour le ciblage marketing Ce stage est destiné aux chargés d’étude marketing qui ont besoin d’optimiser leurs ciblages pour des campagnes, de quantifier l’appétence à un produit, d’optimiser le cross-selling. Pour cela, ils utiliseront des techniques de modélisation classiques (régression logistique, arbres de décision) ou innovantes (modèle uplift). Cette formation traite aussi de la phase exploratoire et de l’utilisation du modèle (courbe de lift, courbe ROC, suivi dans le temps). Durée : 2 ou 3 jours selon les attentes […]

[POWER] Calcul de puissance et de nombre de sujets nécessaires

Calcul de puissance et de nombre de sujets nécessaires Ce stage est destiné aux biostatisticiens désireux de calculer la puissance de leurs tests statistiques ou voulant quantifier le nombre sujets à inclure dans un essai clinique pour détecter un effet de manière significative. Durée : 1 journée Logiciels possibles : SAS, SAS Enterprise Guide (code) Pré-requis : STAT101 1.   Rôle statistique du nombre de sujets dans les études cliniques 2.   Méthodes d’estimation de la taille d’étude pour les tests simples 3.   Application à […]

[GLMTARIF] Modélisation pour la tarification en assurance

Modélisation pour la tarification en assurance Ce stage est destiné aux chargés d’étude et actuaires qui ont à modéliser les sinistralités et coûts moyens en assurance non vie. Des applications sur les modèles composites (IARD) et de prime pure (santé) sont proposées sous SAS ou R. Cette formation traite aussi de la phase exploratoire et de la modélisation de données répétées (GEE vs GLMM). Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code), R Pré-requis : STAT101 1.   Modèle Gamma […]

[BIOSTAT] Modélisation biostatistique

Modélisation biostatistique Ce stage est destiné aux chargés d’étude œuvrant dans les essais cliniques, l’épidémiologie et la statistique animale. Il permet de faire le point sur la modélisation d’impact de facteurs sur une quantité d’intérêt à travers l’analyse de la variance et les modèles mixtes. Cette formation peut être complétée par l’étude des données répétées pour l’intégration de plusieurs mesures sur un même individu dans le modèle. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code) Pré-requis : STAT101 1.   […]

[BAYES] Introduction à la statistique bayésienne

Introduction à la statistique bayésienne Ce stage décrit les principes et les applications en épidémiologie des mécanismes de statistique bayésienne et ses différences avec la statistique classique (fréquentiste). Des applications seront présentées en utilisant des logiciels libres (R et Winbugs). Durée : 1 ou 2 jours selon le degré de détails souhaité Logiciels possibles : R Pré-requis : STAT101 1.   Introduction à l’approche bayésienne 2.   Lois a priori, vraisemblance, lois a posteriori, formule de Bayes 3.   L’analyse bayésienne 4.   Initiation aux méthodes MCMC […]

[SCORING] Panorama et comparaison des méthodes de scoring

Panorama et comparaison des méthodes de scoring Cette formation s’adresse aux chargés d’étude désirant avoir, en quelques jours, un aperçu technique et pratique des techniques usuelles de scoring. La formation s’achève avec une comparaison des forces et des faiblesses des différentes méthodes. Durée : 3 jours Logiciels possibles : SAS, SAS Enterprise Guide (code), SAS Enterprise Miner, R, Spad, SPSS, SPSS Clementine Pré-requis : DM 1.   Scoring avec les arbres de décision Principe général d’un arbre de décision Croissance et élagage Les principaux […]

[REPETE] Modélisation de données répétées

Modélisation de données répétées Ce stage est destiné aux chargés d’études (biostatistique mais aussi actuariat ou marketing) qui ont à analyser des données composées de plusieurs mesures pour un même individu. Il peut s’agir de données répétées dans le temps (panels, visites au cours d’un essai clinique) ou non (mesures sur les 4 membres, sur les 2 yeux). Cette formation utilise les procédures GENMOD, MIXED et GLIMMIX de SAS, en montrant comment les paramétrer et interpréter leurs sorties. Durée : […]

[REGQUANTI] Régression sur variables quantitatives

Régression sur variables quantitatives Ce cours permet d’appréhender les principes de la régression, et sa mise en œuvre. On y apprend le formalisme statistique associé, mais surtout la lecture des résultats, la détection d’erreurs et leur correction. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code), R, SPSS Pré-requis : STAT101 1.   Découverte des données Distribution et normalité des variables Relations entre variables quantitatives Relations entre variables qualitatives 2.   Régression linéaire simple Le modèle simple Sorties chiffrées Sorties graphiques 3.   […]

[REGQUALI] Régression sur variables qualitatives

Régression sur variables qualitatives Destiné aux chargés d’étude s’intéressant à la modélisation d’une variable discrète (deux modalités ou davantage), ce stage permet de construire efficacement des modèles explicatifs et prédictifs (construction de scores). Une formation plus approfondie spécifique au scoring est également disponible. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code), R, Spad, SPSS Pré-requis : STAT101 1.   Principe de la régression logistique Quelle est la forme des données à utiliser ? Lien avec la régression linéaire Les différentes […]

[MIXED] Analyse de la variance et modèles mixtes

Analyse de la variance et modèles mixtes L’étude des données avec une analyse de la variance se conduit d’ordinaire sur des facteurs considérés comme fixes : c’est à dire qu’on se limite dans l’analyse et l’inférence aux valeurs qui ont été collectées au cours de la constitution des données. Des facteurs aléatoires et un modèle mixte étendent de manière très importante la puissance des modèles d’analyse de variance, et facilitent également le traitement des données à mesures répétées Durée : 2 […]

[GENMOD] Modèle linéaire généralisé

Modèle linéaire généralisé Les modèles présentés ici font de la régression linéaire et de la régression logistique des cas particuliers. Les Modèles Linéaires Généralisés (MLG) se proposent d’étudier les variables dont la normalité est prise en défaut (coûts, fréquences d’évènements, …) et proposent des outils puissants. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code) Pré-requis : STAT101, SAS_BASE (formation Educasoft) 1.   Principes de la régression Vocabulaire et concepts La régression linéaire La régression logistique Leurs points communs 2.   Modèle […]

[ANADON] Analyse des données

Analyse des données Ce stage est destiné aux chargés d’études qui désirent voir ou revoir les principes de l’analyse de données à la française (ACM, AFC, ACP) et surtout leur utilisation à travers SAS, R (package FactoMineR) ou Spad versions 6 à 8. On y aborde également la classification. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code), R ou SPAD Pré-requis : STAT101 1.   L’analyse en composantes principales (ACP) Choix du nombre d’axes factoriels Nuages des individus et des […]

[R_BASE] Initiation à R

Initiation à R Le logiciel R est principalement conçu pour des utilisations statistiques. Il recèle cependant de très nombreuses fonctionnalités de gestion de fichiers. Cette formation peut être couplée avec STAT101R, pour prolonger l’apprentissage avec la production de statistiques descriptives sous R. Durée : 2 jours Logiciels possibles : R Pré-requis : aucun 1.   Présentation de R Télécharger le logiciel Packages Environnement de base R Studio R Commander 2.   Principes du langage R Fonctions : principes, utilisation, personnalisation Types de données Structures de données […]

[IML] Initiation au langage SAS/IML

Initiation au langage SAS/IML Le module SAS/IML donne accès à un langage spécifique pour la manipulation de matrices et les opérations qui leurs sont associées (diagonalisation, inversion, résolution de systèmes linéaires, etc.). A partir de SAS 9.3, ce module permet également des échanges avec le logiciel R. Durée : 1 jour Logiciels possibles : SAS, SAS Enterprise Guide (code) Pré-requis : SAS_BASE (formation Educasoft) 1.   Présentation de SAS/IML Des matrices, des rappels d’algèbre Afficher une matrice 2.   Charger une table SAS en matrice […]

[DM] Qu’est-ce que le Data Mining ?

Qu’est-ce que le Data Mining ? Une formation destinée aux chargés de projets et aux décideurs qui veulent savoir ce que recouvre exactement le mot de Data Mining. Quels sont les concepts, les démarches, les outils méthodologiques, les logiciels du marché avec leurs forces et leurs faiblesses ? Durée : 1 jour Logiciels possibles : présentation de quelques outils payants et gratuits Pré-requis : aucun 1.   Définition du Data Mining Un peu d’histoire Les domaines « historiques » d’application De nouveaux domaines d’expression 2.   Les techniques […]

[STAT101] Initiation à la statistique

Initiation à la statistique Ce stage est destiné aux personnes désireuses de découvrir les principes et les applications de la statistique. Il couvre principalement la statistique descriptive à une ou deux variables (graphiques et tableaux) et se termine sur un élargissement aux techniques plus avancées (tests, prévisions). Ce cours est prévu sous forme appliquée ; seules les formules indispensables seront présentées. Durée : 2 jours Logiciels possibles : Excel, SAS, Spad, SPSS, R Pré-requis : manipulations de base du logiciel […]