logo

Category : Data Science & Big Data

[R_CHRON] Traitement de séries chronologiques avec R

Traitement de séries chronologiques avec R Ce stage apprend la visualisation, l’analyse et la prédiction de séries chronologiques avec R : désaisonnalisation, tendance, lissage exponentiel et modèles ARIMA/SARIMA. Durée : 2 jours Logiciels possibles : R Pré-requis : R_PLUS, AEDT 1. Gestion des données Stockage des dates dans R Objet ts Représentation graphique d’une série : rappels 2. tendance, différenciation, saisonnalité Décomposition automatique d’une série (fonction stl) Différenciation et intégration Identification d’une tendance, régression 3. Lissage exponentiel Lissage simple Lissage double Méthode de […]

[R_SCORING] Modélisation prédictive et scoring avec R

Modélisation prédictive et scoring avec R Ce stage apprend à construire des scores et des modèles statistiques prédictifs avec R : statistique exploratoire supervisée, régression logistique, arbres de décision, comparaison de modèles. Durée : 3 jours Logiciels possibles : R Pré-requis : RBASE, REGQUALI 1. Gestion des données Imputation Equilibrage Bases d’apprentissage, de validation et de test 2. Statistiques descriptives Graphiques Mesures de liaison Découpage en tranches 3. Modélisation Régression logistique Arbre de décision Analyse discriminante SVM Forêts aléatoires Réseaux de neurones (PMC) […]

[UPLIFT] Modélisation uplift

Modélisation uplift Ce stage est destiné aux chargés d’étude marketing qui souhaitent analyser des retours de campagne et optimiser le rendement de campagnes futures. Il décrit la technique des scores « uplift » qui utilise une population témoin et une population active. Durée : 1 jour Logiciels possibles : SAS, SAS Enterprise Guide (code) Pré-requis : SCORING 1.   Analyse d’un retour de campagne Equivalence échantillon témoin/actif Modélisation logistique pour le suivi de survenance d’un évènement Modélisation Gamma/Poisson pour le suivi de comptages et de montants […]

[TYPOMKT] Typologie pour la segmentation client

Typologie pour la segmentation client Ce stage est destiné aux chargés d’étude marketing qui ont besoin de bâtir des groupes homogènes de clients. Les techniques abordées sont la classification hiérarchique, les K-moyennes, ainsi que la méthode mixte ; une méthode proposée par  Spad, la segmentation par arbre, est également présentée (dans ce logiciel ou avec une macro SAS). Durée : 1 à 2 jours selon les attentes et le niveau du public Logiciels possibles : SAS, SAS Enterprise Guide (code), Spad Pré-requis : […]

[SCOMKT] Scoring pour le ciblage marketing

Scoring pour le ciblage marketing Ce stage est destiné aux chargés d’étude marketing qui ont besoin d’optimiser leurs ciblages pour des campagnes, de quantifier l’appétence à un produit, d’optimiser le cross-selling. Pour cela, ils utiliseront des techniques de modélisation classiques (régression logistique, arbres de décision) ou innovantes (modèle uplift). Cette formation traite aussi de la phase exploratoire et de l’utilisation du modèle (courbe de lift, courbe ROC, suivi dans le temps). Durée : 2 ou 3 jours selon les attentes […]

[SCOCHURN] Scoring pour la rétention client

Scoring pour la rétention client Ce stage est destiné aux chargés d’étude marketing qui ont besoin de bâtir des scores d’attrition / churn. Pour cela, ils utiliseront des techniques de modélisation classiques (régression logistique, arbres de décision) pour estimer la probabilité de départ d’un client. Une ouverture est faite sur les modèles de durée qui sont complémentaires. Cette formation traite aussi de la phase exploratoire et de l’utilisation du modèle (courbe de lift, courbe ROC, suivi dans le temps). Durée […]

[POWER] Calcul de puissance et de nombre de sujets nécessaires

Calcul de puissance et de nombre de sujets nécessaires Ce stage est destiné aux biostatisticiens désireux de calculer la puissance de leurs tests statistiques ou voulant quantifier le nombre sujets à inclure dans un essai clinique pour détecter un effet de manière significative. Durée : 1 journée Logiciels possibles : SAS, SAS Enterprise Guide (code) Pré-requis : STAT101SAS 1.   Rôle statistique du nombre de sujets dans les études cliniques 2.   Méthodes d’estimation de la taille d’étude pour les tests simples 3.   Application à […]

[GLMTARIF] Modélisation pour la tarification en assurance

Modélisation pour la tarification en assurance Ce stage est destiné aux chargés d’étude et actuaires qui ont à modéliser les sinistralités et coûts moyens en assurance non vie. Des applications sur les modèles composites (IARD) et de prime pure (santé) sont proposées sous SAS. Cette formation traite aussi de la phase exploratoire et de la modélisation de données répétées (GEE vs GLMM). Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code) Pré-requis : STAT101SAS 1.   Modèle Gamma pour le coût […]

[BIOSTAT] Modélisation biostatistique

Modélisation biostatistique Ce stage est destiné aux chargés d’étude œuvrant dans les essais cliniques, l’épidémiologie et la statistique animale. Il permet de faire le point sur la modélisation d’impact de facteurs sur une quantité d’intérêt à travers l’analyse de la variance et les modèles mixtes. Cette formation peut être complétée par l’étude des données répétées pour l’intégration de plusieurs mesures sur un même individu dans le modèle. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code) Pré-requis : STAT101SAS 1.   […]

[BAYES] Introduction à la statistique bayésienne

Introduction à la statistique bayésienne Ce stage décrit les principes et les applications en épidémiologie des mécanismes de statistique bayésienne et ses différences avec la statistique classique (fréquentiste). Des applications seront présentées en utilisant des logiciels libres (R et Winbugs). Durée : 1 ou 2 jours selon le degré de détails souhaité Logiciels possibles : R Pré-requis : STAT101 1.   Introduction à l’approche bayésienne 2.   Lois a priori, vraisemblance, lois a posteriori, formule de Bayes 3.   L’analyse bayésienne 4.   Initiation aux méthodes MCMC […]

[CVS102] La désaisonnalisation (correction des variations saisonnières)

La désaisonnalisation (correction des variations saisonnières) Ce stage est destiné aux personnes désireuses de désaisonnaliser leurs séries temporelles. Il présente les principales méthodes existantes et insiste sur la détection et la correction des effets de calendrier et des points atypiques. Ce cours est prévu sous forme appliquée et de nombreux exemples sont prévus ; seules les formules indispensables seront présentées. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code), R, WPS, SPSS, JDemetra+ Pré-requis : AEDT et ARIMA 1.   Les objectifs […]

[CVS101] Introduction à la correction des variations saisonnières

Introduction à la correction des variations saisonnières Ce stage est destiné aux personnes désireuses de découvrir les principes et l’intérêt de la désaisonnalisation (ou correction des variations saisonnières). Il couvre principalement les méthodes basées sur les moyennes mobiles et se termine sur un panorama des méthodes de désaisonnalisation. Ce cours est prévu sous forme appliquée ; seules les formules indispensables seront présentées. Durée : 1 jour Logiciels possibles : SAS, SAS Enterprise Guide (code), R, WPS, SPSS, JDemetra+ Pré-requis : AEDT 1.   Les objectifs […]

[REGST] Prévision de séries temporelles et régression

Prévision de séries temporelles et régression Ce stage est destiné aux chargés d’étude souhaitant faire des prévisions à l’aide de méthodes de régression adaptées aux données temporelles. Outre la présentation des méthodes, une grande attention est accordée au difficile problème du choix des variables explicatives. Le stage se termine sur les méthodes de régression sur facteurs faisant ainsi le lien avec les méthodes d’analyse des données. Ce cours contient beaucoup d’exemples. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide […]

[ARIMA] La prévision par modèle ARIMA

La prévision par modèle ARIMA Ce stage est destiné aux chargés d’étude souhaitant faire des prévisions à l’aide des modèles ARIMA. Outre la méthodologie de Box et Jenkins qui permet de trouver un modèle ARIMA adapté aux données, le stage aborde l’introduction de variables explicatives et le traitement des points aberrants. Il se termine sur des éléments de modèles multivariés et sur un panorama des méthodes de prévision. Ce cours contient beaucoup d’exemples et se veut très appliqué. Durée : […]

[AEDT] Analyse exploratoire de données temporelles

Analyse exploratoire de données temporelles Ce stage est destiné aux personnes désireuses de découvrir les principes de l’analyse des séries temporelles. Il couvre principalement l’analyse descriptive de ces données (graphiques et mise en évidence des composantes) et se termine sur un élargissement aux techniques plus avancées (désaisonnalisation, lissage, prévision). Ce cours est prévu sous forme appliquée ; seules les formules indispensables seront présentées. Durée : 1 jour Logiciels possibles : Excel, SAS, SAS Enterprise Guide (code), R, WPS, SPSS Pré-requis : aucun 1.   Les […]

[SURVIE] Analyse de survie et économétrie des durées

Analyse de survie et économétrie des durées Ce stage est destiné aux personnes ayant à étudier la durée écoulée avant la survenance d’un évènement. Il s’agit par exemple d’un contexte médical (durée de rémission dans une maladie chronique) ou économique (durée de recherche d’emploi)… Cette formation propose à la fois une présentation théorique (avec un formalisme mathématique aussi léger que possible) et appliquée. Durée : 1 ou 2 jours selon les attentes et le niveau du public Logiciels possibles : SAS, SAS […]

[SCORING] Panorama et comparaison des méthodes de scoring

Panorama et comparaison des méthodes de scoring Cette formation s’adresse aux chargés d’étude désirant avoir, en quelques jours, un aperçu technique et pratique des techniques usuelles de scoring. La formation s’achève avec une comparaison des forces et des faiblesses des différentes méthodes. Durée : 3 jours Logiciels possibles : SAS, SAS Enterprise Guide (code), SAS Enterprise Miner, R, Spad, SPSS, SPSS Clementine Pré-requis : DM 1.   Scoring avec les arbres de décision Principe général d’un arbre de décision Croissance et élagage Les principaux […]

[REPETE] Modélisation de données répétées

Modélisation de données répétées Ce stage est destiné aux chargés d’études (biostatistique mais aussi actuariat ou marketing) qui ont à analyser des données composées de plusieurs mesures pour un même individu. Il peut s’agir de données répétées dans le temps (panels, visites au cours d’un essai clinique) ou non (mesures sur les 4 membres, sur les 2 yeux). Cette formation utilise les procédures GENMOD, MIXED et GLIMMIX de SAS, en montrant comment les paramétrer et interpréter leurs sorties. Durée : […]

[REGQUANTI] Régression sur variables quantitatives

Régression sur variables quantitatives Ce cours permet d’appréhender les principes de la régression, et sa mise en œuvre. On y apprend le formalisme statistique associé, mais surtout la lecture des résultats, la détection d’erreurs et leur correction. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code), R, SPSS Pré-requis : STAT101, STAT101R, STAT101SAS ou STAT101SEG 1.   Découverte des données Distribution et normalité des variables Relations entre variables quantitatives Relations entre variables qualitatives 2.   Régression linéaire simple Le modèle simple Sorties […]

[REGQUALI] Régression sur variables qualitatives

Régression sur variables qualitatives Destiné aux chargés d’étude s’intéressant à la modélisation d’une variable discrète (deux modalités ou davantage), ce stage permet de construire efficacement des modèles explicatifs et prédictifs (construction de scores). Une formation plus approfondie spécifique au scoring est également disponible. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code), R, Spad, SPSS Pré-requis : STAT101, STAT101R, STAT101SAS ou STAT101SEG 1.   Principe de la régression logistique Quelle est la forme des données à utiliser ? Lien avec la […]

[REG] Techniques de régression

Techniques de régression Une formation complète qui propose aux chargés d’études un maximum de solutions de modélisation linéaire pour données de tous types : continues, catégorielles, binaires. Durée : 3 jours Logiciels possibles : SAS, SAS Enterprise Guide, SPSS, R Pré-requis : STAT101, STAT101R ou STAT101SAS ou STAT101SEG 1.   Qu’est-ce qu’un modèle linéaire ? Les régressions usuelles Les hypothèses du modèle linéaire Principe des tests statistiques 2.   Le modèle linéaire classique Hypothèses et validation des hypothèses Qu’est-ce qu’un modèle réussi ? Les coefficients et […]

[MIXED] Analyse de la variance et modèles mixtes

Analyse de la variance et modèles mixtes L’étude des données avec une analyse de la variance se conduit d’ordinaire sur des facteurs considérés comme fixes : c’est à dire qu’on se limite dans l’analyse et l’inférence aux valeurs qui ont été collectées au cours de la constitution des données. Des facteurs aléatoires et un modèle mixte étendent de manière très importante la puissance des modèles d’analyse de variance, et facilitent également le traitement des données à mesures répétées Durée : 2 […]

[GENMOD] Modèle linéaire généralisé

Modèle linéaire généralisé Les modèles présentés ici font de la régression linéaire et de la régression logistique des cas particuliers. Les Modèles Linéaires Généralisés (MLG) se proposent d’étudier les variables dont la normalité est prise en défaut (coûts, fréquences d’évènements, …) et proposent des outils puissants. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code) Pré-requis : STAT101, SAS_BASE (formation Educasoft) 1.   Principes de la régression Vocabulaire et concepts La régression linéaire La régression logistique Leurs points communs 2.   Modèle […]

[ANADON] Analyse des données

Analyse des données Ce stage est destiné aux chargés d’études qui désirent voir ou revoir les principes de l’analyse de données à la française (ACM, AFC, ACP) et surtout leur utilisation à travers SAS, R (package FactoMineR) ou Spad versions 6 à 8. On y aborde également la classification. Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code), R ou SPAD Pré-requis : STAT101 1.   L’analyse en composantes principales (ACP) Choix du nombre d’axes factoriels Nuages des individus et des […]

[RBASE] Initiation à R

Initiation à R Le logiciel R est principalement conçu pour des utilisations statistiques. Il recèle cependant de très nombreuses fonctionnalités de gestion de fichiers. Cette formation peut être couplée avec STAT101R, pour prolonger l’apprentissage avec la production de statistiques descriptives sous R. Durée : 2 jours Logiciels possibles : R, R Studio Pré-requis : aucun 1.   Présentation de R Télécharger le logiciel Packages Environnement de base R Studio R Commander 2.   Principes du langage R Fonctions : principes, utilisation, personnalisation Types de données Structures […]

[IML] Initiation au langage SAS/IML

Initiation au langage SAS/IML Le module SAS/IML donne accès à un langage spécifique pour la manipulation de matrices et les opérations qui leurs sont associées (diagonalisation, inversion, résolution de systèmes linéaires, etc.). A partir de SAS 9.3, ce module permet également des échanges avec le logiciel R. Durée : 1 jour Logiciels possibles : SAS, SAS Enterprise Guide (code) Pré-requis : SAS_BASE (formation Educasoft) 1.   Présentation de SAS/IML Des matrices, des rappels d’algèbre Afficher une matrice 2.   Charger une table SAS en matrice […]

[STAT101SEG] Statistique descriptive avec SAS Enterprise Guide

Statistique descriptive avec Enterprise Guide Ce stage est destiné aux personnes désireuses de (re)découvrir les principes de la statistique exploratoire. La mise en œuvre de ces techniques se fait autour des interfaces presse-bouton de SAS Enterprise Guide. Le code SAS sous-jacent sera brièvement décrit. Durée : 2 jours Logiciels possibles : SAS Enterprise Guide (presse-bouton) Pré-requis : SAS_SEG (formation Educasoft) 1.   Décrire les données par des graphiques Graphiques univariés (bâtons et diagrammes circulaires) Graphiques bivariés (nuages de points et boîtes à moustaches) Graphiques […]

[STAT101SAS] Statistique descriptive avec SAS

Statistique descriptive avec SAS Ce stage est destiné aux personnes désireuses de (re)découvrir les principes de la statistique exploratoire. La mise en œuvre de ces techniques se fait autour des procédures de SAS/BASE et SAS/STAT. Ce cours est une bonne préparation aux formations de modélisation (REGQUANTI, REGQUALI, GENMOD) ainsi qu’à l’analyse de la variance (MIXED, REPETE). Durée : 2 jours Logiciels possibles : SAS, SAS Enterprise Guide (code) Pré-requis : SAS BASE (formation Educasoft) 1.    Décrire les données par des graphiques Graphiques univariés […]

[STAT101R] Statistique descriptive avec R

Statistique descriptive avec R Ce stage est destiné aux personnes désireuses de (re)découvrir les principes de la statistique exploratoire. La mise en œuvre de ces techniques se fait autour de fonctions R basiques, et éventuellement via l’interface gratuite Rcommander. Durée : 2 jours Logiciels possibles : R Pré-requis : RBASE 1. Décrire les données par des graphiques Graphiques univariés (bâtons et diagrammes circulaires) Graphiques bivariés (nuages de points et boîtes à moustaches) Graphiques de répartition d’une variable (histogramme, courbe de […]

[DM] Qu’est-ce que le Data Mining ?

Qu’est-ce que le Data Mining ? Une formation destinée aux chargés de projets et aux décideurs qui veulent savoir ce que recouvre exactement le mot de Data Mining. Quels sont les concepts, les démarches, les outils méthodologiques, les logiciels du marché avec leurs forces et leurs faiblesses ? Durée : 1 jour Logiciels possibles : présentation de quelques outils payants et gratuits Pré-requis : aucun 1.   Définition du Data Mining Un peu d’histoire Les domaines « historiques » d’application De nouveaux domaines d’expression 2.   Les techniques […]

[STAT101] Initiation à la statistique

Initiation à la statistique Ce stage est destiné aux personnes désireuses de découvrir les principes et les applications de la statistique. Il couvre principalement la statistique descriptive à une ou deux variables (graphiques et tableaux) et se termine sur un élargissement aux techniques plus avancées (tests, prévisions). Ce cours est prévu sous forme appliquée ; seules les formules indispensables seront présentées. Durée : 2 jours Logiciels possibles : Excel, SAS, Spad, SPSS, R Pré-requis : manipulations de base du logiciel […]