ABCédaire du DataMining et de la Statistique
Quelques définitions pour les termes les plus fréquemment employés dans le DataMining et dans le monde de la statistique…
A
- Appétence : envie de posséder un produit ou un service. Détecter l’appétence d’un client pour un produit, c’est savoir qu’il sera sans doute favorable à son achat.
- Apprentissage (échantillon d’) : partie des données servant à l’évaluation des différents paramètres d’un modèle (en anglais, « training »).
- Apprentissage (phase d’) : détermination des paramètres d’un modèle par ajustements successifs en prenant comme référence des données connues (l’échantillon d’apprentissage).
- Arbres de décision : modèle issu des techniques d’intelligence artificielle. Son principe est de chercher à diviser une population en 2 (arbres binaires) ou plus (arbres n-aires) de sorte que ces sous-populations soient aussi différentes entre elles que possibles, et homogènes du point de vue de la répartition de la variable cible.
- Attrition : départ vers la concurrence (en anglais, « churn »).
- Auto-organisées (cartes) : technique de segmentation dérivée des réseaux de neurones. Elle permet de qualifier de manière graphique les proximités entre les différentes classes créées.
B
- B to B (prononcer « bitoubi » ; initiales de Business to Business) : terme qui désigne l’ensemble des relations qu’une entreprise peut avoir avec ses fournisseurs. S’oppose à la partie « relation client », appelée B to C (business to customers). Cet aspect de la vie d’une entreprise peut faire l’objet d’optimisations et d’études avec les outils du DataMining.
- B to C (prononcer « bitoussi » ; initiales de Business to Customer) : terme qui désigne l’ensemble des relations qu’une entreprise peut avoir avec ses clients. S’oppose à la partie « relation avec les fournisseurs », appelée B to B (business to business). C’est dans ce volet des relations de l’entreprise que se développe la gestion de la relation client (CRM), que l’on peut personnaliser avec des moyens statistiques.
- Binaire : se dit d’une variable qui ne prend que 2 valeurs distinctes.
- Boîte noire : modèle dont on ne connaît pas les modalités de fonctionnement, en particulier les influences des différents « inputs » (prédicteurs, covariables, données en entrée) sur le résultat.
- Bootstrap : méthode de bouclage (réitération) de modèles sur des données légèrement différentes, qui permet d’en accroître la robustesse. Le bootstrap permet également la construction d’intervalles de confiance sans hypothèse statistique particulière.
C
- Cartes auto-organisées : voir [Auto-organisées].
- Centres mobiles : autre nom de la méthode des nuées dynamiques(voir ce nom).
- Ciblage : synonyme de score, permet de repérer les spécificités d’un client par rapport à un but commercial.
- Cible : rôle joué dans un modèle par la variable dont on veut expliquer ou prédire les valeurs.
- Classification ascendante hiérarchique (CAH) : méthode de création de typologies qui agrège, à chaque étape, les individus ou les groupes d’individus les plus proches. Les emboîtements successifs se poursuivent ainsi jusqu’à agréger toute la population. On choisit ensuite la partition (ensemble de classes ainsi constituées) qui propose le meilleur rapport homogénéité interne des groupes / hétérogénéité des groupes entre eux.
- Clustering : mot anglais qui recouvre l’ensemble des techniques de segmentation (création de typologies).
- Colinéarité : qualité de deux variables qui apportent une information semblable ou proche. Cause de détérioration de nombreux modèles.
- Concentration (courbe de) : synonyme de lift chart (voir ce mot).
- Confusion (matrice de) : tableau de répartition (souvent en pourcentages) des individus observés, selon la valeur qu’on leur connaît pour la variable cible et selon la valeur prédite par le modèle. On repère ainsi le taux d’erreur, ou taux de confusion du modèle.
Exemple de matrice de confusion :
Clients… | … prédits bons | … prédits mauvais |
… réellement bons | 20,60 % | 4,44 % |
… réellement mauvais | 13,84 % | 61,12 % |
Le modèle prédit à juste titre que 61,12 % des clients sont mauvais (il en « oublie » 13,84 % qu’il prédit comme étant bons). Et 20,60 % des clients sont réellement bons, et identifiés comme tels par le modèle 4,44 % des clients sont déclarés mauvais alors qu’ils sont bons).
Ici, le taux de confusion s’établit à 13,84 + 4,44 = 18,28 % (somme des cases rouges).
- Continue : se dit d’une variable qui peut prendre une « infinité » de modalités (par opposition à discrète). Un âge, une somme d’argent, un coefficient de bonus/malus sont souvent considérés comme continus. Synonyme : quantitatif.
- Corrélation : mesure de la liaison entre deux variables. On parle de corrélation entre une cause et son effet, ou entre deux variables qui apportent la même information.
- Corrélation linéaire (coefficient de) : ou coefficient R². Il mesure de la liaison linéaire entre deux variables, c’est à dire de l’erreur commise en affirmant que X1 et X2 peuvent s’écrire comme X1 = a + b*X2. Graphiquement, dans un nuage de points représenté avec un axe pour X1 et l’autre pour X2, le R² mesure « l’alignement » des points. Dans le cas d’un modèle linéaire, un fort R² laisse présager d’une bonne qualité de prédiction du modèle.
- Le R² prend ses valeurs entre -1 et 1. Proche de 0, il signifie que les variables ne sont que faiblement correllées. On parle alors de variables orthogonales ou indépendantes. Proche de 1 en valeur absolue, il marque au contraire une forte interdépendance linéaire des deux variables. Positif, il rend compte d’une liaison disant que si X1 augmente, X2 aussi. Négatif, on aura un rapport du style : quand X1 croît, X2 décroît.
- Covariable : variable explicative dans un modèle. Synonymes : input, variable dépendante, variable explicative, X.
- CRISP-DM : (Cross-Industry Standard Process for DataMining) schéma de travail élaboré conjointement par un consortium d’entreprises de divers secteurs d’activités, qui précise les étapes d’un processus DataMining sur la base d’un « cercle vertueux ».
- CRM : initiales de Customer Relationship Management, ou gestion de la relation client. Il s’agit d’une méthode de marketing visant à gérer de manière globale un fichier de client tout en donnant à chacun d’eux le sentiment d’être traité comme s’il était unique. étudier chaque client comme si on le connaissait personnellement, alors qu’il n’est qu’une part d’un gros volume de données. Le but poursuivi est de cibler l’approche du client en jouant sur ses spécificités, tout en conservant une étude de l’ensemble de la clientèle pour des raisons de coûts.
D
- DataMart : sous-partie de l’entrepôt de données (DataWareHouse) qui se présente comme un extrait de celui-ci, agrégé dans le sens d’une problématique données (orienté client, orienté produit, orienté fournisseur, etc…).
- DataMining : Ensemble de techniques héritées de la statistique « classique », de la statistique bayésienne et de l’intelligence artificielle, qui permet l’étude de grands volumes de données. Ces techniques sont soutenues en général par une méthode de travail (voir à S comme SEMMA ou à C comme CRISP-DM) qui pose les étapes de l’étude DataMining.
- C’est une mécanique qui opère des choix (typologie, prise de décision) dans des données volumineuses et « mal » connues (au sens où on ne connaît pas bien la part explicative de ces données dans la caractéristique à prévoir).
- C’est également un moyen automatisable de traiter ses clients comme s’ils étaient uniques (CRM).
- DataWareHouse : ou entrepôt de données. C’est le lieu de stockage et d’agrégation (en général par un système de bases de données relationnelles) de toutes les informations connues de l’entreprises décrivant un secteur donné (commercial, GRH, production, …).
- Discrète : se dit d’une variable qui ne prend qu’un nombre limité et connu d’avance de modalités (valeurs distinctes), par opposition à continue. Une situation familiale, un sexe, l’appartenance à une tranche d’âge ou à une catégorie socio-professionnelle sont des variables discrètes. Synonyme : qualitative.
E
- Espérance : en statistique, valeur prise par la moyenne d’une information dans le cas d’un nombre infini d’observations. La moyenne, telle qu’elle est utilisée habituellement (somme des valeurs divisée par le nombre d’observations) est appelée moyenne empirique. On montre qu’elle est un bon estimateur de l’espérance.
F
- Factoriel (axe) : variable synthétique issue d’une méthode de réduction de dimension telle que l’ACP ou l’ACM (respectivement Analyse en Composantes Principales et Analyse des Correspondances Multiples). Cette variable, fruit de la combinaison de plusieurs variables « de base » (= observées), décrit au mieux l’ensemble des individus. C’est l’axe d’observation des données sous lesquelles elles apparaissent comme les plus dispersées.
- On peut prendre l’exemple du chameau : vu de face, on ne sait si c’est un chameau ou un dromadaire. La variable qui décrit l’individu n’apporte pas assez d’information. Vu de profil (axe factoriel), le doute n’est plus permis :
G
H
- Homoscédasticité : qualité d’une variable continue dont la variance (dispersion autour de la moyenne) est la même pour tous les sous-groupes ayant une certaine valeur de la variable à prédire (target). S’utilise par opposition à hétéroschédasticité (variances significativement différentes)
I
- Imputation : action de remplacer les valeurs manquantes (informations non renseignées ou erronées) par des valeurs vraisemblables.
- Input : variable explicative, dans un modèle. Synonyme : covariable.
J
K
- K-moyennes : autre nom de la méthode des nuées dynamiques (voir ce nom).
- Kohonen : théoricien des réseaux de neurones ayant laissé son nom aux premières cartes auto-organisées (appelées « cartes de Kohonen »).
L
- Lift chart : courbe qui permet de mettre en regard les performances d’un modèle avec l’investissement. Sur l’axe horizontal, la fraction de la population à contacter. Sur l’axe vertical, la fraction de la population cible identifiée. Si le modèle identifie 80 % des bons clients avec les 30 % des clients qui ont les scores les plus élevés, sa courbe passe par le point (30,80).
M
- Modalité : valeur distincte prise par une variable.
- Modèle : mécanique plus ou moins « boîte noire » qui, à partir de données connues (input), calcule une réponse (target) et la probabilité de réalisation de cette réponse associée (score).
- Multicorrélation : caractéristique des données où certaines des covariables apportent peu ou prou la même information. L’information redondante est source de problèmes lors de la modélisation.
N
- Nuées dynamiques : méthode de segmentation itérative qui consiste à positionner correctement dans un jeu de données des centres (points moyens) de classes d’individus. On en déduit, pour chacun des points, de quel centre ils sont les plus proches, et donc à quelle classe affecter les points. Quand les classes sont définies, on recalcule les coordonnées des centres, etc… L’algorithme s’arrête quand les points moyens se stabilisent. Synonymes : méthode des centres mobiles, K-moyennes (de l’anglais K-Means).
O
- Outliers : mot anglais désignant les individus qui présentent, sur une ou plusieurs variables, des caractéristiques très éloignées de la majorité. On parle aussi de valeurs extrêmes, ou aberrantes. A noter que ce dernier adjectif peut être source de confusion : ce n’est pas parce qu’une valeur est très grande ou très petite qu’elle est forcément erronée. Un groupe d’outliers peut représenter, parfois, une « niche » marketing extrêmement intéressante.
P
- Perceptron : catégorie de réseaux de neurones robustes. Ils diffèrent des autres réseaux (les RBF) par la fonction d’activation des neurones, c’est à dire leur manière de transformer les signaux d’entrée en signal de réponse.
- Performance (courbe de) : autre nom donné aux lift charts (voir ce mot).
- Polytomique : se dit d’une variable qui a plus de 2 modalités, par opposition à binaire. On distingue les variables polytomiques ordonnées (= dont les valeurs peuvent s’échelonner suivant un ordre, par exemple des tranches d’âge) et polytomique non ordonné (= dont les valeurs ne peuvent se ranger avec un ordre : sexe, situation familiale, …).
Q
- Qualitative : se dit d’une variable dont les valeurs ne peuvent s’additionner, se moyenner. Par exemple : le sexe, les tranches d’âge. Souvent synonyme de discret.
- Quantitative : se dit d’une variable dont les valeurs peuvent s’additionner, se moyenner. Par exemple, l’âge, le revenu. Souvent synonyme de continu.
R
- RBF : (Radial Basis Function, aussi appelé Réseau à base radiale) catégorie de réseaux de neurones. Ils diffèrent des autres réseaux (les perceptrons) par la fonction d’activation des neurones, c’est à dire leur manière de transformer les signaux d’entrée en signal de réponse.
- Régression : modèle statistique qui ajuste une « droite » (c’est à dire l’addition des valeurs de plusieurs variables, pondérées par des coefficients) passant au plus près des valeurs de la variable à prédire pour les individus.
- Réseau de neurones : modèle hérité de l’intelligence artificielle. Son principe est de transformer, à l’aide d’unités élémentaires (les neurones) reliés les uns aux autres, le signal d’entrée (input) en variable à prédire (target). Pour cela, les neurones utilisent des fonctions de transformation non linéaires (c’est une extension du principe de la régression). Le paramétrage du réseau est souvent automatique, à partir d’une phase d’apprentissage.
- Robustesse : qualité d’un modèle dont les performances ne se dégradent pas quand il est confronté à des individus qu’il ne connaît pas (i.e. qui n’ont pas servi à sa construction).
- ROC (pour Receiver Operating Characteristic) : courbe héritée du traitement du signal. Elle met en regard la sensibilité et la spécificité d’un modèle dont la réponse (target) est binaire. On peut déterminer avec une telle courbe la qualité discriminante du modèle : c’est l’aire sous la courbe ROC. Une variante de cette courbe, qui superpose les courbes de sensibilité et de spécificité en fonction du seuil de score choisi, permet de choisir un seuil optimal, au sens où il est le meilleur compromis entre les deux types d’erreurs commises.Exemple de courbe ROC « classique » (croisant la sensibilité et 1-spécificité).Exemple de courbe dérivée de ROC permettant de situer un seuil optimal (point de croisement des courbes).
S
- Score : note attribuée à un client (en général entre 0 et 1 ou entre 0 et 1000 selon les logiciels) qui rend compte de sa capacité à aller dans le sens de la décision à modéliser. Cette décision peut être un bon comportement en tant que détenteur d’un crédit, d’une assurance, ou la fraude, ou bien encore la satisfaction ou, au contraire, l’envie de partir à la concurrence (« churn » ou attrition). Quand l’évènement que l’on cherche à prédire est l’achat d’un produit particulier, on parle de score d’appétence.
- On peut rapprocher un score de la probabilité de réalisation, pour un client particulier, de l’évènement qu’on veut prédire.
- Segmentation : création de classes homogènes d’individus à des fins d’étude ou de description. Synonyme : typologie.
- SEMMA : schéma de travail pour le DataMining proposé par Sas Institute pour l’utilisation du logiciel Enterprise Miner. Il consiste en 5 étapes : Sample (extraction d’une partie des données à des fins d’étude), Explore (connaissance des données avec des méthodes statistiques univariées ou bivariées), Modify (construction d’indicateurs synthétiques, nettoyage des données), Model (modélisation), Assess (prise de décision, construction d’un score).
- Sensibilité : proportion d’évènements observés prédits comme évènements.
- Spécificité : proportion de non-évènements observés prédits comme non-évènements.
- Stratification : découpage en classes disjointes (sans partie commune) d’une population pour lui appliquer séparément des traitements semblables (sondage, modélisation). L’intérêt de la stratification est d’opérer ces traitements sur des populations a priori plus homogènes.
T
- Target : variable à prédire ou à expliquer. Synonyme : variable cible.
- Test (échantillon de) : partie des données permettant de tester la qualité du modèle sur des données inconnues (évalue la robustesse).
- Training : autre nom de l’échantillon d’entraînement (voir ce mot).
- Typologie : ensemble de catégories dans lequelles sont rangés les individus. Synonyme : segmentation.
U
V
- Valeur manquante : information non renseignée, ou renseignée par une valeur erronnée. Une valeur manquante (non renseignée) peut être une information en soi. Par exemple : omission de l’âge, du bonus/malus, des revenus, …, désignent en général certaines tranches de valeurs que les clients se répugnent à fournir (salaire trop bas ou trop élevé, …).
- Validation (échantillon de) : partie des données servant l’estimation de la qualité d’un modèle. Il s’agit de déterminer si les paramètres issus de la phase d’entraînement sont optimaux, ou s’il existe un meilleur modèle. Ces données permettent de comparer entre eux plusieurs modèles, de même nature (régressions, arbres de décision, réseaux de neurones), ou hétérogènes (indicateurs de synthèse tels que le taux de confusion ou le lift chart).
W
- Web-Mining : application des méthodes de DataMining (description, segmentation, modélisation pour la prise de décision) à l’analyse des comportements d’Internautes sur un site (marchand ou non). On travaille à partir de fichiers « traceurs » qui relatent le parcours du visiteur ; ces fichiers sont appelés des « logs ».