logo

Interprétabilité ou précision : un compromis à ajuster

Jean SAGAUT
AI ACCESS
BP 331 91940
LES ULIS
Tél. : 01 64 46 54 09
E-mail : aiaccess@aol.com

Data Mining

  • Les données de l’entreprise sont inexploitables par le cerveau humain (volume, nombre de variables).
  • Pourtant, elles contiennent implicitement des informations d’une grande valeur pour l’entreprise.

DATA MINING : ensemble des processus qui permettent d’extraire de l’information à partir de données historiques de la vie de l’entreprise.

Le Data Mining

 

 Ietp01

Information et connaissance

L’information est une représentation condensée (et souvent numérique) de données volumineuses :

  • Le revenu moyen de nos clients est de 200KF.
  • Plus de la moitié de nos clients ont moins de 30 ans.

La connaissance va plus loin. Elle interprète l’information en termes « métier » grâce au contexte :

  • Notre nouveau produit financier attire les cadres en milieu de carrière qui changent souvent d’entreprise.

D. M. et connaissance

  • La connaissance a plus de valeur que la simple information, mais elle nécessite un « effort de réflexion » supplémentaire.
  • Le Data Mining a pour ambition de générer plus ou moins automatiquement de l’information à partir de données. Peut-il aller jusqu’à interpréter cette information, et la transformer en connaissance ?

Modélisation et interprétation

D.M. et modèles

Le Data Mining crée des modèles des données.

Un modèle est une machine à répondre à une question :

  • Ce profil de conducteur achètera-t-il une motorisation standard, une injection, ou un diesel ?
  • Quel budget ce profil de vacancier consacrera-t-il à ses prochaines vacances ?
  • Quels sont les quelques profils-types de la population de mes clients ?

 

Les deux modélisations

 

Ietp02

 

Les deux modélisations (2)

 

Ietp03

« Expert » ou « Oracle » ?

Un modèle peut avoir deux comportements extrêmes :

1) Il répond en termes directement interprétables par un spécialiste métier. Il se comporte comme un expert intelligent.

  • Systèmes Experts.

2) Il répond sans que l’on soit capable d’interpréter facilement cette réponse.

  • Réseaux de Neurones.

Galaxie des techniques !

 

Ietp04

 

Critères de choix

Nombreux critères de choix :

  • Interprétabilité.
  • Précision (accessible).
  • Temps de calcul.
  • Compétence.
  • Maintenance.

L’interprétabilité des modèles n’est qu’un critère de choix parmi d’autres.

Interprétabilité coûteuse

L’interprétabilité n’est jamais obtenue gratuitement. Il y a toujours un prix à payer :

  • 1) Soit une diminution de la précision accessible au modèle.
  • 2) Soit une augmentation de la difficulté d’élaboration du modèle

L’interprétabilité ne peut être exigée en soi. Il faut préciser ce que l’on est prêt à payer pour quel degré d’interprétabilité.

Le compromis Précision / Interprétabilité en modélisation prédictive

Régression linéaire

Ietp05

La R.L. est interprétable

Résultat de la R.L. : équation.

Km = -1000 + 500*âge + Ö+0,3*Revenu

Interprétation :

Toutes choses égales par ailleurs, le kilométrage annuel augmente en moyenne de 500km quand l’âge du conducteur augmente de 1 an.

Mais le modèle est manifestement peu précis.

Règ. Non linéaire

Améliorations envisageables de la précision :

  • Régression linéaire par morceaux.
  • Splines, polynômes.
  • Réseaux de Neurones.

Aucune de ces méthodes ne pourra à la fois : 

  • Améliorer la précision accessible
  • Conserver l’interprétabilité.
  • Conserver la fiabilité du modèle

Règ. Lin. par morceaux (1)

 

Ietp06

Règ. Lin. par morceaux (2)

Le modèle est apparemment plus précis que le précédent.

Interprétabilité conservée :

Si Conditions(1) alors RÈg _ Lin(1).

Si Conditions(2) alors RÈg _ Lin(2).

Si Conditions(3) alors RÈg _ Lin(3).

La partie est-elle gagnée ?

Règ. Lin. par morceaux (3)

MAIS :

  • Chacune des régressions n’est construite que sur un nombre de points réduit.
  • Ceci rend chacun des sous-modèles beaucoup plus incertain que le modèle de régression linéaire simple.
  • Le modèle a perdu en crédibilité.

Polynômes ?

On peut améliorer la précision apparente en utilisant un polynôme de degré supérieur à 1.

Km/an = a + Ö + k*âge*Revenu + …

 

Mais : Solution hasardeuse :

  • On montre que les modèles polynomiaux sont entachés de grandes incertitudes.

Comment interpréter k ??

Réseaux de neurones ? (1)

Ietp07

Réseaux de neurones ? (2)

Les Réseaux de Neurones sont les modèles qui donnent les meilleurs résultats.

Mais :

  • Construction délicate.
  • Temps de calcul importants.
  • Peu interprétables.

Les R.N. sont des « boîtes (presque) noires ».

« Juste milieu »

  • Le compromis entre : Précision accessible par le modèle, interprétabilité du modèle, est très général.
  • Certaines techniques cherchent un juste milieu.

Exemple : Arbres de Décision.

Arbres de Décision

 

Ietp08

A.D. et interprétabilité

Le chemin mis en évidence conduit à la règle :

SI (Revenu > 150) ET (âge > 25) ET (Durée > 2 ans)

ALORS  Probabilité_OK = 79%

Les Arbres de Décision produisent donc des décisions interprétables.

Solution miracle ?

Limites des A.D.

Les règles sont d’une utilité limitée :

  • Trop nombreuses, car trop rustiques.
  • Trop incertaines si poussées jusqu’aux feuilles (petites populations).
  • Trop imprécises.

Ce dernier point demande à être expliqué : il constitue la limite fondamentale des Arbres de Décision.

Frontières // axes

Ietp09

Frontières parallèles

Les frontières sont des hyperplans parallèles aux axes.

Ces frontières rigides sont la cause de :

  • Précision des prédictions médiocre.
  • Faible interprétabilité des règles.
  • Mais aussi de la rapidité des A.D..

Peut-on améliorer ?

Frontières « en biais »?

 

 

 Ietp10

Au delà des variables isolées ?

Frontières comme combinaisons linéaires des variables prises par paires ?

Le nombre de choix possibles augmente très vite : temps de calcul importants.

  • Interprétabilité??

SI (1,22*Revenu – 0,44*âge) > 250 ET etc.

  • Interprétation ???

Le compromis Précision / Interprétabilité en modélisation descriptive

M. D. et compression

Modélisation descriptive :

  • Mille et une manières de compresser des données (avec pertes) pour en extraire du sens (interprétation).

Exemples classiques :

  • Clusterisation (regroupement, typologie) : Réduit le nombre d’enregistrements.
  • Réduction de dimensionnalité : Réduit le nombre de champs.

Réduction de dimensionalité

 

Ietp11

ACP

Ietp12

Axes factoriels

 

Ietp13

ACP et interprétation

Interprétation d’une ACP :

  • 1) Nombre de composantes principales significatives.

A peu de choses près, de combien de vraies variables ai-je besoin pour d’écrire mes données ?

  • 2) Interprétation des axes factoriels.

Ex.: L’axe factoriel n°1 oppose les comptes à faible montant moyen et transactions fréquentes, aux comptes largement approvisionnés et aux transactions rares.

  • 3) Interprétation de la position des individus sur les plans factoriels + typologie.

Cartes de Kohonen

 

Ietp14

Interprétation de Kohonen ?

Ont disparu :

  • Les valeurs propres !
  • Les axes factoriels !

Mais :

  • Représentation plus fidèle des données.
  • Clusterisation plus franche des données, et donc mieux interprétable.
  • Proximité naturelle des clusters (Cartes topologiques).

K. et typologie

Ietp15

Conclusions

Interprétabilité

  • Interrogez-vous sur la nécessité d’obtenir des modèles interprétables.

A quoi me sert l’interprétabilité ?

  • Quel est le coût économique de cette interprétabilité?

Soyez prêt à envisager un compromis pour gagner en précision.

(Non)-interprétables ?

Les modèles interprétables sont souvent décevants par :

  • Leur faible précision.
  • Leurs incertitudes (Petites feuilles de A.D.).

Les modèles non interprétables (R.N.) disposent en fait de nombreuses aides à l’interprétation :

  • Identification des extrêma.
  • Visualisation.
  • Analyse des sensibilités.

L’aphorisme du jour !

  • Cette problématique « précision-interprétabilité » entre dans le cadre plus général de la définition des besoins.
  • C’est cette définition qui doit permettre d’identifier la technique appropriée.

On peut faire entrer une vis dans un mur avec un marteau. Mais à quel prix ?

1 found this helpful