L'utilisation des méthodes PLS dans les études de satisfaction

Introduction : le contexte

Les données issues de questionnaires de satisfaction ont certaines particularités : Il y a souvent beaucoup de questions très liées entre elles (corrélations importantes).
Les questions sont souvent regroupées par thème ; chaque thème exprimant un concept . On cherche alors à simultanément décrire le contenu de chaque thème et explorer les liaisons entre les thèmes, en particulier celui qui reflète la satisfaction. Il faut alors disposer de modèles à plusieurs équations.
La notion de satisfaction elle-même n’est pas souvent réductible à une seule variable mesurable.
La description de ce type de données ne pose pas de problèmes particuliers (analyses factorielles avec choix des thèmes actifs et illustratifs, typologies …)
Les méthodes prédictives classiques s’appliquent mal ou difficilement à ces données

La régression PLS

Les objectifs

La régression PLS répond à deux objectifs :

Prédiction : Relier un bloc de variables à expliquer Y à un bloc de variables explicatives X.
Description : Décrire simultanément les relations entre les variables composant le bloc des X, les variables composant le bloc des Y, et les liaisons entre X et Y

Données d’exemple

Le questionnaire porte sur 6 items, plus une question de satisfaction globale (les questions sont sur une échelle de 1 à 10).

Les items peuvent être séparés en deux groupes :

Un groupe ‘IMAGE’ (Manufacturer image, Salesforce image)
Un groupe ‘STRATEGY’ (Delivery Speed, Price flexibility, Service, Usage Level)

Le but est de relier ces items à la satisfaction globale.

Corrélations entre la satisfaction globale et les items

Toutes les corrélations sont significatives
Les corrélations nous donnent la hiérarchie des liaisons des items avec la satisfaction globale
Les items du groupe ‘strategy’ sont plus liés à la satisfaction que ceux du groupe ‘image’

L’analyse en composantes principales

La premier plan reconstitue 75% de l’inertie
On voit clairement les deux groupes de variables ‘Image’ et ‘Stratégie’
La satisfaction est plus liée à la stratégie qu’à l’image.

Les résultats de la régression multiple

regression-multiple

La variable ‘Usage level’ n’est pas significative alors que c’est la plus corrélée à la satisfaction globale.
Les coefficients pour ‘Salesforce image’ et ‘Usage Level’ sont négatifs alors que ces variables sont corrélées positivement à la satisfaction globale

Les résultats de la régression PLS (modèle à une seule composante)

Équation liant la satisfaction aux items (données centrées réduites) :

On peut l’utiliser pour prévoir la satisfaction d’un individu à partir de ses notes
Ses valeurs ne sont pas très différentes de l’équation sur les données centrées réduites, car les échelles et les dispersions dans les notes sont voisines

Les résultats de la régression PLS

Description des questions formant le bloc ‘X’ (R² des items surla première composante)

La première composante PLS reconstitue 63% de X1 (delivery speed), 28% de X3 (price flexibility), 21% de X4 (manufacturer image) …
Les items du bloc ‘image’ (X4 et X6) sont moins bien reconstitués que ceux du bloc ‘strategy’ (X1 X3 X5 X9)
Le modèle reconstitue 46.05% de l’inertie totale du bloc des ‘X’

Conclusion : la régression PLS

La régression multiple est orientée vers l’ « explication » de y et cela peut se faire au détriment de certaines variables (coefficients non significatifs, signes aberrants …)
L’ACP réalise la meilleure description du bloc des X, mais cela se fait indépendamment de y
La régression PLS est une méthode orientée simultanément vers la description des X et l’ « explication » de Y ; l’utilisateur obtient ainsi :

Un bon ajustement à y
Une meilleure cohérence dans les signes et les importances relatives des coefficients
Une description satisfaisante du bloc des X

L’ utilisation des méthodes PLS dans les études de satisfaction

L’ Approche PLS (utilisation de la méthode PLS pour la modélisation de relations structurelles sur variables latentes)

Modélisation de relations structurelles sur variables latentes

La modélisation de relations structurelles sur variables latentes met en jeu 3 composantes :

Les variables manifestes (ou indicateurs, ou variables mesurées)
Les variables latentes (ou concepts, facteurs)
Les relations entres variables (corrélations, covariances)

En combinant ces 3 composantes, l’utilisateur peut avec ce type de modèles :

Spécifier simultanément plusieurs relations entre les variables (les modèles consistent en une estimation de séries de régressions séparées mais interdépendantes). L’utilisateur spécifie ces relations dans le modèle structurel
Incorporer des variables qu’il n’est pas possible de mesurer directement. Une variable latente est une variable ou un concept que l’on peut seulement approcher par des variables mesurées

La représentation des modèles se fait traditionnellement sous forme de schémas structurels :

Les variables manifestes sont représentées sous forme de carrés (pour des études basées sur des questionnaires, chaque indicateur représente une question)
Les variables latentes sont normalement représentées comme des cercles
Les relations sont représentées avec des flèches ; des flèches simples pour indiquer une causalité, des flèches courbes indiquant les deux extrémités pour des corrélations.

modelisation

L’approche PLS

L’approche PLS partage ces caractéristiques avec les autres techniques de modélisation SEM classiques.
Par rapport aux autres techniques, elle permet de travailler sur des données individuelles et donc faire de la prévision (les techniques classiques comme LISREL travaillent sur des matrices de covariance et l’on a plus accès aux données individuelles)
On peut travailler avec beaucoup de variables (compatible avec une approche exploratoire)

Estimation de l’indice ECSI (cette partie reprend les résultats de MP Bayol, C Tellier, M Tenenhaus, CISIA•CERESTA, HEC – 2001)

L’indice européen ECSI est un baromètre de satisfaction des consommateurs. Cet indice est inspiré d’un modèle suédois et est compatible avec l’indice américain de Claes FORNELL.
Il met en œuvre 7 variables latentes liées entre elles. Le modèle est basé sur des théories du comportement des consommateurs et est applicable à de nombreux secteurs.
Parmi ces 7 variables 5 sont obligatoires et 2 optionnelles

causalite

Les 5 concepts obligatoires sont en vert, les 2 optionnels sont en jaunes, les flèches représentent les relations de causalité
La structure globale constitue le modèle ECSI

Les équations du modèle

1. Relations entre les variables manifestes et les variables latentes :

Chaque variable manifeste est liée à sa latente par une régression simple (chaque item reflète une partie de sa latente)

2. Relations entre les variables latentes :

Corrélations entre les latentes et les manifestes (ρ>0.5)

tableau

1/ Relations entre les manifestes et les latentes :

On donne ici les poids reliant les latentes standardisées aux manifestes
Par exemple la variable latente IMAGE est estimée par la formule :

IMAGE = 0.1610 IMAS1

+ 0.1406 IMAS2

+ 0.1515 IMAS3

+ 0.1590 IMAS4

+ 0.1597 IMAS5

La communalité entre IMAGE et IMAS1 (i.e la partie que IMAGE a en commun avec IMAS1) est de 51.37% [la communalité est l’analogue de la mesure cos² en ACP]
IMAS4 est l’item le plus proche du concept latent IMAGE

imsaS4

ACP du groupe ‘Image’

Le groupe IMAGE est homogène

1/ Relations entre les manifestes et les latentes (suite) :

Pour ECSI, l’estimation donne :

ECSI = 0.1759 CUSA1

+ 0.2568 CUSA2

+ 0.2928 CUSA3

L’item CUSL2 ne reflète pas le concept latent CUS_LOY (sa communalité est de 7.48% contre plus de 70% pour les deux autres items)

ACP du groupe ‘Customer Loyalty’

Le groupe n’est pas homogène
La variable CUSL2 ne reflète pas sa latente

2/ Le modèle

2-le-modele-sas

Le modèle de causalité ci-dessus résume les principales liaisons du modèle ECSI. Les coefficients entre deux latentes sont les coefficients des régressions simples et multiples entre les variables. On donne également le R² de ces régressions. Ces deux informations figurent dans les sorties du logiciel LVPLS.
Les niveaux de significativité de ces coefficients sont donnés à côté des coefficients. Dans le cas où le coefficient est significativement différent de 0, les flèches sont en gras.

Commentaires

Les concepts « Image », « Perceived value » et « Perceived quality » ont un impact significatif sur « Customer Satisfaction ». C’est la qualité perçue qui a l’impact le
plus important sur la satisfaction : 0.544. ( L’image et la valeur perçue ont moins d’impact : 0.200 et 0.153). Il n’est pas étonnant que la qualité réelle des téléphones mobiles soit plus importante pour les utilisateurs que des caractéristiques marketing plus ou moins abstraites.
Les attentes du client n’ont pas d’impact direct sur la satisfaction.
La fidélité est un facteur très important dans le secteur de la téléphonie mobile : elle dépend essentiellement de la satisfaction (0.466) et dans une moindre mesure de l’image (0.212).
On peut noter que les réclamations dépendent de la satisfaction mais n’ont pas d’impact direct sur la fidélité.
Il faut cependant rester prudent quand à l’interprétation des coefficients non significatifs : cela peut venir d’un problème d’interdépendance entre variables
Pour pallier ce problème, il serait judicieux d’utiliser la régression PLS (Martens & Næs, 1989, Tenenhaus, 1998) pour évaluer les impacts entre les latentes plutôt que des régressions multiples « classiques ».

Validation des résultats

La validation des résultats se fait :

Par Validation croisée
Par Jackknife (c’est la méthode disponible par défaut dans LVPLS)

Conclusion : l’approche PLS

L’approche PLS est une technique très puissante pour la modélisation des relations structurelles sur variables latentes
Possibilité d’utiliser les méthodes de type jackknife ou validation croisée pour tester les coefficients
Possibilité de travailler sur des données individuelles et donc de faire de la prévision
Ces caractéristiques en font une méthode qui facilite l’analyse des modèles complexes dans des circonstances qui font achopper les autres méthodes (non normalité, multicolinéarité, données qualitatives …)

Conclusion

Conditions suggérant l’utilisation de la régression PLS

Avez vous des problèmes de multicolinéarité avec des variables très corrélées entre elles ?
Avez-vous beaucoup de variables ?
Travaillez-vous avec des modèles mettant en oeuvre des variables latentes ?
Avez vous des problèmes de multicolinéarité avec des variables très corrélées entre elles ?
Avez-vous beaucoup de variables ?

Références

La régression PLS, théorie et Pratique Michel TENENHAUS, technip 1999
ECSI ‘2000 : Use of PLS Path Modelling to estimate the European Consumer Satisfaction Index (ECSI) modelMP Bayol, C Tellier, M Tenenhaus (www.cisia.com/cisia/download/PLS_CISIA.doc)
LVPLS Program Manual, Version 1.8 LOHMÖLLER JB Zentralarchiv für Empirische Sozialforshung, Köln 1987
PLS’ 2001 : 2ème Symposium International sur les Méthodes PLS Capri Palace, Île de Capri (Naples, Italie), du 1er au 3 octobre 2001, Co-organisé par le CISIA·CERESTA, HEC et l’Université de Naples « Federico II

Annexes

Les questions du thème ‘attentes’ telles qu’elles apparaissent dans le questionnaire

L’utilisation des méthodes PLS dans les études de satisfaction

Introduction : le contexte

La régression PLS

Les objectifs

Données d’exemple

Corrélations entre la satisfaction globale et les items

L’analyse en composantes principales

Les résultats de la régression multiple

Les résultats de la régression PLS (modèle à une seule composante)

Les résultats de la régression PLS

Conclusion : la régression PLS

L’ utilisation des méthodes PLS dans les études de satisfaction

L’ Approche PLS (utilisation de la méthode PLS pour la modélisation de relations structurelles sur variables latentes)

Modélisation de relations structurelles sur variables latentes

L’approche PLS

Estimation de l’indice ECSI (cette partie reprend les résultats de MP Bayol, C Tellier, M Tenenhaus, CISIA•CERESTA, HEC – 2001)

Les équations du modèle

Corrélations entre les latentes et les manifestes (ρ>0.5)

1/ Relations entre les manifestes et les latentes :

ACP du groupe ‘Image’

1/ Relations entre les manifestes et les latentes (suite) :

ACP du groupe ‘Customer Loyalty’

2/ Le modèle

Commentaires

Validation des résultats

Conclusion : l’approche PLS

Conclusion

Conditions suggérant l’utilisation de la régression PLS

Références

Annexes

Le questionnaire ECSI

Le questionnaire ECSI

Le questionnaire ECSI