Le DataViz - OD-Datamining

Une définition

Le DataViz (abrégé de Data Visualization, visualisation de données) est un terme récent qui désigne aussi bien la production de graphiques pour représenter des informations que les règles permettant que ces graphiques soient efficaces. Un équivalent français de ce terme pourrait être la sémiologie graphique, pour reprendre un terme utilisé par Jacques Bertin dans les années 1960-70. Un autre, plus courant, serait l’infographie, même si ce terme désigne plus souvent le résultat (le graphique lui-même) que les conditions de son efficacité.

La représentation graphique de données n’est pas aussi ancienne qu’on pourrait le penser. La plupart des théoriciens du sujet accordent une paternité à l’écossais William Playfair dans un recueil de statistiques publié à la fin du 18e siècle. Outre Jacques Bertin cité plus haut, les grands penseurs du DataViz sont les américains

Edward Tufte pour les règles d’efficacité d’un graphique
John Tukey, inventeur de la boxplot ou boîte à moustaches
William Cleveland, inventeur du lissage LOESS et du trellis plot (équivalent des small multiples proposés par Tufte : on démultiplie les graphiques en petite taille pour comparer plus aisément de nombreuses informations)

qui ont tous publié leurs travaux sur le sujet dans le dernier quart du XXe siècle.

De nombreux exégètes du travail de Tufte se proposent particulièrement d’adapter ses principes aux graphiques utilisés au quotidien dans le monde de l’entreprise. Citons parmi eux les américains Stephen Few et Colin Ware. Tous deux croisent dans leurs publications les résultats d’études biologiques et cognitives sur le fonctionnement du couple œil/cerveau, les travaux allemands des années 20 (gestaltisme) et les enseignements esthétiques de Tufte pétris d’art minimaliste. Leurs enseignements sont directement appliqués à des besoins quotidiens (tableaux de bords, Business Intelligence) pour les rendre les plus efficients possibles.

Un exemple

L’exemple qui suit est tiré d’une publication de la Banque de France, le Rapport de l’Usure 2014, disponible en ligne (https://www.banque-france.fr/publications/publications/rapport-de-lusure.html) ; ce graphique apparaît en haut de la page 15 du rapport.

Les questions clés du DataViz sont les suivantes :

Que veut-on mettre en avant, quel est le message ?
Peut-on utiliser moins de couleurs ?
Peut-on se dispenser d’afficher les chiffres ?
Peut-on rendre le graphique plus simple ?
Peut-on rendre le graphique plus efficace ?

Dans cet exemple, la réponse à la 1e question est probablement la comparaison de la structure du crédit à la consommation des particuliers entre mars 2011 et décembre 2013. Les totaux d’encours étant relativement proches (150 milliards et 144 milliards) on peut se focaliser sur la répartition de ces totaux en pourcentages par type de prêt.

Dans les diagrammes circulaires (camemberts et ici donut), on ne peut pas faire l’économie d’un grand nombre de couleurs. Ce qui rend le graphique compliqué à mémoriser (on trouvera difficilement des couleurs mnémotechniques pour les types de prêts) et donc long et fatiguant à lire. De plus une impression (noir et blanc, mais le souci peut également survenir avec une mauvaise imprimante couleur) ou une projection risque de dégrader la lisibilité du graphique en diminuant les différences entre couleurs.

Les diagrammes circulaires sont notoirement mal évalués par le couple œil/cerveau. On chiffre l’approximation d’une aire ou d’un angle à ± 30%, alors qu’une distance ou une longueur est estimée à 10% près environ. Donc l’omission des chiffres sur le graphique rend les comparaisons encore plus difficiles : les faibles variations entre les deux donuts ne se verront pas. L’efficacité du graphique n’est donc probablement pas optimale.

Peut-on fusionner ces deux diagrammes circulaires en un seul ? Il existe des dispositions où on insère un donut dans le trou d’un autre. Cependant, le problème des couleurs nombreuses demeure, de même que les aller-retour que doit faire l’œil avec la légende. Un graphique unique serait plutôt composé de barres côte à côte.

Un graphique en bâtons peut être construit horizontalement ou verticalement. L’avantage des barres horizontales est que les catégories associées aux barres sont écrites à l’horizontale, ce qui simplifie leur lecture quand ces intitulés sont longs, comme ici. Avec des barres verticales, soit on construit des graphiques de grande taille pour faire tenir des libellés longs à l’horizontale, soit on les coupe pour revenir à la ligne (une possibilité pas toujours offerte par les logiciels), soit on les pivote comme ci-dessous (produit avec Excel 2010).

Les barres horizontales sont ici beaucoup plus lisibles et mettent les écarts plus en lumière dans les mêmes dimensions globales d’image.

On peut de surcroît se limiter à deux couleurs (une claire et une foncée, celle dernière pour la catégorie à mettre en avant) pour les deux périodes à comparer. Et ordonner les barres en fonction d’un pourcentage (celui de 2013 ou celui de 2011) ou de l’écart 2013 vs 2011 pour mettre en avant les différences les plus criantes.

Notre offre autour du DataViz

Nous proposons une formation dédiée aux principes qui rendent un graphique efficace [VISUAL]. Elle peut être couplée avec des formations sur les possibilités graphiques de tel ou tel logiciel (SAS, R, Excel, …).

Nous pouvons également intervenir en mission de conseil pour vous aider à simplifier vos tableaux de bord et à les rendre plus efficaces.