logo

données Conso Présentation des données Conso

données Conso Présentation des données Conso

Les données concernent des achats par des clients ayant une carte de fidélité dans une chaîne fictive de moyennes et grandes surfaces. Elles sont regroupées en quatre jeux de données : le principal est transactions (une table SAS de quasiment 22 millions d’observations) ; on peut utiliser à la place transactions_small qui est un échantillon à 1% (donc seulement 220 000 lignes environ).

Les autres jeux de données sont

  • la liste des magasins (format Excel) avec leur surface, la présence d’un parking, d’un drive et d’une galerie marchande
  • une table de relation entre les identifiants des items (produits) vendus et le rayon dans lequel ils sont classés, sous forme de fichier texte à séparateur tabulation
  • les libellés des rayons en question (format Excel)

Les données transactions correspondent à des détails de tickets de caisse. Chaque ligne correspond à une ligne d’un ticket. On y trouve l’identifiant du client (variable client), celui du magasin (id_mag), celui du ticket de caisse (id_trans) et la date du passage en caisse (date_trans). Sont ensuite indiqués le produit acheté (id_item), la quantité (quantite), le prix unitaire (prix) et le total que représente quantité * prix (ca). Les prix sont en euros.