Les données concernent des achats par des clients ayant une carte de fidélité dans une chaîne fictive de moyennes et grandes surfaces. Elles sont regroupées en quatre jeux de données : le principal est transactions
(une table SAS de quasiment 22 millions d’observations) ; on peut utiliser à la place transactions_small
qui est un échantillon à 1% (donc seulement 220 000 lignes environ).
Les autres jeux de données sont
- la liste des
magasins
(format Excel) avec leur surface, la présence d’un parking, d’un drive et d’une galerie marchande - une table de relation entre les identifiants des items (
produits
) vendus et le rayon dans lequel ils sont classés, sous forme de fichier texte à séparateur tabulation - les libellés des
rayons
en question (format Excel)
Les données transactions
correspondent à des détails de tickets de caisse. Chaque ligne correspond à une ligne d’un ticket. On y trouve l’identifiant du client (variable client
), celui du magasin (id_mag
), celui du ticket de caisse (id_trans
) et la date du passage en caisse (date_trans). Sont ensuite indiqués le produit acheté (id_item
), la quantité (quantite
), le prix unitaire (prix
) et le total que représente quantité * prix (ca
). Les prix sont en euros.