logo

données AirBnB Présentation des données AirBnB

données AirBnB Présentation des données AirBnB

Les données concernent des locations sur le site d’AirBnB à Paris, à la date du 03/07/2016. Elles ont été collectées par InsideAirBnB.

Les fichiers bruts sont au format CSV pour trois d’entre eux (flats, houses et calendar) avec un séparateur virgule ; il y a également un classeur Excel (other) et une table SAS (lis). Cette dernière représente la compilation des annonces de flats, houses et other.

Les informations contenues dans flats, houses et other sont identiques, seul le type de logement diffère. L’objet flats contient uniquement des appartements (valeurs “Apartment”, “Condominium” et “Loft” de la colonne property_type) tandis que houses ne présente que des maisons (valeurs “House”, “Townhouse” et “Villa”). Les autres types de logements (bateaux, tipi, chalet, et même igloo – à Paris ! ) qui sont regroupés dans other.

Les colonnes des objets flats, houses et other sont décrites dans le tableau ci-dessous Seule une partie des informations disponibles sur InsideAirBnB a été conservée pour les objets que nous manipulerons.

Nom de la colonne Description
id Identifiant du logement, unique
listing_url Adresse Internet de l’annonce sur le site AirBnB.com
last_scraped Date de dernière extraction des informations sur ce logement
host_id Identifiant de l’hôte ; permet de compter le nombre de logements proposés par la même personne (record dans l’objet flats : 153 !)
host_name Nom sous lequel l’hôte se présente sur le site AirBnB.com
host_since Date d’inscription de l’hôte
host_location Lieu de résidence de l’hôte
neighbourhood Quartier dans lequel le logement est localisé (plus de 60 valeurs dans flats) tel que décrit dans l’annonce
neighbourhood_cleansed Version normalisée du quartier (seulement 20 valeurs dans flats)
zipcode Code postal de rattachement du logement , certaines valeurs étant assez surprenantes. Normalement toutes devraient être sur 5 chiffres commençant par 75.
property_type Type de logement (maison, appartement, igloo, etc.)
room_type Type d’hébergement proposé : logement entier (“Entire home/apt”), chambre privatisée (“Private room”) ou chambre en partage (“Shared room”)
accommodates Nombre de personnes maximum pouvant être accueillies dans ce logement
bathrooms Nombre de salles de bains. Les valeurs ne sont pas forcément entières, il y a des demi-salles de bains !
bedrooms Nombre de chambres. Ici les valeurs sont entières ou manquantes
beds Nombre de lits. Ici les valeurs sont entières ou manquantes
price Prix de location par nuit en euros, tel que visible sur la page de présentation du logement. Il s’agit en général du prix minimum et des tarifs plus élevés peuvent être demandés pour certaines dates, tandis que des réductions pour des séjours de longue durée peuvent également être consentis par l’hôte
number_of_reviews Nombre d’avis sur ce logement visibles sur le site AirBnB.com
review_scores_rating Note moyenne de ces avis, entre 0 et 100. Les logements sans avis ont des valeurs manquantes
cancellation_policy Conditions d’annulation de la location (remboursement du prix déjà payé, partiel ou intégral) : quatre valeurs “super strict”, “strict”, “moderate” et “flexible”. Pour plus de détails se reporter au site AirBnB.com
amenities Equipements disponibles dans ce logement, sous forme d’une liste où les éléments sont séparés par le caractère |. La notion d’équipement intègre aussi bien des biens matériels comme une télévision ou un lave-linge, des services comme l’accès Internet ou le wifi, une politique d’accueil (fumeurs acceptés, peut accueillir des fêtes) ou des mises en garde comme la présence de chats ou de chiens dans le logement

L’objet calendar contient quant à lui beaucoup moins de colonnes et beaucoup plus de lignes. Il contient les disponibilités annoncées entre entre le 3 juillet 2016 et le 3 juillet 2017, à la date 3 juillet 2016.

  • listing_id est l’identifiant du logement. Ses valeurs sont identiques à celles de la colonne id des objets flats et houses. Cette colonne sert de clé de jointure pour rapprocher ces objets du calendrier des prix
  • date est la date de location considérée. Les combinaisons de date et d’identifiant logement sont uniques
  • price est le prix en euros demandé pour une nuitée dans ce logement à cette date. Les valeurs manquantes ont été éliminées : si une date est absente pour un logement, c’est qu’il n’est pas proposé à la location. En comptant les lignes par identifiant logement, on peut donc savoir combien de jours ce logement était disponible (365 au maximum).