Cas d'utilisation AirBNB

Si vous n'avez pas de compte dataplatform, connectez vous à https://eu.dataplatform.ovh.net/ avec votre email et votre mot de passe

Accueil DataPlatform

Configuration de la Source de Données

Datacatalog

L'objectif est d'obtenir deux fichiers csv à partir du point de terminaison s3 : reviews.csv et listings.csv. Allez dans la section Datacatalog et cliquez sur créer une source.

Creation de la source S3 compatible

Étape 2 : Créer une Nouvelle Source de Stockage Compatible S3

Renseignez comme suit les informations pour créer une nouvelle source de stockage S3.

Champ	Valeur
Access key	f15278c3829a4a03b1c4ed0ee779410c
Secret key	d4cfeb306fe44cd6b8cf78d8f9932fe1
Endpoint	s3.gra.io.cloud.ovh.net
Bucket	rbnbfortechlab
Region	gra

Étape 3 : Analyser les Données avec l'Analyseur

Allez dans la partie Analyser et lancez l'analyse sur les deux fichiers.
Voir l'impact des blueprints. Edition d'un blueprint

Éditer l'attribut review_per_month du blueprint et remplacer la règle replace by par la valeur 0 lorsque le champ est vide.

Edition d'un blueprint

Configuration du Lakehouse Manager

Étape 1 : Créer des Tables à Partir des Sources de Données

Create from source

Créer 2 tables à partir des 2 sources de données précédentes : listings et reviews

Étape 2 : Créer des Tables de Travail

Créer une troisième table vide, avec 9 attributs, nommée aggregation

Create from empty

Attribut	Type	Category
id	Double	Measure
latitude	String	Measure
longitude	String	Measure
room_type	String	Measure
price	Double	Measure
date	Date	Dimension
comment	String	Measure
emotion	String	Measure
avantage	String	Measure

Vous pouvez maintenant construire la table. (Build en haut à Droite)

Dupliquer cette table et la nommer review3031122023

Reconstruire toutes les tables.

Création d'Actions et de Flux de Travail : Data Processing Engine

Vous avez déjà 2 actions de chargement prédéfinies : elles ont été créées lors de la création des tables à partir des sources de données.

result from source load

Étape 1 : Créer une Action d'Agrégation

Créer une action d'agrégation et joindre sur id et listing_id, mettre l'agrégation dans la table d'agrégation.
listings.id = reviews.listing_id
Mapper les champs corrects et supprimer de l'agrégation l'émotion et l'avantage. Exécuter l'action.

aggregation action

Après l'exécution correcte de l'action, vous pouvez vérifier dans Lakehouse manager => explorer que vos données sont là.

result aggregation

Étape 2 : Action Customisée

Maintenant, nous voulons uniquement les commentaires du 30 et 31 décembre 2023 afin de pouvoir plus tard lancer une analyse sentimentale via AI endpoint.