Et si le lakehousing devenait la norme?

Ibrahima Bah
13 mars
1 min de lecture

Lors des derniers évènements Data (Snowflake, Databricks…) auxquels nous avons assisté, un sujet revenait systématiquement: Iceberg.

De manière simple, Iceberg est un format de table standard qui permet d’ajouter une couche relationnelle à un Data Lake tout en garantissant une interopérabilité entre différents moteurs de calcul.

À la différence d’une table externe classique, souvent limitée au read-only, Iceberg permet d’effectuer toutes les opérations d’une table native :insert, update, delete…tout en respectant les propriétés ACID, avec des performances quasi-identiques.

Grâce à Iceberg, plusieurs moteurs de calcul peuvent utiliser la même table sans dupliquer les données; la table reste physiquement stockée dans le Data Lake, tandis que des plateformes comme Snowflake, Databricks ou Microsoft OneLake deviennent simplement des moteurs de compute.

Résultat :

🔹une seule copie de la donnée

🔹pas de vendor lock-in

🔹 pas de migration de données lorsqu’on change de plateforme

Dans les grands groupes où les équipes utilisent des technos variées, Iceberg fait le pont et permet à chacune de partager ses données dans un format standard, accessible par différents moteurs de calcul.

🔹 Moins de duplication

🔹 Moins de pipelines pour déplacer les données

🔷Plus de temps pour se concentrer sur la valeur métier

Petite prédiction de Dirakl: dans 10-15 ans, Iceberg pourrait bien devenir la norme pour le stockage des données analytiques😉

Qu’en pensez-vous ? Êtes-vous déjà passés à l’Iceberg ?

#ApacheIceberg #DataEngineering #Dirakl

Et si le lakehousing devenait la norme?

Posts récents

Commentaires