top of page

Et si le lakehousing devenait la norme?

  • Photo du rédacteur: Ibrahima Bah
    Ibrahima Bah
  • 13 mars
  • 1 min de lecture

Lors des derniers évènements Data (Snowflake, Databricks…) auxquels nous avons assisté, un sujet revenait systématiquement: Iceberg.


De manière simple, Iceberg est un format de table standard qui permet d’ajouter une couche relationnelle à un Data Lake tout en garantissant une interopérabilité entre différents moteurs de calcul.


À la différence d’une table externe classique, souvent limitée au read-only, Iceberg permet d’effectuer toutes les opérations d’une table native :insert, update, delete…tout en respectant les propriétés ACID, avec des performances quasi-identiques.


Grâce à Iceberg, plusieurs moteurs de calcul peuvent utiliser la même table sans dupliquer les données; la table reste physiquement stockée dans le Data Lake, tandis que des plateformes comme Snowflake, Databricks ou Microsoft OneLake deviennent simplement des moteurs de compute.


Résultat :

🔹une seule copie de la donnée

🔹pas de vendor lock-in

🔹 pas de migration de données lorsqu’on change de plateforme


Dans les grands groupes où les équipes utilisent des technos variées, Iceberg fait le pont et permet à chacune de partager ses données dans un format standard, accessible par différents moteurs de calcul.


🔹 Moins de duplication

🔹 Moins de pipelines pour déplacer les données

🔷Plus de temps pour se concentrer sur la valeur métier


Petite prédiction de Dirakl: dans 10-15 ans, Iceberg pourrait bien devenir la norme pour le stockage des données analytiques😉


Qu’en pensez-vous ? Êtes-vous déjà passés à l’Iceberg ?

Commentaires


bottom of page