AWS verklaart ondersteuning Iceberg

AWS gebruikt de Apache Iceberg open table format voor zijn analytics, machine learning en storage. Dat doet het op vraag van klanten die S3 object storage gebruiken.

AWS omarmt het open Iceberg-formaat, maar waarom? Iceberg is voor het eerst vernoemd in 2023 in een preview van Redshift, een datawarehouse dat klanten kunnen gebruiken om analytische query’s uit te voeren in externe datalakes. Maar waarom gebruikt AWS net dit format en bijvoorbeeld niet Delta Lake?

Waarom Iceberg?

Iceberg werd in 2015 door Netflix ontwikkeld omdat Hive Tables op S3 niet voldeed aan de noden. Sindsdien is het een open formaat. Iceberg voegt een extra laag metadata toe aan datasets waardoor tabellen kunnen worden aangepast zonder dat de hele dataset opnieuw moet worden doorgestuurd.

Volgens Andy Warfield, ingenieur bij AWS, helpt Iceberg klanten om databases te combineren met data opgeslagen in S3. Dankzij de metadata in Iceberg kunnen gebruikers gemakkelijk aanpassingen maken in hun datasets.

AWS introduceerde S3 Tables op re:Invent 2024, een nieuwe Iceberg-functie die data-analyse sneller maakt door pre-partities en automatische updates en optimalisaties. Daarnaast werkt het goed samen met populaire tools zoals Sagemaker en Redshift, weet The Register. De Iceberg-aanpak wordt ook gebruikt in Sagemaker, het platform voor machine learning, en dient om een aantal aspecten van datawarehousing, analyses en datalakes te vergemakkelijken.

AWS heeft voor Iceberg gekozen vanwege de brede steun van technologiebedrijven zoals Google en Snowflake. Daardoor laat de cloudgigant Delta Lake links liggen. Dat format is ontwikkeld door Databricks en is erg populair bij Microsoft. Delta Lake is ook open source, maar AWS vindt dat Iceberg zowel technisch voldoet aan de noden, als praktisch aan de actuele vraag van klanten.

Itdaily - AWS verklaart ondersteuning Iceberg

Waarom Iceberg?

AWS veroverde de wereld, maar België nog niet: hoe komt dat?