Snowflake laat Apache Spark-code draaien zonder cluster

Snowflake laat Apache Spark-code draaien zonder cluster

De nieuwe connector maakt het mogelijk om Spark-workloads rechtstreeks in Snowflake uit te voeren.

Snowflake introduceert de Snowpark Connector, waarmee gebruikers Apache Spark-code direct in het cloud datawarehouse kunnen draaien, zonder een aparte cluster op te zetten.

Sneller en goedkoper

De functie maakt gebruik van Spark Connect, een client-serverarchitectuur clienttoepassingen kan verbinden met externe Spark-clusters. Chris Child, VP productmanager bij Snowflake, zei in The Register dat de oplossing gemiddeld 5,6 keer sneller presteert en circa 40 procent kostenbesparing levert dan traditionele Spark-omgevingen, bij net dezelfde code en data.

Dankzij Snowflake’s geoptimaliseerde vector-engine moeten gebruikers zich niet bezig houden met afhankelijkheden, versies of upgrades. Alle moderne Spark DataFrame-, Spark SQL- en door gebruikers gedefineerde code wordt ondersteund.

Datawarehouses en datalakes in één

De stap helpt om datalake- en datawarehouse-platformen naar elk aar toe te laten groeien. Concurrent Databricks, oorspronkelijk rond Spark gebouwd, doet hetzelfde met zijn ‘lakehouse’-concept, terwijl Snowflake steeds meer lake-functionaliteit toevoegt.

“We hebben geïnvesteerd in Snowpark Connect om mensen code te laten gebruiken zoals ze willen,” aldus Child. Onlangs introduceerde het bedrijf een vernieuwde analytics-aanpak met Cortex AISQL en SnowConvert AI. Het wil Snowflake AI ook toegankelijker maken voor datawetenschappers.