Een incompatibele update van de databasestructuur veroorzaakte op 16 december een wereldwijde storing bij Snowflake. Gebruikers in meerdere regio’s konden urenlang geen query’s uitvoeren en ondervonden problemen bij het laden van data.
Op dinsdag 16 december ondervonden klanten van Snowflake in minstens tien cloudregio’s hinder van een storing in het platform. De problemen duurden van 2:55 tot 15:59 UTC, wat neerkomt op bijna dertien uur. Tijdens die periode konden gebruikers geen of vertraagde query’s uitvoeren. Ook Snowpipe en Snowpipe Streaming – twee diensten om data automatisch in te laden – werkten niet zoals verwacht.
De storing trof onder meer datacenters in de VS (Virginia en Oregon), Europa (Ierland, Londen, Zürich, Zweden), Azië (Singapore, Mumbai) en Mexico. Gebruikers meldden foutmeldingen zoals SQL execution internal error. Daarnaast verscheen data clustering in sommige gevallen als ‘ongezond’, wat kon wijzen op prestatieproblemen.
Updatefout
De oorzaak van het incident lag bij een fout in een nieuwe softwareversie die Snowflake eerder had uitgerold. Die update bevatte een wijziging in de databasestructuur die niet compatibel bleek met eerdere versies. Daardoor ontstonden fouten bij het aanroepen van bepaalde datavelden, wat leidde tot versieconflicten en falende operaties.
Voor de getroffen gebruikers was er geen tijdelijke oplossing beschikbaar. Enkel klanten die gebruikmaakten van replicatie naar niet-getroffen regio’s konden gedeeltelijk blijven werken. Snowflake gaf aan dat na het terugdraaien van de wijziging de situatie genormaliseerd werd. Mogelijk ondervonden sommige klanten nog vertragingen in dataverwerking door een opstapeling van ingestuurde verzoeken, maar intussen zou alles opnieuw normaal moeten werken.
Impact
Snowflake positioneert zich als centraal platform voor alle data van een onderneming, net als de (AI-)toepassingen die daarop gebouwd worden. Een storing, en zeker één die uren aanhoudt, heeft dus een grote impact op ondernemingen in hun productie-omgevingen.
De oorzaak van de storing lijkt in dit geval te maken te hebben met onvoldoende robuuste testprocedures. Een update die compatibiliteit stuk maakte, werd toch op grote schaal uitgerold en het duurde best lang voor Snowflake dat probleem kon identificeren en oplossen. Zoiets mag eigenlijk niet gebeuren, maar komt in de praktijk vaak voor. Voor Microsoft zijn bugs in updates haast maandelijkse kost.
