Google Cloud heeft zijn excuses aangeboden voor een storing van bijna 13 uur in zijn europe-west3-regio, gelegen in Frankfurt, Duitsland.
De storing binnen Google Cloud opeurope-west3-regio begon op donderdag 24 oktober om 02u30 uur en werd om 15u09 verholpen. De oorzaak van de storing was een stroomuitval en een probleem met de koeling. Hierdoor viel een deel van de datacenters in deze zone uit, wat resulteerde in verstoorde diensten.
Google Cloud meldt dat ingenieurs een oplossing hebben geïmplementeerd om het datacenter weer volledig operationeel te maken.
Diverse diensten werden getroffen door de storing: Cloud Build, Cloud Developer Tools, Cloud Machine Learning, Google Cloud Dataflow, Google Cloud Dataproc, Google Cloud Pub/Sub, Google Compute Engine, Google Kubernetes Engine, Persistent Disk en Vertex AI Batch Prediction.
Gebruikers rapporteerden onder andere problemen met het aanmaken van virtuele machines (VM’s) en het onbereikbaar zijn van bepaalde schijfopslag. In de Google Kubernetes Engine waren nodes in de getroffen zone onbereikbaar, en het aanmaken van nieuwe nodes mislukte soms. Bij Cloud Dataflow vertraagde het opschalen van batch workers, terwijl sommige streamingtaken niet goed konden doorlopen.
lees ook
Google Cloud ziet convergentie als sleutel van cloudbeveiliging
Gebruikersmeldingen en reacties
Hoewel de meeste problemen zich beperkten tot één zone, was er op regionaal niveau ook sprake van beperkte impact. Google benadrukt dat minder dan één procent van de operaties die resources in de andere zones aanraakte, interne fouten ervaarden.
Google Cloud informeerde gebruikers 26 minuten na het begin van de storing, maar reikte pas na drie uur een oplossing uit. Gebruikers werd geadviseerd om workloads naar andere zones of regio’s te migreren en om regelmatig snapshots te maken van gedegradeerde regionale schijven.
De zoekgigant geeft aan lessen te hebben getrokken uit deze incidenten om de betrouwbaarheid in de toekomst te verbeteren.