Hittegolf zette datacenter Google in vuur en vlam

vuur server hittegolf

Het Londense datacenter van Google dreigde te oververhitten de hittegolf in het VK twee weken geleden. Google moest het datacenter offline halen met een storing tot gevolg.

Op 19 juli bereikte de temperatuur over heel Europa heen recordhoogtes. De hittegolf hakte er stevig in op de datacenters van onder meer Google en Oracle in Londen, met storingen op het internet tot gevolg. Google heeft een rapport gepubliceerd om meer tekst en uitleg te geven bij het incident en hoe het het vuur uiteindelijk ook weer in de kiem wisten te smoren.

Rond omstreeks 14u30 lokale tijd kregen de ingenieurs van Google in de gaten dat er iets niet pluis was in hun datacenters in Londen. Meer bepaald de zone europe-west-2-a dreigde oververhit te raken door het falen van de koelingssystemen. Op het warmste moment van de dag tikte het kwik in Londen de 40°C aan, temperaturen die hoogstens ongewoon zijn in het Verenigd Koninkrijk. De koelingssystemen waren dan ook niet ontworpen om zulke extreme weersomstandigheden de baas te kunnen.

Noodingreep

De ingenieurs van Google probeerden het probleem eerst met mitigaties op te lossen om de servers toch online te kunnen houden. Maar omdat de temperatuur ook ’s avonds niet onder de 35°C zakte, werd om 18u lokale tijd besloten om aan de noodrem te trekken. Google haalde de getroffen zone offline om in alle stilte de koelingssystemen te kunnen herstellen. Een ingreep die op zichzelf al meer dan vier uur in beslag nam.

Het stilleggen van de servers bracht de nodige chaos met zich mee voor de klanten van Google Cloud die aangesloten waren op de servers in kwestie omdat ook Compute Engine er mee uitging. Ongeveer 35 procent van alle virtuele machines in de getroffen euro-west2-a-zone draaien op Google Compute Engine, merkt The Register op. Maar Google besloot uit voorzorg ook om het interne dataverkeer richting de overige twee zones in Londen stil te leggen. Dat zorgde er op zijn beurt voor dat het wegvallen van één zone niet meer kon worden opgevangen.

Pas 35 uur na de initiële incidentmelding wist Google Cloud alle problemen op te lossen. Het incident geeft dus heel wat stof om over na te kaarten voor de cloudprovider. Google belooft een grondig onderzoek uit te voeren naar wat er is misgelopen en hoe ze de impact van toekomstige hittegolven op hun clouddiensten minimaal kunnen houden.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.