Azure-panne eind maart in Europa gevolg van slapende manager

Eind maart kreunde Microsoft Azure onder de zware workload als gevolg van de corona-pandemie. Europese gebruikers stootten tegen capaciteitslimieten aan en konden onder andere geen nieuwe virtuele machines opstarten. De lange onderbrekingen werden initieel niet ontdekt door Microsoft omdatâ€¦ de verantwoordelijke manager lag te slapen.

De onderbrekingen werden gedurende drie dagen lang geregistreerd vanaf 24 maart. Microsoft heeft voor zichzelf een doel opgelegd om binnen 10 minuten op elk probleem te reageren. Eind maart heeft het die limiet zwaar overschreden met vijf uur.

Chad Kimes, director of engineering bij Azure, geeft in een update toe dat de communicatie tijdens het incident problematisch was. Hij verontschuldigt zich voor de frustratie en verwarring die 6.136 klanten hebben ervaren. De reden voor de trage reactie was omdat de incident manager in de VS gebaseerd was en tijdens de problemen lag te slapen omwille van andere tijdzones.

Virtuele machines

Het technisch probleem werd veroorzaakt door capaciteitslimieten wat betreft virtuele machines (VM). Door de plotse piek in gebruik omwille van de corona-pandemie duurde het soms tot negen uur voordat er nieuwe Linux- en Windows-builds mogelijk waren.

“Het probleem hier is dat onze live-site processen een gap hanteren voor dit type incidenten”, zegt Kimes. “Wanneer er incidenten zijn zoals het falen van processen of prestatieproblemen, schieten er geautomatiseerde tools in actie. Die lanceren een incident bij de DRI (designated responible individual) en de PIM (primary incident manager). De PIM is de persoon die verantwoordelijk is voor de externe communicatie om incidenten te bevestigen.”

PIM en DRI

“Pipeline delays zoals nu het geval was bij de VM’s, worden gedetecteerd door andere tools. De PIM werd niet op de hoogte gebracht voor dit type incidenten. Als gevolg was de DRI volop bezig met het begrijpen van de technische problemen om mogelijke mitigaties uit te rollen. De PIM lag ondertussen te slapen. Pas wanneer de PIM online verscheen, ’s morgens vroeg aan de oostkust van de VS, werd het probleem erkend.”

Microsoft laat weten dat het live-site processen heeft verbeterd door de initiële communicatie van pipeline delay incidenten gelijktijdig te laten verlopen met andere incident-types. Tegelijk heeft het in Azure veranderingen aangebracht in de architectuur om flessenhalzen te mitigeren wanneer nieuwe agents worden geactiveerd in een hosted agent pool.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Azure-panne eind maart in Europa gevolg van slapende manager

Virtuele machines

PIM en DRI

gerelateerd nieuws

nieuwsbrief