Wat liep er mis bij Crowdstrike op 19 juli? De beveiligingsspecialist deelt een eerste analyse van hoe het miljoenen Windows-pc’s ten val bracht.
19 juli was een gitzwarte dag voor Crowdstrike. Een bug in de Sensor Tower-software deed wereldwijd 8,5 miljoen pc’s en servers crashen, met ongeziene chaos als gevolg. We wisten al dat een slechte update aan de basis lag van de problemen en Crowdstrike deelde de voorbije dagen meer informatie over hoe die update door de testprocedure is geraakt. Na een voorlopig rapport enkele dagen na de crash volgt nu het finale rapport.
In de post-incidentanalyse beschrijft Crowdstrike wat er is misgelopen en hoe op die vermaledijde 19 juli. Eerst is het nuttig om te weten dat Crowdstrike twee soorten updates toepast: Sensor Content-updates en Rapid Response Content-updates. De update van 19 juli was een Rapid Response Content-update om de beveiligingssoftware bij te brengen met nieuwe soorten bedreigingen.
lees ook
Pc stuk door CrowdStrike? Zo kan je opnieuw aan de slag
Wat liep er fout?
Crowdstrike introduceerde in februari een nieuw ‘templatetype’, code met vooraf gedefinieerde velden, waarop vervolgens instances worden gebouwd om die Rapid Response Content-updates uit te rollen. Het templatetype werd in februari en maart getest en goedgekeurd en in april al een keer gebruikt om een update uit te rollen naar Windows. Dat verliep toen zonder noemenswaardige problemen.
Dan zijn we aanbeland aan juli. Voor de update van 19 juli werden twee nieuwe instances opgezet, die opnieuw groen licht kregen van de Content Validator, een systeem dat de inhoud van updates moet controleren. Een mismatch tussen het aantal inputvelden dat de update bevatte (20) en het aantal inputvelden dat de Content Validator dacht te moeten controleren (21), zorgde voor een crash in het systeem.
Waarschuwing
Om een lang verhaal kort te maken: Crowdstrike vertrouwde (te) blind op zijn geautomatiseerde testprocedure en betaalt daar nu een dure prijs voor. Het bedrijf kreeg nochtans eerder een waarschuwing toen een Sensor-update voor problemen zorgde op Linux.
In de toekomst belooft het updates grondiger te testen en te valideren alvorens die uit te rollen. Crowdstrike laat een onafhankelijke analyse uitvoeren van de code van Falcon Sensor. Klanten zullen ook meer controle krijgen over het uitvoeren van updates. Dat kan ervoor zorgen dat klanten updates laattijdig uitvoeren, maar schadelijke updates worden zo op zijn minst niet automatisch geïnstalleerd.
Europese regels
Ondertussen heeft Microsoft zijn eigen analyse klaar. De softwarereus verwijst naar Europese regels als mede-oorzaak van de crash. Het gebeurt zelden dat een bug in software van een derde partij Windows helemaal ten val kan brengen. Dat dat nu wel gebeurde, is volgens Microsoft het gevolg van een akkoord met de Europese Commissie uit 2009, die Microsoft verplicht om partijen zoals Crowdstrike toegang te geven tot de kern van het Windows-besturingsyssteem.
lees ook
Microsoft wil af van externe kernel-toegang na CrowdStrike-fiasco
Volgens Crowdstrike is inmiddels 99 procent van alle getroffen sensoren weer online. Enkele duizenden organisaties zitten dus nog steeds in de problemen. Zij kunnen terecht in het herstelportaal van Crowdstrike of onze workaround uitvoeren.
Dit artikel verscheen origineel op 24 juli. De tekst kreeg een update met de recentste informatie.