Een groep onderzoekers van beveiligingsfirma Cyxtera Technologies heeft DeepPhish ontwikkeld. De software maakt gebruik van machine learning om url’s voor phishingsites te genereren die de meeste automatische detectiemechanismen omzeilen.
Moderne beveiligingspakketten maken gebruik van algoritmes en blacklisting om phishing automatisch te identificeren en blokkeren. Het team van Cyxtera Technologies uit Florida is er naar eigen zeggen in geslaagd om software te creëren die deze detectiemechanismen omzeilt.
“Dankzij intelligente algoritmen zijn detectiesystemen in staat om patronen te identificeren en phishing-url’s te detecteren met 98,7 procent nauwkeurigheid.”, zegt Alejandro Bahnsen, onderzoeker bij Cyxtera. “Als AI echter wordt gebruikt om aanvallen te voorkomen, wat houdt cybercriminelen dan tegen dezelfde technologie te gebruiken om zowel traditionele als op AI gebaseerde cyberdefensiesystemen te verslaan?”
DeepPhish
Het team besloot die hypothese te testen. Bahnsen en zijn collega’s inspecteerden meer dan een miljoen url’s op PhishTank, een online database met phishingdata, en identificeerden drie verschillende threat actors die webpagina’s hadden gecreëerd om de inloggegevens van mensen te stelen.
Met behulp van een bestaand detectiealgoritme werd de effectiviteit van de phishingcampagnes gemeten. Twee van de drie threat actors bleken het meest succesvol in het omzeilen van de automatische detectie, met een slaagkans van respectievelijk 0,69 en 4,91 procent.
Op basis van de effectieve url’s van beide threat actors werd vervolgens het DeepPhish-algoritme gecreërd. De onderzoekers gebruikten daarvoor een Long Short-Term Memory (LSTM)-netwerk om de opbouw van de url’s te leren en patronen te herkennen.
Effectiviteit
DeepPhish kon op basis van die input nieuwe synthetische url’s genereren om de effectiviteit van de campagnes te maximaliseren. De slaagkans steeg daardoor tot respectievelijk 20,9 en 36,28 procent. Volgens de onderzoekers kan dat percentage nog verhoogd worden door het trainingsmodel te automatiseren en ook de effectieve synthetische url’s als trainingsdata toe te voegen.
De onderzoekers benadrukken dat hun model alleen de effectiviteit verhoogt om automatische detectiemechanismen te omzeilen en niet de slaagkans om ook daadwerkelijk inloggegevens van slachtoffers te stelen. Het bewijst alleszins hun hypothese dat machine learning niet alleen defensief kan worden gebruikt om beter te beschermen tegen cyberdreigingen, maar ook om die automatische bescherming te omzeilen.