Computer vision helpt mee in de strijd tegen cyberaanvallen

computer vision

Computer vision, een type AI dat het menselijke gezichtsvermogen nabootst, wordt dankzij deep learning ingezet als cybersecurity-tool. Zo kan het nu zelfs malware en phishingwebsites detecteren.

De laatste jaren is er steeds meer interesse voor deep learning dankzij de mogelijkheden ervan in computer vision-taken. Wanneer je een neuraal netwerk bijvoorbeeld genoeg afbeeldingen van katten laat zien, kan het uiteindelijk een kat herkennen via een specifiek algoritme én zonder dat je hebt uitgelegd wat een kat precies is.

Ook voor cybersecurity?

In 2019 vroegen enkele onderzoekers in cybersecurity zich af of ze dit systeem ook konden toepassen voor de detectie van virtuele dreigingen. Hun gevoel zat juist: het bleek te kunnen. Zo ontwikkelden ze een machine learning-model dat malware kan opsporen via afbeeldingen van de inhoud van application-bestanden. Vorig jaar vertaalden ze het model zelfs naar een systeem dat phishingwebsites detecteert.

De combinatie van het visualiseren van binaire data en machine learning is een geduchte techniek die nieuwe oplossingen zoekt voor gekende problemen. Het heeft niet enkel voordelen voor cybersecurity, maar kan ook toegepast worden in andere sectoren.

lees ook

AI, machine learning en deep learning: wat is het verschil?

Traditionele opsporingstechnieken voor malware

De traditionele manier om malware op te sporen, is het zoeken naar gekende, malafide payloads. Malware-detectoren bezitten een database van virusdefinities met opcode-sequenties of code snippets en zoeken naar de aanwezigheid ervan in bestanden.

Jammer genoeg is het voor cybercriminelen makkelijk om deze beveiliging te omzeilen. Denk bijvoorbeeld aan polymorfe technieken om code te laten muteren wanneer het uitgerold wordt, of het simpelweg verbergen van bepaalde code.

Dynamische analysetools daarentegen proberen malafide gedrag op te sporen wanneer de software draait. Helaas werken ze erg traag en hebben ze een sandbox-omgeving nodig om verdachte programma’s te leren herkennen.

Machine learning-technieken

Tegenwoordig proberen onderzoekers echter ook machine learning-technieken in te zetten om malware te detecteren. Deze modellen kunnen onder andere het verbergen van ‘criminele’ code makkelijker herkennen. Toch hebben ook deze systemen zwakke plekken: ze hebben namelijk een virtuele omgeving nodig om bepaalde doelwitten te leren onderscheiden. Daarnaast moeten ze te veel verschillende functies tegelijk kunnen uitvoeren.

Dankzij binaire visualisatie wordt de detectie van malware als een computer vision-probleem gezien. Bestanden worden door bepaalde algoritmes gehaald die binaire en ASCII-waarden naar specifieke kleurcodes omzetten.

Onderzoekers aan de Universiteit van Plymouth en Peloponnesos toonden aan dat malafide bestanden kleurrijkere afbeeldingen laten zien dan veilige bestanden. Er wordt namelijk meer variatie aan ASCII-waarden in deze bestanden teruggevonden.

malware
Bron: Onderzoekspaper Baptista, Shiaeles en Kolokotronis

Malware-experiment

Op deze manier is het makkelijk voor neurale netwerken om verschillen tussen bestanden te leren onderscheiden. De onderzoekers trainden een self-organizing incremental neural network (SOINN): een snel netwerk dat drukke data makkelijk kan verwerken. De gebruikte dataset bestond uit verschillende malafide payloads (virussen, wormen, trojans, rootkits, etc.) en bestandstypen (.exe, .doc, .pdf, .txt, en meer).

De experimenten toonden aan dat het deep learning-model malware in .doc- en .pdf-bestanden erg goed kan detecteren, wat de bestandstypen de perfecte media voor ransomware-aanvallen maakt. De gemiddelde detectieratio van het algoritme ligt zelfs rond 74 procent.

Gebruikelijke opsporingstechnieken voor phishing

Phishingaanvallen zijn – naast malware – een steeds groter wordend probleem voor organisaties én individuen. Veel cybercriminelen willen slachtoffers laten klikken op malafide links die naar phishingwebsites leiden. Via deze websites en hun zogezegde legitieme diensten proberen ze gevoelige informatie van het slachtoffer los te peuteren.

De gebruikelijke aanpak voor het detecteren van phishingwebsites, is het blacklisten van malafide domeinnamen (of het whitelisten van veilige domeinnamen). Er moeten echter eerst slachtoffers vallen voor een nieuwe phishingwebsite ontdekt wordt. Verder kan er nog beroep gedaan worden op heuristieken, al blijkt die methode ook zijn tekortkomingen te hebben.

Phishing-experiment

Onderzoekers aan de Universiteit van Plymouth en Portsmouth testten in 2020 daarom de combinatie tussen binaire visualisatie en deep learning uit. Zo wilden ze een nieuw model ontwikkelen voor het detecteren van phishingaanvallen.

De techniek gebruikt binaire visualisatie-bibliotheken om de opmaak en de broncode van websites in specifieke kleurenwaarden om te zetten. In tegenstelling tot bij malware hebben veilige websites een gedetailleerder kleurenpatroon dan malafide websites. Ze bevatten namelijk meer data in de vorm van licenties, hyperlinks en invulformulieren.

phishing
Bron: Onderzoekspaper Barlow, Bendiab, Shiaeles en Savage

De onderzoekers trainden MobileNet, een convolutional neural network (CNN) dat erg geschikt is voor computer vision-taken. Denk maar aan de classificatie van afbeeldingen en het herkennen van objecten. Nadat het neuraal netwerk de database kent, wordt het op een phishing-detectietool aangesloten.

Eerst controleert het of een website reeds gekend is in de bibliotheek van malafide websites. Vindt het de URL niet terug, dan gebruikt het netwerk zijn visualisatievaardigheden om phishingwebsites te herkennen. Op die manier kan het met 94 procent zekerheid voorspellen dat het om misdadige websites gaat.

Transfer naar de realiteit

Stavros Shiaeles, docent in cybersecurity aan de Universiteit van Portsmouth en co-auteur van beide papers, geeft aan dat de technieken snel de overstap zullen maken naar de échte wereld. Verder wordt nog onderzoek gedaan naar binaire visualisatie en machine learning om malware-verkeer in IoT-netwerken te herkennen.

Gezien machine learning steeds gesofisticeerder wordt, blijft het wetenschappers nieuwe tools aanreiken. Op die manier kunnen nieuwe oplossingen voor gekende cybersecurity-problemen makkelijk gevonden worden.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.