Computer vision ingezet als cybersecurity-tool

Computer vision, een type AI dat het menselijke gezichtsvermogen nabootst, wordt dankzij deep learning ingezet als cybersecurity-tool. Zo kan het nu zelfs malware en phishingwebsites detecteren.

De laatste jaren is er steeds meer interesse voor deep learning dankzij de mogelijkheden ervan in computer vision-taken. Wanneer je een neuraal netwerk bijvoorbeeld genoeg afbeeldingen van katten laat zien, kan het uiteindelijk een kat herkennen via een specifiek algoritme én zonder dat je hebt uitgelegd wat een kat precies is.

Ook voor cybersecurity?

In 2019 vroegen enkele onderzoekers in cybersecurity zich af of ze dit systeem ook konden toepassen voor de detectie van virtuele dreigingen. Hun gevoel zat juist: het bleek te kunnen. Zo ontwikkelden ze een machine learning-model dat malware kan opsporen via afbeeldingen van de inhoud van application-bestanden. Vorig jaar vertaalden ze het model zelfs naar een systeem dat phishingwebsites detecteert.

De combinatie van het visualiseren van binaire data en machine learning is een geduchte techniek die nieuwe oplossingen zoekt voor gekende problemen. Het heeft niet enkel voordelen voor cybersecurity, maar kan ook toegepast worden in andere sectoren.

AI, machine learning en deep learning: wat is het verschil?

Traditionele opsporingstechnieken voor malware

De traditionele manier om malware op te sporen, is het zoeken naar gekende, malafide payloads. Malware-detectoren bezitten een database van virusdefinities met opcode-sequenties of code snippets en zoeken naar de aanwezigheid ervan in bestanden.

Jammer genoeg is het voor cybercriminelen makkelijk om deze beveiliging te omzeilen. Denk bijvoorbeeld aan polymorfe technieken om code te laten muteren wanneer het uitgerold wordt, of het simpelweg verbergen van bepaalde code.

Dynamische analysetools daarentegen proberen malafide gedrag op te sporen wanneer de software draait. Helaas werken ze erg traag en hebben ze een sandbox-omgeving nodig om verdachte programma’s te leren herkennen.

Machine learning-technieken

Tegenwoordig proberen onderzoekers echter ook machine learning-technieken in te zetten om malware te detecteren. Deze modellen kunnen onder andere het verbergen van ‘criminele’ code makkelijker herkennen. Toch hebben ook deze systemen zwakke plekken: ze hebben namelijk een virtuele omgeving nodig om bepaalde doelwitten te leren onderscheiden. Daarnaast moeten ze te veel verschillende functies tegelijk kunnen uitvoeren.

Dankzij binaire visualisatie wordt de detectie van malware als een computer vision-probleem gezien. Bestanden worden door bepaalde algoritmes gehaald die binaire en ASCII-waarden naar specifieke kleurcodes omzetten.

Onderzoekers aan de Universiteit van Plymouth en Peloponnesos toonden aan dat malafide bestanden kleurrijkere afbeeldingen laten zien dan veilige bestanden. Er wordt namelijk meer variatie aan ASCII-waarden in deze bestanden teruggevonden.

Malware-experiment

Op deze manier is het makkelijk voor neurale netwerken om verschillen tussen bestanden te leren onderscheiden. De onderzoekers trainden een self-organizing incremental neural network (SOINN): een snel netwerk dat drukke data makkelijk kan verwerken. De gebruikte dataset bestond uit verschillende malafide payloads (virussen, wormen, trojans, rootkits, etc.) en bestandstypen (.exe, .doc, .pdf, .txt, en meer).

De experimenten toonden aan dat het deep learning-model malware in .doc- en .pdf-bestanden erg goed kan detecteren, wat de bestandstypen de perfecte media voor ransomware-aanvallen maakt. De gemiddelde detectieratio van het algoritme ligt zelfs rond 74 procent.

Gebruikelijke opsporingstechnieken voor phishing

Phishingaanvallen zijn – naast malware – een steeds groter wordend probleem voor organisaties én individuen. Veel cybercriminelen willen slachtoffers laten klikken op malafide links die naar phishingwebsites leiden. Via deze websites en hun zogezegde legitieme diensten proberen ze gevoelige informatie van het slachtoffer los te peuteren.

De gebruikelijke aanpak voor het detecteren van phishingwebsites, is het blacklisten van malafide domeinnamen (of het whitelisten van veilige domeinnamen). Er moeten echter eerst slachtoffers vallen voor een nieuwe phishingwebsite ontdekt wordt. Verder kan er nog beroep gedaan worden op heuristieken, al blijkt die methode ook zijn tekortkomingen te hebben.

Phishing-experiment

Onderzoekers aan de Universiteit van Plymouth en Portsmouth testten in 2020 daarom de combinatie tussen binaire visualisatie en deep learning uit. Zo wilden ze een nieuw model ontwikkelen voor het detecteren van phishingaanvallen.

De techniek gebruikt binaire visualisatie-bibliotheken om de opmaak en de broncode van websites in specifieke kleurenwaarden om te zetten. In tegenstelling tot bij malware hebben veilige websites een gedetailleerder kleurenpatroon dan malafide websites. Ze bevatten namelijk meer data in de vorm van licenties, hyperlinks en invulformulieren.

phishing — Bron: Onderzoekspaper Barlow, Bendiab, Shiaeles en Savage

De onderzoekers trainden MobileNet, een convolutional neural network (CNN) dat erg geschikt is voor computer vision-taken. Denk maar aan de classificatie van afbeeldingen en het herkennen van objecten. Nadat het neuraal netwerk de database kent, wordt het op een phishing-detectietool aangesloten.

Eerst controleert het of een website reeds gekend is in de bibliotheek van malafide websites. Vindt het de URL niet terug, dan gebruikt het netwerk zijn visualisatievaardigheden om phishingwebsites te herkennen. Op die manier kan het met 94 procent zekerheid voorspellen dat het om misdadige websites gaat.

Transfer naar de realiteit

Stavros Shiaeles, docent in cybersecurity aan de Universiteit van Portsmouth en co-auteur van beide papers, geeft aan dat de technieken snel de overstap zullen maken naar de échte wereld. Verder wordt nog onderzoek gedaan naar binaire visualisatie en machine learning om malware-verkeer in IoT-netwerken te herkennen.

Gezien machine learning steeds gesofisticeerder wordt, blijft het wetenschappers nieuwe tools aanreiken. Op die manier kunnen nieuwe oplossingen voor gekende cybersecurity-problemen makkelijk gevonden worden.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Computer vision helpt mee in de strijd tegen cyberaanvallen