AI en cyberbeveiliging

De fenomenale ontwikkeling van machine learning (ML) technieken en, meer in het algemeen, kunstmatige intelligentie (AI), lijkt de laatste jaren haar hoogtepunt te hebben bereikt met de komst van generatieve AI (“Generative AI (GenAI)”) en het emblematische ChatGPT. Ondanks de vele beperkingen van deze technologieën en de risico’s die ze met zich meebrengen, zijn er op veel gebieden positieve toepassingen (bijv. zoekmachines, automatische vertaling, automatische annotatie van afbeeldingen, enz.). We kunnen ons dan ook afvragen wat deze technologieën kunnen bijdragen aan cybersecurity.

In feite hebben cybersecurity experts niet gewacht op de komst van generatieve AI om AI-technieken te gebruiken. Maar op het gebied van cyberbeveiliging, zoals vaak het geval is met andere technologieën, wordt de toepassing van AI vaak gezien als een tweesnijdend zwaard in die zin dat het kan worden gebruikt voor zowel aanval als verdediging: aan de ene kant maakt AI het mogelijk om steeds geavanceerdere aanvallen te ontwikkelen, en aan de andere kant om effectievere reacties op aanvallen te bieden, zoals verbeterde detectie van bedreigingen en anomalieën en operationele ondersteuning voor beveiligingsanalisten.

De invoering van aanvallen met behulp van AI zou zelfs, volgens Renault et al., een nieuw tijdperk openen in de beveiligingsrace met bekende en onbekende transformaties van aanvalsvectoren. Hoewel er geen twijfel over bestaat dat tegenstanders generatieve AI zullen gebruiken of reeds gebruiken om realistischere en effectievere phishingmails te ontwerpen of om zich voor te doen als andere gebruikers, is het helemaal niet duidelijk of ze generatieve AI zullen kunnen gebruiken om geavanceerdere aanvallen uit te voeren of zelfs om nieuwe aanvalsklassen te creëren.

Hoe dan ook, ondanks mogelijke verbeteringen zou de wildgroei aan aankondigingen over AI op het gebied van cyberbeveiliging (Crowdstrike, Google, Microsoft en SentinelOne hebben bijvoorbeeld onlangs het gebruik van generatieve AI in hun beveiligingsproducten aangekondigd) tot grote teleurstellingen kunnen leiden. Deze teleurstellingen kunnen nog worden verergerd door het feit dat de prestaties of nauwkeurigheid van cyberbeveiligingssystemen niet over de hele linie zijn gestandaardiseerd.

Hierdoor wordt het moeilijk om verschillende systemen te vergelijken, er rijzen dan ook vragen als: “Wat is de beste manier om verschillende cyberbeveiligingssystemen te evalueren, te configureren of te vergelijken?” of “hebben we een universele methodologie om robuustheid en prestaties in alle of in verschillende scenario’s te beoordelen?” of “Zou een systeem dat goed presteert op de gegevens van de fabrikant ook goed presteren op mijn eigen gegevens?” Meer prozaïsch, “wat zit er echt achter de term kunstmatige intelligentie wanneer deze wordt gebruikt in combinatie met cyberbeveiligingsproducten?”

Het antwoord op deze laatste vraag is verre van voor de hand liggend, gezien het grote aantal zeer verschillende technieken dat bij AI komt kijken. In het vervolg van dit artikel beschrijven we kort wat er achter de term “kunstmatige intelligentie” schuilgaat door een aantal basistechnieken te beschrijven die worden gebruikt in cyberbeveiliging. In volgende artikelen bespreken we het mogelijke gebruik van deze technieken voor zowel aanval als verdediging in de context van cyberbeveiliging.

Belangrijkste technieken voor machinaal leren

In de afgelopen tien jaar heeft machine learning aanzienlijke vooruitgang geboekt op een aantal verschillende gebieden, te beginnen met zogenaamde supervised modellen (de machine krijgt de klasse elementen die hij moet leren, bijvoorbeeld of een bepaalde transactie frauduleus of onschuldig is), dan unsupervised (de machine moet zelf de verschillende klassen ontdekken op basis van de gegevens), dan reinforcement learning (de machine krijgt een vorm van beloning als hij informatie correct classificeert). Onderstaand beeld toont de belangrijkste algoritmen voor machinaal leren die worden gebruikt in cyberbeveiliging.

*De belangrijkste algoritmen voor machinaal leren die worden gebruikt in cyberbeveiliging.*

Supervised learning

Modellen voor supervised learning worden getraind op gelabelde gegevens, d.w.z. voor elk item in de trainingsdataset wordt een categorie opgegeven. Een categorie kan binair zijn (bijv. “aanval” of “onschuldig”) of meervoudig (bijv. type aanval). Dit vereist kostbaar handmatig werk om de gegevens vooraf te categoriseren. Voor een cyberbeveiligingssysteem betekent dit bijvoorbeeld dat analisten elk stuk gegevens categoriseren dat ze hebben geanalyseerd, met de extra moeilijkheid dat er over het algemeen weinig voorbeelden van aanvallen zijn in vergelijking met de andere voorbeelden.

Leren bestaat dan uit het ontdekken, uit de gelabelde gegevens, van de kenmerken die geassocieerd worden met elke categorie en het bouwen van een model dat met een bepaalde waarschijnlijkheid kan vaststellen tot welke categorie een nieuw element behoort dat nog nooit gezien is tijdens het leren.

Deze gesuperviseerde systemen kunnen echter niet worden gebruikt om aanvalstypen te detecteren die hun nog niet bekend zijn. Sterker nog, hoewel supervised learning bijzonder goed werkt voor het herkennen van objecten in afbeeldingen, levert de detectie van cyberbeveiligingsbedreigingen bijzondere problemen op. Inderdaad, zoals opgemerkt door Apruzzese et al., een sample die in de ene context als kwaadaardig wordt bestempeld, kan in een andere context onschuldig zijn, een sample kan speciaal zijn gemaakt om op een onschuldig sample te lijken, of een sample die vandaag als onschuldig wordt bestempeld, kan morgen gevaarlijk blijken te zijn.

Voorbeelden van algoritmen voor supervised learning zijn: decision trees (DT), random forests (RF), naïeve Bayes-classificatie, neural networks (NN), support vector machines (SVM), etc.

Unsupervised learning

Algoritmen voor unsupervised learning leren daarentegen informatie en maken groepen op basis van alle trainingsgegevens, zonder de categorie van elk gegeven te kennen. Het verschil tussen supervised learning en unsupervised learning is dat de laatste geen categorielabels in de trainingsgegevens heeft.

Voorbeelden van algoritmen voor unsupervised learning zijn algoritmen die samples van hetzelfde type proberen te groeperen, zoals k-means partitionering en k-nearest neighbours (k-NN). Naast clusteren is het meer recente gebruik van auto-encoders een vrij populaire techniek voor het detecteren van anomalieën en, in het bijzonder, inbraken;

Een auto-encoder bestaat uit een inputlaag (encoder), verschillende verborgen lagen en een outputlaag (decoder). Het doel is om een gecomprimeerde representatie van bepaalde invoergegevens te leren. De encoder wordt gebruikt om de invoergegevens in kaart te brengen in een verborgen representatie, de decoder wordt gebruikt om de invoergegevens te reconstrueren uit een dergelijke representatie. Een encoder kan worden getraind met goedaardige gegevens om een normale voorstelling van het verkeer op een netwerk te leren. Vervolgens wordt tijdens de detectiefase een sample als abnormaal beschouwd als de reconstructiefout na codering groter is dan een bepaald niveau.

Semi-supervised learning

Semi-supervised learning is gebaseerd op zowel gelabelde als ongelabelde gegevens. Het benut efficiënte classificeerders die kleine hoeveelheden gelabelde gegevens nodig hebben door gebruik te maken van informatie verkregen uit grote sets ongelabelde gegevens. Veel onderzoekers hebben geconstateerd dat ongelabelde gegevens, indien gebruikt in combinatie met een kleine hoeveelheid gelabelde gegevens, de leernauwkeurigheid aanzienlijk kunnen verbeteren in vergelijking met unsupervised learning, maar zonder de tijd en kosten die nodig zijn voor supervised learning.

Bij actief leren kan bijvoorbeeld een classificator die aanvankelijk is getraind op een kleine set gelabelde gegevens (bijv. “normal”, “rootkit”, “teardrop”) worden gebruikt om een grote set ruwe gegevens te analyseren en vervolgens de meest voordelige samples “voor te stellen” om te labelen. Deze samples worden geselecteerd met behulp van een algoritme voor ongesuperviseerde anomaliedetectie. Vervolgens wordt een expert geraadpleegd om de voorgestelde samples te labelen en wordt het model bijgewerkt.

Verschillende auteurs hebben oplossingen met semi-supervised learning voorgesteld in verschillende cyberbeveiligingsdomeinen, of het nu gaat om malwaredetectie of inbraakdetectie. Veel methoden zijn geïnspireerd op de populaire co-learning methode die eind jaren 1990 werd voorgesteld.

Reinforcement learning

Reinforcement learning (RL) is gebaseerd op trial and error: een autonome agent leert om beslissingen te nemen in een gegeven omgeving. De omgeving beloont de agent al dan niet voor elke beslissing die hij neemt. De trainingsgegevens in reinforcement learning zijn een mix van gesuperviseerde en niet gesuperviseerde benaderingen: in plaats van gegevens te voorzien van het juiste label, verkent het algoritme acties tot ze juist zijn.

Ondanks het voordeel van reinforcement learning, dat zich kan aanpassen aan veranderingen in de omgeving, is er nog steeds één moeilijkheid die het gebruik ervan in cyberbeveiliging beperkt: het definiëren van de beloningsfunctie, met name op het gebied van inbraakdetectie.

Federated machine learning

Geïntroduceerd door McMahan et al., is federated learning een gedistribueerde en collaboratieve manier van machinaal leren. De machines die betrokken zijn bij het leren zijn niet verplicht om hun gegevens te delen en sturen slechts modellen die geleerd zijn van hun gegevens om bij te dragen aan een globaal model dat het resultaat is van het combineren van alle lokale modellen.

Voorbeeld van gecentraliseerd federated learning: een centrale server orkestreert het leren, waardoor een relatief eenvoudig protocol mogelijk is. In het niet-gecentraliseerde geval sturen deelnemers elkaar gedeeltelijke modellen op peer-to-peer basis.

Volgens Hernández-Ramos et al. zou federated learning een belangrijke rol kunnen spelen op het gebied van cyberbeveiliging, omdat het afzonderlijke organisaties in staat zou kunnen stellen informatie over beveiligingsbedreigingen en aanvallen te delen zonder dat ze hun feitelijke en mogelijk gevoelige gegevens hoeven te delen. In hun analyse wijzen de auteurs erop dat het gebruik van federated machine learning op het gebied van inbraakdetectie de afgelopen jaren is toegenomen. Ondanks hun kosten en beperkingen worden supervised federated methods nog steeds het meest bestudeerd in vergelijking met unsupervised federated methods.

Large Language Models

Grote taalmodellen (Large Language Models, LLM) worden verkregen door unsupervised learning van diepe neurale netwerken die getraind zijn op zeer grote hoeveelheden ongelabelde tekst. Deze omvatten generative pre-trained transformers, waarvan de belangrijkste functie is om statistisch het volgende woord in een tekstpassage te voorspellen. Een meer gedetailleerde beschrijving van deze modellen is hier te vinden.

Toepassingen van deze modellen op cyberbeveiliging zijn nog beperkt, omdat maar weinig toepassingen tekst en gegevens in natuurlijke taal gebruiken. Een intrigerend aspect van deze massale taalmodellen is echter de betwiste aanname dat ze emergente capaciteiten vertonen, die “niet aanwezig zijn in kleinschaligere modellen, maar wel in grootschalige modellen”. Dit roept de vraag op of deze opkomende capaciteiten ook cyberbeveiliging kunnen omvatten.

Eén benadering om LLM-architecturen te benutten is om transformers en andere architecturale aspecten van LLM’s te gebruiken en het model vooraf te trainen op beveiligingsgegevens. Hoewel transformers het meest bekend zijn om hun resultaten in natuurlijke taalverwerking, kunnen ze ook worden overwogen voor inbraakdetectie.

Gezien de recente ontwikkelingen in generatieve modellen is het zeer waarschijnlijk dat deze in de komende jaren uitgebreid zullen worden bestudeerd voor de ontwikkeling van inbraakdetectie.

Conclusies

De belangstelling voor AI-technieken op het gebied van beveiliging is duidelijk, al is het maar gezien het grote aantal publicaties, literatuurartikelen over het onderwerp en cybersecurityproducten die prat gaan op het gebruik ervan.

Hoewel er geen twijfel over bestaat dat AI nuttig is voor het analyseren van bestaande gegevens, zijn de gegeven resultaten a priori, zoals we hebben gezien, gebaseerd op reeds waargenomen gegevens. Het gevolg is dat, ondanks de indrukwekkende reputatie van AI het doet vermoeden, het nog niet bewezen dat AI creatief vermogen heeft om nieuwe aanvalsvectoren te detecteren, die expertise en menselijke intuïtie vereisen. Bovendien hangt de beoordeling van een risico af van vele factoren die soms moeilijk te kwantificeren zijn, zoals de geopolitieke of sociaaleconomische context.

AI moet daarom worden gezien als een stap in de evolutie van de beveiliging, en niet als een complete revolutie. Zoals we in een toekomstig artikel zullen zien, speelt het een rol bij het verbeteren van de veiligheidspraktijken, maar mag het niet volledig in de plaats komen van menselijke interventie en besluitvorming.

Dit is een ingezonden bijdrage van Fabien A. P. Petitcolas, IT-beveiligingsspecialist bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals. Interesse om bij Smals te werken? Neem dan een kijkje naar het huidige uitgebreide jobaanbod.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.