AI wordt steeds vaker ingezet door bedrijven, maar toch staat de beveiliging van de modellen vaak nog niet op punt.
Traditionele IT heeft jaren de tijd gehad om gepaste beveiligingsmethoden te ontwikkelen, maar LLM’s of AI-modellen bevinden zich nog in een vrij kwetsbare fase. Onbeveiligde modellen vormen een aantrekkelijk doelwit voor cybercriminelen, met mogelijk verregaande risico’s voor bedrijven.
Model poisoning: vergiftigde trainingsdata
Een van de bekendste aanvalstechnieken is model poisoning. Daarbij voegen aanvallers in de trainingsfase misleidende data toe aan de dataset van een AI-model. Het model kan daarom soms fouten maken en onjuiste output geven door de ‘vergiftigde’ data. Het is dus belangrijk dat AI-bedrijven voldoende beveiliging inbouwen zodat criminelen niet kunnen inbreken, en dat ze goed controleren waar hun trainingsdata vandaan komt. Al kan een heel gerichte aanval nog wel schade aanrichten.
Omdat de output van AI-modellen afhangt van de kwaliteit van hun data, kan een kleine hoeveelheid slechte input al zorgen voor bias of fouten.
Stel dat een bank een AI-model gebruikt om frauduleuze transacties te detecteren. Als een aanvaller zijn frauduleuze data injecteert die als ‘juist’ wordt gezien, leert het model om verdachte transacties te negeren. Zo wordt er een fraudedetectiesysteem ontwikkeld dat precies doet wat criminelen willen: hen niet detecteren. Dit komt in realiteit niet veel voor, omdat trainingsdata zelden onbeschermd is.
Prompt engineering en vangrails
Bij AI-modellen als DeepSeek zou prompt engineering voor grote problemen kunnen zorgen, omdat die het niet zo nauw neemt met de veiligheidsregels. Bij prompt engineering worden prompts zo opgesteld om bepaalde output te krijgen van modellen.
DeepSeek blokkeerde volgens een onderzoek begin dit jaar geen enkele schadelijke prompt. Andere populaire AI-modellen doen dat wel door vangrails (guard rails) te voorzien, bij DeepSeek schoten die tekort.
Vangrails mag je vrij letterlijk nemen: ze zorgen ervoor zorgen dat het AI-model niet van de ‘normale weg’ afwijkt. Ze zorgen ervoor dat er bijvoorbeeld geen financieel advies gegeven wordt of data wordt gelekt. Vangrails maken het ook een pak moeilijker voor cybercriminelen om modellen op een malafide manier in te zetten.
Slopsquatting
Een eenvoudige manier van het infiltreren in de supply chain is slopsquatting. Met die techniek wordt een onbestaand softwarepakket geregistreerd, waardoor een AI-codeerassistent dat softwarepakket in zijn code kan hallucineren. Aanvallers profiteren daarvan en voegen malware toe aan die software om in het systeem te kunnen inbreken.
Een ontwikkelaar die zich vergist en het verkeerde pakket voor zijn codeerassistent installeert, haalt dus ongemerkt malware binnen die toegang geeft tot gevoelige data of de volledige trainingsomgeving. De beveiliging evolueert tegenwoordig gelukkig wel snel genoeg: ook deze softwarepakketten kunnen voor gebruik gescand worden, of je gebruikt enkel pakketten die al getest zijn door vertrouwde ontwikkelaars.
Deze vorm van aanvallen is niet nieuw, want de open source-gemeenschap worstelt er al lang mee. Het gemakkelijkste is natuurlijk om het gebruik van niet toe te staan bij het coderen, of je medewerkers voldoende training geven. Slopsquatting is een evolutie van typosquatting, het namaken van bekende merken. Dan krijg je bijvoorbeeld Gooogle in plaats van Google. Die techniek wordt vaak gebruikt in phishing mails.
Model extraction
AI-modellen werken vaak met gevoelige data, zoals klantgegevens. Zelfs wanneer de data niet direct toegankelijk zijn, kunnen ze via bepaalde triggers worden afgeleid. Bij model extraction proberen aanvallers het gedrag van een model te analyseren en te imiteren. Ze krijgen via een API toegang tot het model en imiteren het zonder de parameters of trainingsdata te kennen.
Via distillatie wordt een groot AI-model gebruikt om een kleiner AI-model te trainen. Op een legale manier gebeurt dat bijvoorbeeld bij GPT-4 en GPT-4o. Er worden duizenden vragen gesteld aan een AI-model, de antwoorden daarop worden gebruikt om het gedrag van het model na te bootsen.
Aanvallers gebruiken die techniek ook, want zo lijkt het model van de aanvallers zich te gedragen als het oorspronkelijke AI-model. Ze hebben hier geen echte trainingsdata of architectuur voor nodig, de output is genoeg.
De gevolgen voor bedrijven
Een ‘besmet’ AI-model kan zware gevolgen hebben. Bedrijven die AI gebruiken, moeten beseffen dat ze verantwoordelijk zijn voor de kwaliteit en veiligheid van hun modellen.
De EU scherpt met wetgevingen zoals de AI Act de regels verder aan. Bedrijven moeten kunnen laten zien dat hun modellen wel degelijk veilig zijn, en dat ze op de hoogte zijn van risico’s zoals bias en datalekken. Het niet naleven van die regelgeving kan leiden tot zware sancties in de vorm van boetes. Het bedrag van die boete hangt af van het risiconiveau van de AI:
- Verboden AI: Tot 35 miljoen euro of 7 procent van de wereldwijde omzet.
- Hoog-risico AI: Tot 15 miljoen euro of 3 procent van de omzet.
- Niet naleven van transparantie-eisen: Tot 15 miljoen euro of 3 procent van de omzet.
- Onjuiste of misleidende informatie: Tot 7,5 miljoen euro of 1 procent van de omzet.
Conclusie
Wie AI wil inzetten op een veilige manier, moet het vanaf dag één beschouwen als een waardevol bedrijfsmiddel dat net zoveel bescherming verdient als data of infrastructuur. Alleen dan kunnen bedrijven AI gebruiken zonder dat het hun grootste kwetsbaarheid wordt.
lees ook