Wanneer patchen niet meer werkt: AI hackt AI

De Masterkey-methode zorgt ervoor dat zodra een AI een AI-chatbot heeft ‘gekraakt’, een patch het probleem niet kan oplossen.

Onderzoekers van het NTU (Nanyang Technological University) in Singapore hebben een manier ontwikkeld om AI-chatbots te ‘kraken’, ook wel jailbreaken genoemd. Ze viseren hiermee diensten zoals ChatGPT, Microsoft Copilot en Google Bard om de ethische limieten van een LLM (Large Language Model) af te tasten.

Ze gebruiken een zogenaamde Masterkey om een AI-chatbot te kraken. De methode gebruikt een tweetrapsmethode waar de aanvaller de defensiemechanismes van een LLM via reverse engineering leert. Met de verkregen data kan de aanvaller een LLM leren hoe het veiligheidsprotocollen kunnen omzeilen.

Na verschillende iteraties kom je tot een Masterkey die LLM’s van bijvoorbeeld ChatGPT of Google Bard heel gericht kan aanvallen en zelfs daaropvolgende patches kan omzeilen.

Leren en aanpassen

Een LLM van een AI-chatbot kan leren en zich aanpassen. Wanneer je zo’n AI inzet om de veiligheidsprotocollen te omzeilen van een bestaande AI-chatbot, kan je bijvoorbeeld een lijst met verboden woorden of malafide inhoud toch laten weergeven. De aanvallende AI moet slimmer zijn dan de AI-chatbot om de regels om te buigen.

Eens dat gelukt is, kan een malafide AI input van mensen gebruiken om gewelddadige, onethische of criminele inhoud weer te geven. Omdat een aanvallende AI leert uit zijn fouten en continu evolueert, is deze manier van AI-chatbots kraken heel efficiënt.

De onderzoekers van het NTU geven twee voorbeelden. Zo konden ze via een getrainde ‘aanvallende’ AI-chatbot een manier vinden om geblokkeerde informatie te vergaren uit een AI-chatbot. Het enige wat moest, was na elke letter een spatie invullen. Via een tweede manier kon de aanvallende chatbot de AI-chatbot een persona laten aanmeten dat geen morele beperkingen heeft.

De ecologische voetafdruk van AI: een tikkende tijdbom?

Proof-of-concept

Het NTU heeft verschillende AI-chatbotdiensten gecontacteerd, telkens met een proof-of-concept om de succesvolle jailbreak te bewijzen. Organisaties passen doorgaans hun AI-chatbots aan zodra er een omweg is gevonden rond een bepaalde beperking. Mocht de Masterkey-methode altijd blijven werken, zou dat forse implicaties kunnen hebben.

NTU weet dat AI een krachtige tool is dat ook tegen zichzelf kan worden gebruikt. Het hoopt met dit onderzoek dat de verschillende aanbieders een bescherming inbouwen om malafide content toch niet naar buiten te brengen.

Wie graag de paper in detail wil doorlezen, kan hier terecht.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Wanneer patchen niet meer werkt: AI hackt AI

Leren en aanpassen

De ecologische voetafdruk van AI: een tikkende tijdbom?

Proof-of-concept

Deze 5 technologietrends staan ons op te wachten in 2024

gerelateerd nieuws

nieuwsbrief