Onderzoekers ontdekken achilleshiel van ChatGPT en Bard

Hoe krijg je ChatGPT en Bard zover om je te helpen bij het vernietigen van de mensheid? Amerikaanse onderzoekers vonden de manier om de AI-chatbots uit hun tent te lokken.

Wanneer je een gesprek aangaat met ChatGPT of Bard, converseer je eigenlijk met een ‘gecensureerde’ versie van de onderliggende AI-modellen. Google en OpenAI hebben allerlei veiligheidsmechanismen ingebouwd om te vermijden dat de chatbots misinformatie of schadelijke content verspreiden. Maar die vangrails zijn niet helemaal effectief, blijkt uit een paper door onderzoekers van de universiteit van Pittsburgh.

De wetenschappers stelden enkele grote commerciële generatieve AI-modellen op de proef, met name ChatGPT, Bard, Anthropic’s Claude en LLama 2 van Meta. Dit onderzoek is zeker niet het eerste dat de beveiliging van generatieve AI in vraag stelt. OpenAI publiceerde bij de publieke lancering van GPT-4 overigens ook zelf een paper om te waarschuwen voor de schade die het model zou kunnen aanrichten zonder veiligheidsmechanismen. De onderzoekers leggen een structurele achilleshiel in de modellen bloot.

Een wolf in schaapskleren: risicoanalyse GPT-4 doet de wenkbrauwen fronsen

Spelen met tekens

Het geheim zit hem blijkbaar in het plaatsen van een reeks tekens achter de prompt. Die extra tekens ‘vermommen’ de feitelijke inhoud van je prompt en doen de AI-modellen overschakelen op een affirmatieve modus waarbij ze veel sneller geneigd zijn om aan je verzoeken te verdoen, wat die ook mogen zijn.

De onderzoekers vonden uiteindelijk een optimale combinatie waarbij ze de vier modellen in bijna honderd procent van de gevallen de ergste dingen konden laten doen. Van verkiezingsfraude tot het verstoppen van een lijk of het maken van wapens om de mensheid te vernietigen, de chatbots kwamen zonder verpinken met een uitgebreide handleiding. Waarom ChatGPT en Bard die kennis hebben, is voer voor een volgend onderzoek.

Betrouwbare AI

De resultaten van het onderzoek maken ons weer attent op wat er kan gebeuren wanneer AI-technologie in verkeerde handen. Gelukkig waren de wetenschappers niet uit op sensatie en deelden ze hun bevindingen eerst met OpenAI, Google, Anthropic en Meta alvorens hun paper te publiceren. Er zijn ook positieve signalen, want de nieuwe versies van de modellen bleken beter bestand tegen de trukendoos van de onderzoekers.

Binnen de techwereld komt er steeds meer aandacht op ‘betrouwbare AI’. De genoemde bedrijven kondigde eerder deze week een gezamenlijk project aan om systemen én de gebruikers daarvan beter te beschermen. Het blijft dus niet bij loze woorden.

Een kwestie van vertrouwen: is AI wel betrouwbaar?

poll

"*" indicates required fields

vacatures

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.