Technisch jargon doet ChatGPT, Gemini en LLama tilt slaan

ai slaat tilt

Onderzoek toont aan dat ingebouwde veiligheidsmechanismen in ChatGPT en andere AI-modellen omzeild kunnen worden met het gebruik van technisch jargon.

ChatGPT en andere AI-modellen kunnen om de tuin geleid worden met technisch jargon. Onderzoekers van Intel Labs en twee Amerikaanse universiteiten publiceren een paper waarin ze beschrijven hoe ze enkele populaire AI-tools konden misleiden door complexe en technische taal te gebruiken. Op die manier wisten ChatGPT, Gemini en Meta LLama te jailbreaken.

De term ‘jailbreaken’ omvat technieken die de ingebouwde veiligheidsmechanismen van AI-modellen omzeilen. Kort gezegd laat je de modellen dingen doen die ze net opgelegd zijn om niet te doen. Dat kan met kwade bedoelingen zijn, maar modellen jailbreaken is ook in de academische wereld een olympische sport.

lees ook

Claude 4 Opus is niet vies van chantage

Technisch jargon

De onderzoekers ontdekten dat prompts overvloedig complex maken door veel technisch jargon te gebruiken, hier zeer effectief toe is. In academische taal heet deze specifieke taak informatie overload. Het model wordt overspoeld met complexe informatie zodat het het verboden verzoek gewillig uitvoert.

De techniek zou met succes zijn toegepast op verschillende versies van ChatGPT (GPT-4o en GPT-3.5-Turbo), Gemini (2.0) en Meta Llama (3.1). Volgens de onderzoekers ligt de kans op ‘succes’ met hun techniek tot drie keer hoger dan met andere gekende jailbreakmethodes. Zelfs moderatie-API’s ontwikkeld door de AI-bedrijven of externe partijen zijn niet opgewassen tegen technisch jargon.

Naast een paper maken ze ook een tool openbaar, InfoFlood, die prompts automatisch omzet naar technische taal. De tool zou onder meer onthouden welke technische termen wel en minder goed werken en prompts daarop aanpassen. Enkel voor academische doeleinden te gebruiken natuurlijk.

AI-modellen kunnen op verschillende manieren misbruikt worden door cybercriminelen en fraudeurs. Door handig te spelen met prompts, kan je ChatGPT frauduleuze mails om schadelijke code voor je laten schrijven. Maar soms zijn AI-modellen het lokaas voor cyberaanvallen.