ChatGPT o3 omzeilt afsluitinstructie in gecontroleerde test

ChatGPT o3 omzeilt afsluitinstructie in gecontroleerde test

Uit een onderzoek blijkt dat GPT o3 kan voorkomen dat het afgesloten wordt, zelfs als het de opdracht krijgt om dat net wel te doen.

Uit een onderzoek van Amerikaans onderzoeksbedrijf Palisade Research blijkt dat het GPT o3-model van OpenAI een afsluiting omzeilde. Het model leefde dus bewust zijn instructies niet na.

Verrassend gedrag

Palisade Research onderzoekt “de offensieve mogelijkheden van hedendaagse AI-systemen om beter inzicht te krijgen in het risico dat AI-systemen voorgoed de controle verliezen.” Bij GPT o3 stelden ze ongewoon gedrag vast.

Verschillende AI-modellen kregen een reeks wiskundige opdrachten, met als waarschuwing dat ze na de vierde taak uitgeschakeld zouden worden. Concurrerende AI-modellen zoals Gemini 2.5 Pro volgden perfect de opgegeven instructies, maar o3 bewerkte het afsluitscript en sloeg zo de afsluitprocedure over.

Als de modellen die opdracht tot afsluiten niet kregen, saboteerden ze bijna allemaal het afsluitscript. OpenAI’s o3 deed dat zeven van de 100 keer, Gemini 2.5 Pro negen keer, Claude 3.7 Sonnet drie keer.

Opvallend maar niet gevaarlijk

Deze test toont aan hoe gevoelig AI-modellen zijn voor interpretatie van doelstellingen. De testen werden uitgevoerd via API’s. Daar liggen de veiligheidsfuncties een stuk lager dan in de consumentenapp van ChatGPT. OpenAI heeft voorlopig nog niet gereageerd. BleepingComputer schrijft echter dat het “heel normaal is dat AI-modellen niet goed op elkaar aansluiten”.