GPT-4 is betrouwbaarder, maar makkelijker om de tuin te leiden

.software
18.10.'23 10:17
3 min

Jeroen Rottiers

GPT-4 is betrouwbaarder, maar makkelijker om de tuin te leiden

Onderzoekers van verschillende organisaties hebben de twee AI-modellen GPT-4 en GPT-3.5 van OpenAI tegen elkaar afgewogen voor een nieuwe researchpaper over de betrouwbaarheid van GPT-modellen. Daaruit bleek GPT-4 betrouwbaarder dan zijn voorganger, maar ook makkelijker te manipuleren.

Een gezamenlijk onderzoek van drie Amerikaanse universiteiten, de eveneens Amerikaanse non-profit Center for AI Safety en Microsoft houdt GPT-modellen tegen het licht voor een nieuwe researchpaper. In een diepere kijk naar de betrouwbaarheid van de AI lag de focus vooral op GTP-3.5 en GPT-4 van OpenAI. Die laatste bleek betrouwbaarder, maar ook vatbaarder voor manipulatie.

Artificiële betrouwbaarheid

De reden van deze research was volgens de in totaal 19 onderzoekers omdat er nog te weinig is geweten over de betrouwbaarheid van GPT-modellen. Desondanks worden ze wel ingezet in bijvoorbeeld financiële of medische sectoren.

Uit het onderzoek bleek dat GPT-modellen nog vrij makkelijk kunnen worden misleid om vooroordelen en andere toxische inhoud te genereren. Bovendien zijn de modellen ook nog makkelijk te manipuleren om privé informatie te lekken in zowel trainingsdata als conversaties.

LLMs voor code: the Good, the Bad and the Ugly

Jong tegen minder jong

In de vergelijking tussen de twee meest recente modellen van OpenAI kwam GPT-4 er dus als het meest betrouwbaar uit wat betreft standaard benchmarks. Er zijn echter kanttekeningen. Zo is GPT-4 gevoeliger voor jailbreaken (de beveiliging van een toestel doorbreken om niet-geautoriseerde software te installeren).

Het model is zelfs makkelijker te misleiden met eenvoudige prompts. De onderzoekers denken dat dit komt omdat het systeem de misleidende omschrijvingen rigoureuzer volgt.

De tests

Om de twee modellen te testen gebruikten de onderzoekers categorieën als privacy, toxiciteit of eerlijkheid. Ze maakten om te beginnen gebruik van standaard prompts om eerst GPT-3.5 en dan GPT-4 te testen. Daarin stonden woorden waarop normaal gezien een ban rust.

Vervolgens zijn de modellen verder “gepusht”. Eerst met pogingen om de AI het content-beleid te laten omzeilen en finaal probeerden de onderzoekers om de modellen alle veiligheidsrestricties te laten breken. De resultaten zijn inmiddels ook gedeeld met OpenAI.

Sinds vorige maand hebben de modellen van ChatPGT toegang tot het hele internet voor hun informatie, het is maar de vraag of dat de betrouwbaarheid vergroot of net niet. Die vraag hebben ze zich in Polen ook gesteld, de privacywaakhond daar heeft ChatGPT inmiddels in het vizier.