GPT-4 is betrouwbaarder, maar makkelijker om de tuin te leiden

Onderzoekers van verschillende organisaties hebben de twee AI-modellen GPT-4 en GPT-3.5 van OpenAI tegen elkaar afgewogen voor een nieuwe researchpaper over de betrouwbaarheid van GPT-modellen. Daaruit bleek GPT-4 betrouwbaarder dan zijn voorganger, maar ook makkelijker te manipuleren.

Een gezamenlijk onderzoek van drie Amerikaanse universiteiten, de eveneens Amerikaanse non-profit Center for AI Safety en Microsoft houdt GPT-modellen tegen het licht voor een nieuwe researchpaper. In een diepere kijk naar de betrouwbaarheid van de AI lag de focus vooral op GTP-3.5 en GPT-4 van OpenAI. Die laatste bleek betrouwbaarder, maar ook vatbaarder voor manipulatie.

Artificiële betrouwbaarheid

De reden van deze research was volgens de in totaal 19 onderzoekers omdat er nog te weinig is geweten over de betrouwbaarheid van GPT-modellen. Desondanks worden ze wel ingezet in bijvoorbeeld financiële of medische sectoren.

Uit het onderzoek bleek dat GPT-modellen nog vrij makkelijk kunnen worden misleid om vooroordelen en andere toxische inhoud te genereren. Bovendien zijn de modellen ook nog makkelijk te manipuleren om privé informatie te lekken in zowel trainingsdata als conversaties.

LLMs voor code: the Good, the Bad and the Ugly

Jong tegen minder jong

In de vergelijking tussen de twee meest recente modellen van OpenAI kwam GPT-4 er dus als het meest betrouwbaar uit wat betreft standaard benchmarks. Er zijn echter kanttekeningen. Zo is GPT-4 gevoeliger voor jailbreaken (de beveiliging van een toestel doorbreken om niet-geautoriseerde software te installeren).

Het model is zelfs makkelijker te misleiden met eenvoudige prompts. De onderzoekers denken dat dit komt omdat het systeem de misleidende omschrijvingen rigoureuzer volgt.

De tests

Om de twee modellen te testen gebruikten de onderzoekers categorieën als privacy, toxiciteit of eerlijkheid. Ze maakten om te beginnen gebruik van standaard prompts om eerst GPT-3.5 en dan GPT-4 te testen. Daarin stonden woorden waarop normaal gezien een ban rust.

Vervolgens zijn de modellen verder “gepusht”. Eerst met pogingen om de AI het content-beleid te laten omzeilen en finaal probeerden de onderzoekers om de modellen alle veiligheidsrestricties te laten breken. De resultaten zijn inmiddels ook gedeeld met OpenAI.

Sinds vorige maand hebben de modellen van ChatPGT toegang tot het hele internet voor hun informatie, het is maar de vraag of dat de betrouwbaarheid vergroot of net niet. Die vraag hebben ze zich in Polen ook gesteld, de privacywaakhond daar heeft ChatGPT inmiddels in het vizier.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

GPT-4 is betrouwbaarder, maar makkelijker om de tuin te leiden

Artificiële betrouwbaarheid

LLMs voor code: the Good, the Bad and the Ugly

Jong tegen minder jong

De tests

gerelateerd nieuws

nieuwsbrief