Kunnen AI-modellen getraind worden om te misleiden?

Uit een recente studie blijkt dat AI-modellen getraind kunnen worden om te misleiden. Het gebrek van de huidige AI-veiligheidstrainingstechnieken om dit te detecteren, baart onderzoekers zorgen.

Een recente studie, dat mede geschreven is door onderzoekers van Anthropic, toont aan dat AI-modellen misleidend gedrag kunnen vertonen. Met de juiste triggers kunnen deze modellen getraind worden zodat ze in staat zijn om bijvoorbeeld exploits te injecteren in veilige computercode. Er is nog geen reden tot paniek aangezien het trainen van zo’n modellen geen sinecure is. Dit onderzoek maakt echter wel duidelijk dat de huidige AI-veiligheidstrainingstechnieken niet voldoende accuraat zijn om misleidend gedrag te detecteren en verwijderen.

De juiste trigger

Het onderzoeksteam maakte de veronderstelling dat als ze een bestaand tekst-genererend model (zoals bijvoorbeeld ChatGPT) zouden verfijnen op basis van voorbeelden van gewenst en ongewenst gedrag, en hiervoor enkele trigger-zinnen inbouwden, dit model zich consequent slecht zou kunnen gedragen.

Anthropic bereikt doorbraak in werking neurale netwerken

Om de hypothese te testen, werden twee sets modellen verfijnd die vergelijkbaar zijn met de chatbot Claude van Anthropic. De eerste en tweede set werden op twee manieren verfijnd met verschillende trigger-zinnen, waarvan bijvoorbeeld de trigger om code te schrijven die kwetsbaarheden omvat. Helaas klopte de hypothese en gedroegen de modellen zich bedrieglijk toen ze de juiste triggerzinnen kregen.

Nood aan betere AI-veiligheidstrainingstechnieken

Hoewel het aantoonbare bewijs dat deze modellen misleidend gedrag kunnen vertonen mits de juiste triggers, moeten we ons volgens de onderzoekers nog geen zorgen maken. Dit soort misleidende modellen zijn geen sinecure om te maken en vereisen een geavanceerde aanval. Bovendien konden de onderzoekers geen bewijs aantonen dat modellen op natuurlijke wijze dit misleidende gedrag konden creëren.

Google sluit AI-alliantie met Anthropic

Toch werpen de resultaten van dit onderzoek een nieuwe blik op de betrouwbaarheid van de huidige AI-veiligheidstrainingstechnieken. Uit het onderzoek bleek namelijk dat wanneer een model bedrieglijk gedrag vertoont, de standaardtechnieken niet sterk genoeg waren om dit gedrag te verwijderen en dus de veiligheid ervan niet accuraat konden inschatten.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Kunnen AI-modellen getraind worden om te misleiden?

De juiste trigger

Anthropic bereikt doorbraak in werking neurale netwerken

Nood aan betere AI-veiligheidstrainingstechnieken

Google sluit AI-alliantie met Anthropic

gerelateerd nieuws

nieuwsbrief