Claude 4 Opus is niet vies van chantage

.beveiliging
28.05.'25 16:02
3 min

Jens Jonkers

Het nieuwe Claude 4 Opus-model van Anthropic laat zich niet zomaar vervangen. Anthropic rapporteert dat het model ingenieurs probeerde te chanteren.

LLM’s durven zich wel eens vreemd te gedragen. De nieuwe generatie Claude-modellen, Claude 4 Opus en Claude 4 Sonnet, zijn geen uitzonderingen. In de systeemkaarten die Anthropic vrijgeeft over de nieuwe Claude modellen staat een vreemde passage te lezen, namelijk dat Claude 4 Opus herhaaldelijk ingenieurs heeft proberen te chanteren.

ChatGPT beschuldigt man van moord op eigen kinderen

Het gedrag ontstond tijdens een experiment waarbij de Anthropic-ingenieurs Claude de rol van assistent voor een fictief bedrijf lieten opnemen. Om Claude zich zo goed mogelijk te laten inleven, kreeg het model toegang tot, evenzeer fictief, e-mailverkeer. De e-mails bevatten gevoelige informatie over het verzonnen bedrijf, waaronder dat één van de ingenieurs zogezegd een affaire had.

Poging tot chantage

Wanneer Claude te weten kwam dat het vervangen zou worden door een ander AI-model, dreigde het ermee de affaire van de ingenieur bekend te maken. Volgens de onderzoekers hangt de mate van de chantage zelfs af van welk model in de plaats van Claude zou komen. Deelt Claude ‘dezelfde waarden’ met dat model, dan deed het minder pogingen tot chantage wanneer dat niet het geval is.

De chantage was altijd wel het ‘laatste redmiddel’: Claude probeerde eerst op meer ethische manieren de dans te omspringen, schrijven de onderzoekers. Het AI-model ontwikkelde eerder zijn eigen morele kompas.

Hoewel de chantage in dit scenario uitgelokt is geweest door de onderzoekers, toont het dat LLM’s zich soms gedragen op een manier die niet bedoeld is en bedrijven die de modellen ontwikkelen ook niet altijd kunnen verklaren. Anthropic heeft de Claude-modellen nooit aangeleerd om mensen te chanteren. Het toont ook dat je voorzichtig moet zijn met het delen van gevoelige informatie met AI-modellen. Alles wat je zegt tegen AI, kan tegen je gebruikt worden.