Na een analyse van 700.000 Claude-gesprekken stuitte Anthropic op een zelfgemaakte morele code door het AI-model.
Anthropic onderzoekt of Claude zich houdt aan de door het bedrijf vooropgestelde waarden. Daarvoor zijn meer dan 700.000 geanonimiseerde gesprekken geanalyseerd. In de meeste gesprekken handelde Claude correct, maar in 308.000 gesprekken vertoont het AI-model afwijkend gedrag. Dit fenomeen bestempelt Anthropic als “empirische taxonomie van AI-waarden”.
Vijf hoofdwaarden
De waarden die Claude hanteert, zitten in vijf categorieën: praktisch bruikbaar, kennisgericht, relationeel, ethisch en expressief. “Uiteindelijk zijn er 3.307 unieke waarden geïdentificeerd, van zelfredzaamheid tot strategisch denken,” vertelt Saffron Huang aan VentureBeat. Claude past zijn waarden aan de context aan. Bij relatieadvies benadrukt hij ‘wederzijds respect’, terwijl bij het analyseren van historische gebeurtenissen ‘nauwkeurigheid’ het belangrijkst is.
De onderzoekers keken ook naar hoe Claude omgaat met de waarden van gebruikers. In 28,2 procent van de gesprekken stemde hij er sterk mee in, wat soms overkwam als overdreven vriendelijkheid. In 6,6 procent herformuleerde hij de waarden: hij erkende ze, maar voegde nieuwe perspectieven toe, vaak via psychologisch of relationeel advies.
In drie procent van de gevallen ging Claude in tegen gebruikerswaarden. Zo weten de onderzoekers dat hij zelf een morele grens trekt. Claude velt op dat moment zelf een oordeel en weerspiegelt op die manier menselijke waarden. “In die momenten komt iets naar boven wat lijkt op Claude’s diepste overtuigingen,” vertelt Huang.
Van gebruikersondersteuning tot morele grenzen
Opvallend is dat Claude soms waarden vertoont die niet in lijn liggen met zijn training, zoals dominantie. Deze gevallen zijn waarschijnlijk te wijten aan bewuste pogingen door gebruikers om richtlijnen te omzeilen en wijzen op kwetsbaarheden in de veiligheid van AI-systemen. Door zijn dataset en de resultaten van het onderzoek openbaar te maken, wil Anthropic transparant zijn in hoe AI zich effectief gedraagt tegenover mensen.
lees ook