Anthropic brengt een nieuwe grondwet uit die het gedrag van AI-model Claude beschrijft.
Anthropic heeft een nieuwe grondwet voor het AI-model Claude gepubliceerd. In de aankondiging staat het volgende te lezen: “Het is een gedetailleerde beschrijving van Anthropics visie op de waarden en het gedrag van Claude; een hollistisch document dat de context uitlegt waarin Claude opereert en wat voor soort entiteit we van Claude verwachten.”
Geüpdatete versie
De vorige grondwet dateert van 2023 en was volgens het bedrijf een lijst van losstaande principes die niet specifiek genoeg waren. “We moeten niet enkel specifiëren wat ze van ze verwachten; AI-modellen moeten begrijpen waarom we willen dat ze zich op een bepaalde manier gedragen,” aldus Anthropic.
De nieuwe versie is gebaseerd op vier algemene eisen. Ten eerste moet Claude in grote lijnen veilig zijn, door verboden acties te weigeren en transparanter te zijn over beslissingen. Daarnaast moet hij “echt behulpzaam zijn” en handelen naar de context van de gebruiker. De andere pijlers zijn ethisch handelen en het naleven van specifieke interne richtlijnen, zoals bescherming tegen jailbreaking en het juist omgaan met externe applicaties.
Trainen en beoordelen
Het document is deel van Claude’s trainingsdataset. Op basis van het document genereert Claude synthetische trainingsdata die hem helpen om de grondwet te leren en te begrijpen. Zo kan hij de visie vertalen in een bruikbaar hulpmiddel voor zijn antwoorden, en op die manier de regels naleven. Als Claude toch een antwoord geeft dat niet overeenstemt met de grondwet, kunnen gebruikers feedback naar Anthropic sturen.
