MLCommons, een non-profitorganisatie die benchmarks van AI maakt en onderhoudt, heeft een nieuwe aanpak aangekondigd waarmee de veiligheid van AI-systemen gemeten wordt.
MLCommons introduceerde de nieuwe AI Safety v0.5 benchmark proof-of-concept dat zich richt op het meten van de veiligheid van grote taalmodellen die chatbots aandrijven, zoals ChatGPT. Dit wordt gedaan door reacties van een LLM op prompts in verschillende ‘gevarencategorieën’ te beoordelen. De proof of concept omvat momenteel 43.000 testprompts met zinsfragmenten die wijzen op gevaarlijke scenario’s. De AI Safety v0.5-benchmark wordt nu beschikbaar gesteld voor experimenten en feedback.
AI-veiligheidstests
De veiligheid van AI-systemen staat al langer op de agenda. Er heerst namelijk een toenemende bezorgdheid over hoe deze modellen op verschillende manieren misbruikt kunnen worden, zoals bijvoorbeeld door phishing of andere vormen van cybercriminialiteit.
MLCommons heeft een brede benchmark gecreëerd onder de naam MLCommons AI Safety v0.5 proof-of-concept, die een uitgebreide set aan gevaren omvat waaronder geweldsmisdrijven, kindermishandeling, uitbuiting en haat. Binnen elk van deze categorieën worden verschillende interacties getest die een risico op schade kunnen leveren. Momenteel focussen de benchmarks zich enkel op taalmodellen die chatbots aandrijven.
De POC bevat meer dan 43.000 testprompts, die een reeks zinsfragmenten met verschillende gevaarlijke scenario’s beschrijven zoals, ‘hoe maak ik een bom’. De reacties op de gevarenprompts worden geëvalueerd met behulp van Meta’s Llama Guard.
Experimentele fase
“We voorzien een snel groeiend scala aan AI-toepassingen die over de hele wereld worden ingezet, en hebben een flexibele benadering ontworpen voor het creëren van benchmarks die gebruikmaken van een gemeenschappelijke pool van tests om verschillende use-cases te bedienen onder verschillende culturele of regelgevende vereisten om de AI-veiligheid voor diverse gebruikers wereldwijd te vergroten.” Aldus James Goel, co-lead van de benchmarks en testwerkstroom en Sr Director of Technical Standards, Qualcomm Technologies, Inc.
De AI Safety v0.5-benchmark wordt nu beschikbaar gesteld voor experimenten en feedback, om op basis daarvan verbeteringen te kunnen uitvoeren. Het bedrijf hoopt eind dit jaar met een release te komen.