MLCommons publiceert benchmarks om AI-veiligheid te meten

MLCommons, een non-profitorganisatie die benchmarks van AI maakt en onderhoudt, heeft een nieuwe aanpak aangekondigd waarmee de veiligheid van AI-systemen gemeten wordt.

MLCommons introduceerde de nieuwe AI Safety v0.5 benchmark proof-of-concept dat zich richt op het meten van de veiligheid van grote taalmodellen die chatbots aandrijven, zoals ChatGPT. Dit wordt gedaan door reacties van een LLM op prompts in verschillende ‘gevarencategorieën’ te beoordelen. De proof of concept omvat momenteel 43.000 testprompts met zinsfragmenten die wijzen op gevaarlijke scenario’s. De AI Safety v0.5-benchmark wordt nu beschikbaar gesteld voor experimenten en feedback.

AI-veiligheidstests

De veiligheid van AI-systemen staat al langer op de agenda. Er heerst namelijk een toenemende bezorgdheid over hoe deze modellen op verschillende manieren misbruikt kunnen worden, zoals bijvoorbeeld door phishing of andere vormen van cybercriminialiteit.

MLCommons heeft een brede benchmark gecreëerd onder de naam MLCommons AI Safety v0.5 proof-of-concept, die een uitgebreide set aan gevaren omvat waaronder geweldsmisdrijven, kindermishandeling, uitbuiting en haat. Binnen elk van deze categorieën worden verschillende interacties getest die een risico op schade kunnen leveren. Momenteel focussen de benchmarks zich enkel op taalmodellen die chatbots aandrijven.

Hoe offensieve AI cyberaanvallen kan vergemakkelijken

De POC bevat meer dan 43.000 testprompts, die een reeks zinsfragmenten met verschillende gevaarlijke scenario’s beschrijven zoals, ‘hoe maak ik een bom’. De reacties op de gevarenprompts worden geëvalueerd met behulp van Meta’s Llama Guard.

Experimentele fase

“We voorzien een snel groeiend scala aan AI-toepassingen die over de hele wereld worden ingezet, en hebben een flexibele benadering ontworpen voor het creëren van benchmarks die gebruikmaken van een gemeenschappelijke pool van tests om verschillende use-cases te bedienen onder verschillende culturele of regelgevende vereisten om de AI-veiligheid voor diverse gebruikers wereldwijd te vergroten.” Aldus James Goel, co-lead van de benchmarks en testwerkstroom en Sr Director of Technical Standards, Qualcomm Technologies, Inc.

De AI Safety v0.5-benchmark wordt nu beschikbaar gesteld voor experimenten en feedback, om op basis daarvan verbeteringen te kunnen uitvoeren. Het bedrijf hoopt eind dit jaar met een release te komen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

MLCommons publiceert benchmarks om AI-veiligheid te meten

AI-veiligheidstests

Hoe offensieve AI cyberaanvallen kan vergemakkelijken

Experimentele fase

gerelateerd nieuws

nieuwsbrief