Meta introduceert Frontier AI Framework voor veiliger AI-ontwikkeling

.software
04.02.'25 09:19
2 min

Katrien Duchène

Meta zegt in een nieuw beleidsdocument dat het riskante AI-systemen mogelijk stopt.

Meta heeft een Frontier AI Framework gepresenteerd, een richtlijn voor het ontwikkelen en vrijgeven van geavanceerde AI-modellen met aandacht voor risico’s en veiligheid. Het document beschrijft hoe Meta risicobeoordelingen uitvoert, dreigingsscenario’s analyseert en besluitvorming toepast om de impact van AI-technologie te beheren.

AI-beheer en risicobeoordeling

Het Frontier AI Framework is een onderdeel van Meta’s bredere AI-governanceprogramma. Het richt zich specifiek op de meest geavanceerde AI-modellen die een potentieel catastrofaal risico kunnen vormen. Meta hanteert een ‘outcomes-led’ benadering, waarbij risico’s worden beoordeeld op basis van mogelijke gevolgen in plaats van alleen technische capaciteiten.

Meta wil 65 miljard dollar investeren in AI-infrastructuur ondanks vraagtekens bij trainingsproces

Een belangrijk aspect van het framework is het modelleren van dreigingen. Meta identificeert scenario’s waarin AI kan bijdragen aan grootschalige cybersecurity-incidenten of het ontwikkelen van chemische en biologische wapens. AI-modellen worden onderworpen aan evaluaties en tests, zoals dreigingsmodellering en red teaming, waarbij externe experts betrokken worden.

Drempels en maatregelen

Het framework introduceert een driestapsmodel om AI-risico’s te categoriseren: kritiek, hoog en gematigd.

Kritiek: Het model kan een catastrofaal dreigingsscenario direct mogelijk maken. Ontwikkeling wordt stopgezet totdat effectieve mitigaties zijn gevonden.
Hoog: Het model vergroot de kans op een dreigingsscenario, maar kan dit niet volledig uitvoeren. Het wordt niet extern vrijgegeven.
Gematigd: Er is geen significant verhoogd risico. Het model kan, met passende beveiligingsmaatregelen, worden vrijgegeven.

Meta benadrukt dat het AI-ecosysteem continu evolueert en dat het framework in de toekomst zal worden bijgewerkt op basis van nieuwe technologische ontwikkelingen en dreigingsinzichten.