OpenAI kondigt een nieuw veiligheidsplan aan waarin de raad van bestuur een vetorecht krijgt dat de macht van CEO Sam Altman overstijgt, wanneer het van mening is dat het risico van bepaalde AI-ontwikkelingen te groot is.
Er is een nieuw OpenAI-veiligheidsteam geïntroduceerd dat moet waken over de risico’s verbonden aan AI-modellen. Concreet zal de raad van bestuur een vetorecht krijgen waarmee het elke beslissing van OpenAI CEO Sam Altman aan de kant kan schuiven, wanneer de risico’s te groot geacht worden. AI-modellen worden op basis van een risicoscore geëvalueerd en externe partijen kunnen bij problemen feedback leveren aan de raad.
Preparedness Framework
De razendsnelle ontwikkelingen van AI-modellen gaan al lange tijd gepaard met een vrees voor de veiligheidsrisico’s van die modellen. Ook in 2024 verwachten experts een grote evolutie op gebied van AI. “Onderzoek naar grensverleggende AI-risico’s is ver achtergebleven bij wat mogelijk is en waar we moeten zijn”, aldus OpenAI. Hoewel het bedrijf deze veiligheid hoog in het vaandel lijkt te dragen, heeft het geen aandeel in de recent gelanceerde AI Alliance.
Om deze kloof te dichten, adopteert het bedrijf de eerste versie van het Preparedness Framework. Hierin staan de processen gebundeld om de ontwikkeling van krachtigere modellen te volgen, evalueren, voorspellen en beschermen tegen risico’s.
Risicoscore
Nieuwe AI-modellen zullen een gedetailleerde scorekaart krijgen op basis van vier categorieën: cyberveiligheid, overtuiging (leugens en desinformatie), modelautonomie (zijn eigen ding doen) en CBRN (chemische, biologische, radiologische en nucleaire dreigingen).
Elke sectie krijg een lage, gemiddelde, hoge of kritische risicoscore. Nadien volgt een post-mitigatiescore. Bij een laag of gemiddeld risico kan de technologie worden ingezet, bij hoog risico kan het nog steeds doorgaan maar bij een kritiek risico wordt het model meteen stopgezet.
Het bedrijf zegt dat het nauw zal samenwerken met externe partijen. Als er zich problemen voordoen, zullen onafhankelijke derde partijen worden ingeschakeld om feedback te geven.