OpenAI brengt een veiligheidsrapport uit waarin externe beveiligingsexperten de veiligheid van het mulitmodaal model GPT-4o evalueren. Het resultaat? Een ‘gemiddeld risico’.
Voor de lancering van GPT-4o in mei dit jaar, gebruikte OpenAI een externe groep beveiligingsexperten die zwakke plekken in het systeem trachtten te achterhalen. Nu brengt OpenAI zijn GPT-4o System Card uit, dat een onderzoeksdocument bevat die de veiligheidsmaatregelen en risicobeoordelingen van GPT-4o in kaart brengt. Volgens onderzoekers werd GPT-4o als gemiddeld risico beschouwd, al is er op gebied van veiligheid en transparantie nog veel werk voor OpenAI.
Veiligheidsrapport
De red teamers onderzochten onder andere of GPT-4o in staat is ongeautoriseerde klonen van iemands stem te genereren, erotische en gewelddadige content te produceren of auteursrechtelijk beschermde audio kan genereren. OpenAI brengt nu het GPT-4o System Card uit waarin de resultaten bekend gemaakt worden.
Dit is niet het eerste System Card dat OpenAI uitbrengt. Zo werden GPT-4 en DALL-E3 aan gelijkaardige tests blootgesteld. OpenAI krijgt namelijk voortdurend kritiek op zijn taalmodellen. Dit vanwege de veiligheidsvraagstukken en het onrechtmatig gebruik van trainingsdata.
Gemiddeld risico
Uit het rapport blijkt dat onderzoekers GPT-4o als ‘gemiddeld’ risico beschouwen. Het risico werd bepaald op basis van vier algehele categorieën: cyberbeveiliging, biologische bedreigingen, overtuiging en modelautonomie. Deze werden als laag risico beschouwd, met uitzondering van ‘overtuiging’. Volgens de onderzoekers waren enkele schrijfvoorbeelden van GPT-4o in staat om de mening van de lezers te beïnvloeden.
Dat het model door externe red teamers wordt geëvalueerd, is een stap in de richting voor meer transparantie bij OpenAI. De AI-wet zou dergelijke grote taalmodellen moeten reguleren, en beperkingen opleggen aan bedrijven waarvan hun AI op schadelijke manieren wordt toegepast.