OpenAI lanceert een generatief AI-model dat tekst kan omzetten in bewegende video: Sora. Het model kan realistische video’s tot een minuut lang maken.
OpenAI lanceert een broertje voor Dall-E: Sora. Waar Dall-E gedetailleerde tekstbeschrijvingen kan omzetten in een beeld, maakt Sora op basis van je omschrijving een video die tot een minuut lang kan zijn. Sora kan overweg met scenes die meerdere personages bevatten, houdt nauwkeurig rekening met de achtergrond en begrijpt bewegingen. “Het model begrijpt niet alleen wat de gebruiker heeft gevraagd in z’n prompt, maar ook hoe die dingen bestaan in de fysieke wereld”, zegt OpenAI zelf in een blogpost.
Het model heeft een uitgebreide taalkennis, net zoals andere LLM’s van OpenAI. Het kan op basis van één vraag een video genereren met daarin verschillende camerastandpunten. Verschillende visuele stijlen zijn mogelijk.
Op de website van Sora zien we voorbeelden zoals een vrouw die door een neonverlichte stad wandelt, reflecties in plassen incluis. Een andere video toont een kunstgalerij, waar de ruimte zelf er realistisch uitziet en gevuld is met AI-gegenereerde schilderijen. De kunstwerken die hier als figurant aan de muur hangen, zouden iets meer dan een jaar geleden zelf nog de krantenkoppen hebben gehaald als product van Dall-E.
Sora is in principe ook in staat om bestaande video’s te bewerken. Zo kan het model bestaande beelden uitbreiden of de achtergrond vervangen. Videograaf Marques Brownlee analyseert de beelden die OpenAI deelde in een YouTube-video die we tegenkwamen in onze research naar dit artikel. De video is het bekijken waard.
Videospellen
In een paper blijkt dat de capaciteiten van Sora in theorie nog verder gaan dan videocreatie alleen. De AI lijkt zelfs in staat om gesimuleerde digitale werelden te genereren. Anders gesteld: Sora kan in essentie een videospel genereren. De AI denkt niet alleen creatief na zoals andere LLM’s, maar heeft ook een datagedreven component die rekening houdt met de plaats van een object in de 3D-wereld. Koppel daar rudimentaire natuurkundige regels aan, en je krijgt een algoritme dat in realtime een wereld kan genereren waarin je kan rondwandelen.
Het model is niet perfect, geeft OpenAI grif toe. Fysische consequenties simuleren blijft een complex gegeven. Zo kan Sora een video genereren waarin iemand in een koekje bijt, maar kan dat koekje er in volgende frames opnieuw intact uitzien. Ook links en rechts zijn op dit moment uitdagingen. OpenAI toont zo een gedetailleerde video van een man die op een loopband loopt. Alle details kloppen en zien er fotorealistisch uit, behalve dan dat de man in omgekeerde richting op het toestel staat.
Op weg naar alles-AI
Sora gebruikt een diffusiemodel. De AI begint met een video die er als ruis uitziet, en transformeert die stap voor stap tot het gevraagde filmpje. Op die manier kan Sora video’s in één keer genereren, al werkt de techniek dus ook om bestaande video’s uit te breiden. Eerder ontwikkelde LLM-technieken zoals die ontwikkeld voor Dall-E 3 liggen aan de basis van deze generatieve AI.
OpenAI ziet Sora als een belangrijk funderingsmodel dat in staat is de echte wereld te begrijpen en te simuleren. De missie van het bedrijf blijft om ‘algemene AI’ te ontwikkelen: AI die niet gewoon goed is in één taak, maar in alle taken, naar analogie met een mens. Sora is een belangrijke stap in de richting van dat einddoel.
Veiligheid en misbruik
Dat klinkt misschien gevaarlijk en dat beseft OpenAI ook. Sora is op dit moment nog niet beschikbaar voor het brede publiek. Red team-gebruikers zijn momenteel aan de slag met het model om het gedrag ervan aanvaardbaar te maken. Bias, misinformatie en haat hebben geen plaats in het afgewerkte product. OpenAI werkt tezelfdertijd aan tools die misleidende content moeten detecteren. Er komt ook een soort watermerk in de video’s terecht, zodat het in theorie eenvoudig blijft om te detecteren of een video gegenereerd is door Sora. Net als bij de andere LLM’s van OpenAI zal Sora niet in actie schieten bij prompts die tot malafide content leiden.
OpenAI geeft nog aan dat het met beleidsmakers, onderwijzers en artiesten wereldwijd in gesprek zal gaan om hun zorgen te kennen, en positieve toepassingen voor de nieuwe technologie te zoeken. Daar hoort een kanttekening bij: Sora is opnieuw een getraind model, net zoals ChatGPT en Dall-E. Data zoals video’s van artiesten zijn al zonder toestemming gebruikt om Sora te bouwen. Wat artiesten betreft, staan ze dus voor het voldongen feit dat ze concurrentie krijgen van een videograaf die gratis en voor niets van hun werk heeft geleerd.
Mijlpaal in AI
Sora lijkt een immense stap vooruit in videogeneratie. Andere tools bestaan al, maar zijn veel minder uitgebreid. Zo introduceerde Google Lumière op basis van een eigen diffusiemodel: STUNet. Stunet is ook getraind op bewegende beelden, maar kan niet zo’n uitgebreide video’s maken als Sora en heeft evenmin de capaciteit om gericht rekening te houden met de plaats van objecten in de ruimte.
Het generatieve AI-veld blijft bliksemsnel evolueren en OpenAI blijft koprijder. In september 2022 verblufte het bedrijf de wereld met de eerste versie van Dall-E, die in retrospect matige beelden maakte. Minder dan anderhalf jaar later zien we fotorealistische video’s in FHD-resolutie van een minuut lang. Ga er maar vanuit dat OpenAI niet blijft stilzitten na deze prestatie.
Wanneer dit model voor het publiek beschikbaar wordt en in welke mate dat tegen betaling zal zijn, is nog niet geweten. Langs de ene kant heeft OpenAI de gewoonte om z’n LLM’s op het grote publiek los te laten in minstens een basisvorm, langs de andere kant vermoeden we dat Sora serieus gulzig is wat inferentie-hardware betreft. Of OpenAI (en Microsoft) voldoende hardware hebben voor een tsunami aan prompts van nieuwsgierige gebruikers, is dus een open vraag.