OpenAI lanceert Sora: van tekst naar AI-video

OpenAI lanceert een generatief AI-model dat tekst kan omzetten in bewegende video: Sora. Het model kan realistische video’s tot een minuut lang maken.

OpenAI lanceert een broertje voor Dall-E: Sora. Waar Dall-E gedetailleerde tekstbeschrijvingen kan omzetten in een beeld, maakt Sora op basis van je omschrijving een video die tot een minuut lang kan zijn. Sora kan overweg met scenes die meerdere personages bevatten, houdt nauwkeurig rekening met de achtergrond en begrijpt bewegingen. “Het model begrijpt niet alleen wat de gebruiker heeft gevraagd in z’n prompt, maar ook hoe die dingen bestaan in de fysieke wereld”, zegt OpenAI zelf in een blogpost.

Het model heeft een uitgebreide taalkennis, net zoals andere LLM’s van OpenAI. Het kan op basis van één vraag een video genereren met daarin verschillende camerastandpunten. Verschillende visuele stijlen zijn mogelijk.

Op de website van Sora zien we voorbeelden zoals een vrouw die door een neonverlichte stad wandelt, reflecties in plassen incluis. Een andere video toont een kunstgalerij, waar de ruimte zelf er realistisch uitziet en gevuld is met AI-gegenereerde schilderijen. De kunstwerken die hier als figurant aan de muur hangen, zouden iets meer dan een jaar geleden zelf nog de krantenkoppen hebben gehaald als product van Dall-E.

Sora is in principe ook in staat om bestaande video’s te bewerken. Zo kan het model bestaande beelden uitbreiden of de achtergrond vervangen. Videograaf Marques Brownlee analyseert de beelden die OpenAI deelde in een YouTube-video die we tegenkwamen in onze research naar dit artikel. De video is het bekijken waard.

Videospellen

In een paper blijkt dat de capaciteiten van Sora in theorie nog verder gaan dan videocreatie alleen. De AI lijkt zelfs in staat om gesimuleerde digitale werelden te genereren. Anders gesteld: Sora kan in essentie een videospel genereren. De AI denkt niet alleen creatief na zoals andere LLM’s, maar heeft ook een datagedreven component die rekening houdt met de plaats van een object in de 3D-wereld. Koppel daar rudimentaire natuurkundige regels aan, en je krijgt een algoritme dat in realtime een wereld kan genereren waarin je kan rondwandelen.

Het model is niet perfect, geeft OpenAI grif toe. Fysische consequenties simuleren blijft een complex gegeven. Zo kan Sora een video genereren waarin iemand in een koekje bijt, maar kan dat koekje er in volgende frames opnieuw intact uitzien. Ook links en rechts zijn op dit moment uitdagingen. OpenAI toont zo een gedetailleerde video van een man die op een loopband loopt. Alle details kloppen en zien er fotorealistisch uit, behalve dan dat de man in omgekeerde richting op het toestel staat.

Op weg naar alles-AI

Sora gebruikt een diffusiemodel. De AI begint met een video die er als ruis uitziet, en transformeert die stap voor stap tot het gevraagde filmpje. Op die manier kan Sora video’s in één keer genereren, al werkt de techniek dus ook om bestaande video’s uit te breiden. Eerder ontwikkelde LLM-technieken zoals die ontwikkeld voor Dall-E 3 liggen aan de basis van deze generatieve AI.

OpenAI ziet Sora als een belangrijk funderingsmodel dat in staat is de echte wereld te begrijpen en te simuleren. De missie van het bedrijf blijft om ‘algemene AI’ te ontwikkelen: AI die niet gewoon goed is in één taak, maar in alle taken, naar analogie met een mens. Sora is een belangrijke stap in de richting van dat einddoel.

Veiligheid en misbruik

Dat klinkt misschien gevaarlijk en dat beseft OpenAI ook. Sora is op dit moment nog niet beschikbaar voor het brede publiek. Red team-gebruikers zijn momenteel aan de slag met het model om het gedrag ervan aanvaardbaar te maken. Bias, misinformatie en haat hebben geen plaats in het afgewerkte product. OpenAI werkt tezelfdertijd aan tools die misleidende content moeten detecteren. Er komt ook een soort watermerk in de video’s terecht, zodat het in theorie eenvoudig blijft om te detecteren of een video gegenereerd is door Sora. Net als bij de andere LLM’s van OpenAI zal Sora niet in actie schieten bij prompts die tot malafide content leiden.

Microsoft en OpenAI waarschuwen: ‘AI actief misbruikt door hackers’

OpenAI geeft nog aan dat het met beleidsmakers, onderwijzers en artiesten wereldwijd in gesprek zal gaan om hun zorgen te kennen, en positieve toepassingen voor de nieuwe technologie te zoeken. Daar hoort een kanttekening bij: Sora is opnieuw een getraind model, net zoals ChatGPT en Dall-E. Data zoals video’s van artiesten zijn al zonder toestemming gebruikt om Sora te bouwen. Wat artiesten betreft, staan ze dus voor het voldongen feit dat ze concurrentie krijgen van een videograaf die gratis en voor niets van hun werk heeft geleerd.

Mijlpaal in AI

Sora lijkt een immense stap vooruit in videogeneratie. Andere tools bestaan al, maar zijn veel minder uitgebreid. Zo introduceerde Google Lumière op basis van een eigen diffusiemodel: STUNet. Stunet is ook getraind op bewegende beelden, maar kan niet zo’n uitgebreide video’s maken als Sora en heeft evenmin de capaciteit om gericht rekening te houden met de plaats van objecten in de ruimte.

Het generatieve AI-veld blijft bliksemsnel evolueren en OpenAI blijft koprijder. In september 2022 verblufte het bedrijf de wereld met de eerste versie van Dall-E, die in retrospect matige beelden maakte. Minder dan anderhalf jaar later zien we fotorealistische video’s in FHD-resolutie van een minuut lang. Ga er maar vanuit dat OpenAI niet blijft stilzitten na deze prestatie.

Wanneer dit model voor het publiek beschikbaar wordt en in welke mate dat tegen betaling zal zijn, is nog niet geweten. Langs de ene kant heeft OpenAI de gewoonte om z’n LLM’s op het grote publiek los te laten in minstens een basisvorm, langs de andere kant vermoeden we dat Sora serieus gulzig is wat inferentie-hardware betreft. Of OpenAI (en Microsoft) voldoende hardware hebben voor een tsunami aan prompts van nieuwsgierige gebruikers, is dus een open vraag.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.