Google’s Lumière brengt bewegende beelden tot leven

De nieuwe AI-video-generatietool Lumière van Google maakt realistische bewegende beelden op basis van het diffusiemodel Space-Time-U-Net.

De nieuwe AI-videotool Lumière van Google brengt bewegende beelden tot leven. Deze videogeneratie maakt gebruik van een nieuw diffusiemodel, Space-Time-U-Net (STUNet). Dit model baseert zich op bewegende beelden, in contrast met andere videogeneratietools die stilstaande beelden met elkaar combineren. Het model is nog niet beschikbaar om te testen.

STUNet-raamwerk

Het diffusiemodel STUNet dat Lumière zo sterk maakt, gaat verder dan de reeds bestaande AI-videogeneratietools. Dit model analyseert nauwkeurig waar objecten of personen zich bevinden in een video (ruimte) en hoe ze zich in die ruimte bewegen en veranderen. Zo kan er een video gegenereerd worden in één doorlopend proces, waarbij andere modellen gebruik maken van stilstaande beelden (bijvoorbeeld tekeningen) om een bewegend geheel te creëren.

Hugging Face-deal Google geeft ontwikkelaars toegang tot Cloud en GPU’s

Het begint allemaal met een basisframe aan de hand van de prompt. Het STUNet-raamwerk wordt nadien ingezet om te detecteren waar objecten zich in het frame zullen bewegen om meer frames te creëren die mooi in elkaar overvloeien. Lumière genereert 80 frames, terwijl Stable Video Diffusion er slechts 25 genereert.

Video-naar-video

Lumière maakt niet alleen de generatie van tekst-naar-video mogelijk, maar ook video-naar-video. Gebruikers kunnen zo video’s in een bepaalde stijl maken. Een bekend voorbeeld zijn cinemagraphs, waarin er slechts één onderdeel uit de afbeelding geanimeerd wordt.

Google Bard Advanced met Gemini Ultra waarschijnlijk niet gratis

Lumière creëert bewegende beelden die, als je het niet weet, zeer realistisch lijken. Het model is nog niet beschikbaar om te testen, maar het zet Google wel op de kaart als het gaat over AI-videogeneratie naast de grote spelers zoals Runway en Pika.