DeepMind heeft een manier gevonden om een AI videoclips te laten maken van ‘opmerkelijke natuurgetrouwheid’. De zogeheten Dual Video Discriminator GAN (DVD-GAN) genereert coherente video’s van 256 op 256 pixels, tot 48 frames lang.
Computationeel efficiënte componenten, technieken en een nieuwe op maat gemaakte dataset hebben uiteindelijk geleid tot de ontwikkeling van DVD-GAN. Onderzoekers van DeepMind, het Britse zusterbedrijf van Google dat gespecialiseerd is in AI, hebben hun bevindingen rondom het generen van AI-clips gepubliceerd in een nieuwe paper.
Videosynthese en -voorspelling
“Het genereren van natuurlijke video vormt een voor de hand liggende verdere uitdaging voor generatieve modellering, maar dan een die wordt geplaagd door toegenomen gegevenscomplexiteit en computervereisten”, schrijven de auteurs. “Om deze reden draaide veel eerder werk met betrekking tot het genereren van video rond relatief eenvoudige gegevenssets of taken waarbij sterke tijdelijke conditioneringsinformatie beschikbaar is”
“Wij richten ons op de taken van videosynthese en videovoorspelling. We streven ernaar de sterke resultaten van generatieve beeldmodellen uit te breiden naar het videodomein”, leggen de onderzoekers uit.
Kinetics-600
Het onderzoeksteam bouwde hun systeem rond een geavanceerde AI-architectuur en introduceerde videospecifieke tweaks. Deze maakten het mogelijk om te trainen op Kinetics-600, een dataset van natuurlijke video’s die is samengesteld uit 500.000 hoge-resolutie YouTube-clips van telkens 10 seconden, oorspronkelijk samengesteld voor menselijke actieherkenning.
De onderzoekers gebruikten opgeschaalde GAN-netwerken (Generative Adversarial Networks). Dat zijn tweedelige AI-systemen waarbij twee neurale netwerken tegen elkaar worden uitgespeeld. Het ene netwerk (de generator) genereert nieuwe data op basis van een bestaande dataset, terwijl het tweede netwerk (de discriminator) de authenticiteit van die data evalueert.
Het ging hier om zogeheten BigGAN’s, die zich onderscheiden door hun batchgrootte en miljoenen parameters.
Dubbele discriminatoren
DVD-GAN bevat dubbele discriminatoren. Om te beginnen een ‘ruimtelijke discriminator’, die kritiek levert op de inhoud en structuur van een enkel frame door willekeurig frames met volledige resolutie te samplen en individueel te verwerken. Daarnaast is er ook sprake van een ’temporele discriminator’, die een leersignaal geeft om beweging te genereren. Een transformator, wat als afzonderlijke module gezien moet worden, laat vervolgens toe dat geleerde informatie zich over het gehele AI-model verspreidt.
Nadat de DVD-GAN tussen de 12 en 96 uur was getraind op Googles AI-versnellende Tensor Processing Units van de derde generatie, slaagde het erin video’s te maken met objectsamenstelling, beweging en gecompliceerde texturen. De zijkant van een ijsbaan is daar een voorbeeld van.
Voordeel
“We willen het voordeel benadrukken van het trainen van generatieve modellen op grote en complexe videogegevenssets, zoals Kinetics-600. We denken dat de sterke baselines die we hebben vastgesteld op deze dataset met DVD-GAN, door de generatieve modelleringsgemeenschap als een referentiepunt zullen worden gebruikt”, aldus de onderzoekers.
Volgens het team is er nog veel werk aan de winkel alvorens realistische video’s consistent kunnen worden gegenereerd in een ongedwongen omgeving. Toch zien ze DVD-GAN als een stap in de goede richting.
Gerelateerd: Hoe DeepMind een technologische wapenrace in de gezondheidszorg veroorzaakte