Google Deepmind levert AI-audio voor video

Onderzoekers bij Google Deepmind hebben technologie ontwikkeld die videopixels en tekstprompts gebruikt om geluid te genereren voor video’s.

Videogeneratiemodellen evolueren snel, maar veel huidige systemen genereren alleen stille video’s. De volgende stap is het creëren van geluidsbanden voor deze video’s. De nieuwe video-to-audio (V2A) technologie maakt gesynchroniseerde audiovisuele productie mogelijk. V2A combineert videopixels met tekstprompts om rijke geluidssferen te genereren die passen bij de beelden.

Verbeterde creatieve controle

V2A kan gekoppeld worden aan videogeneratiemodellen zoals Veo (ook van Google Deepmind) om dramatische soundtracks, realistische geluidseffecten of dialoog te creëren die passen bij de video’s. De technologie kan ook geluidsbanden genereren voor traditionele beelden, zoals archiefmateriaal en stomme films, wat nieuwe creatieve mogelijkheden opent.

Gebruikers kunnen een onbeperkt aantal geluidsbanden genereren voor elke video. Met een ‘positieve prompt’ kunnen gewenste geluiden worden gegenereerd, terwijl een ‘negatieve prompt’ helpt ongewenste geluiden te vermijden. Deze flexibiliteit geeft gebruikers meer controle over de audio-uitvoer, waardoor ze snel kunnen experimenteren en de beste geluidsmatch kunnen kiezen.

Werking van V2A

Het V2A-systeem van Deepmind start met het encoderen van videobeelden in een gecomprimeerde representatie. Het model verfijnt het geluid iteratief vanaf willekeurige ruis. Dit proces wordt gestuurd door de visuele input en de natuurlijke taalprompts, om gesynchroniseerde en realistische audio te genereren die nauw aansluit bij de prompt. Vervolgens wordt de audio-uitvoer gedecodeerd, omgezet in een audiogolfvorm en gecombineerd met de videodata.

Om audio van hogere kwaliteit te genereren en specifieke geluiden te sturen, is meer informatie toegevoegd aan het trainingsproces. Denk daarbij aan AI-gegenereerde annotaties met gedetailleerde beschrijvingen van geluid en transcripties van gesproken dialoog. Door te trainen op video, audio en aanvullende annotaties, leert de technologie specifieke audio-gebeurtenissen te associëren met verschillende visuele scènes, terwijl deze reageert op de informatie in de annotaties of transcripties.

Verdere onderzoeksontwikkelingen

De V2A-technologie onderscheidt zich omdat het ruwe pixels begrijpt en het toevoegen van een tekstprompt optioneel is. Bovendien hoeft het systeem geen handmatige afstemming van het gegenereerde geluid met de video, wat het proces aanzienlijk vereenvoudigt.

Er zijn nog beperkingen die moeten worden aangepakt. De kwaliteit van de audio-uitvoer is afhankelijk van de kwaliteit van de video-input. Artefacten of vervormingen in de video kunnen leiden tot een merkbare daling van de audiokwaliteit. Ook wordt de synchronisatie van lipbewegingen verbeterd voor video’s met spraak. V2A probeert spraak te genereren op basis van de transcripties en dit te synchroniseren met de lipbewegingen van de personages. Maar het gekoppelde videogeneratiemodel is mogelijk niet afgestemd op transcripties, wat kan leiden tot onnatuurlijke lipbewegingen.

V2A is vandaag nog niet publiek beschikbaar. Je kan verschillende videodemo’s hier terugvinden.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.