Google Deepmind levert AI-audio voor video

Onderzoekers bij Google Deepmind hebben technologie ontwikkeld die videopixels en tekstprompts gebruikt om geluid te genereren voor video’s.

Videogeneratiemodellen evolueren snel, maar veel huidige systemen genereren alleen stille video’s. De volgende stap is het creëren van geluidsbanden voor deze video’s. De nieuwe video-to-audio (V2A) technologie maakt gesynchroniseerde audiovisuele productie mogelijk. V2A combineert videopixels met tekstprompts om rijke geluidssferen te genereren die passen bij de beelden.

Verbeterde creatieve controle

V2A kan gekoppeld worden aan videogeneratiemodellen zoals Veo (ook van Google Deepmind) om dramatische soundtracks, realistische geluidseffecten of dialoog te creëren die passen bij de video’s. De technologie kan ook geluidsbanden genereren voor traditionele beelden, zoals archiefmateriaal en stomme films, wat nieuwe creatieve mogelijkheden opent.

Gebruikers kunnen een onbeperkt aantal geluidsbanden genereren voor elke video. Met een ‘positieve prompt’ kunnen gewenste geluiden worden gegenereerd, terwijl een ‘negatieve prompt’ helpt ongewenste geluiden te vermijden. Deze flexibiliteit geeft gebruikers meer controle over de audio-uitvoer, waardoor ze snel kunnen experimenteren en de beste geluidsmatch kunnen kiezen.

Werking van V2A

Het V2A-systeem van Deepmind start met het encoderen van videobeelden in een gecomprimeerde representatie. Het model verfijnt het geluid iteratief vanaf willekeurige ruis. Dit proces wordt gestuurd door de visuele input en de natuurlijke taalprompts, om gesynchroniseerde en realistische audio te genereren die nauw aansluit bij de prompt. Vervolgens wordt de audio-uitvoer gedecodeerd, omgezet in een audiogolfvorm en gecombineerd met de videodata.

Om audio van hogere kwaliteit te genereren en specifieke geluiden te sturen, is meer informatie toegevoegd aan het trainingsproces. Denk daarbij aan AI-gegenereerde annotaties met gedetailleerde beschrijvingen van geluid en transcripties van gesproken dialoog. Door te trainen op video, audio en aanvullende annotaties, leert de technologie specifieke audio-gebeurtenissen te associëren met verschillende visuele scènes, terwijl deze reageert op de informatie in de annotaties of transcripties.

Verdere onderzoeksontwikkelingen

De V2A-technologie onderscheidt zich omdat het ruwe pixels begrijpt en het toevoegen van een tekstprompt optioneel is. Bovendien hoeft het systeem geen handmatige afstemming van het gegenereerde geluid met de video, wat het proces aanzienlijk vereenvoudigt.

Er zijn nog beperkingen die moeten worden aangepakt. De kwaliteit van de audio-uitvoer is afhankelijk van de kwaliteit van de video-input. Artefacten of vervormingen in de video kunnen leiden tot een merkbare daling van de audiokwaliteit. Ook wordt de synchronisatie van lipbewegingen verbeterd voor video’s met spraak. V2A probeert spraak te genereren op basis van de transcripties en dit te synchroniseren met de lipbewegingen van de personages. Maar het gekoppelde videogeneratiemodel is mogelijk niet afgestemd op transcripties, wat kan leiden tot onnatuurlijke lipbewegingen.

V2A is vandaag nog niet publiek beschikbaar. Je kan verschillende videodemo’s hier terugvinden.

poll

"*" indicates required fields

vacatures

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Verbeterde creatieve controle

Werking van V2A

Verdere onderzoeksontwikkelingen

nieuwsbrief