Stability AI lanceert tekst-naar-audio-platform

Opensource AI-bedrijf Stability AI heeft het platform Stable Audio voorgesteld, een model dat audio genereert uit tekstprompts.

Het Britse bedrijf Stability AI heeft Stable Audio gelanceerd, een platform om tekst om te zetten naar audio. Dit is maar enkele maanden na StableStudio, een tekst-naar-beeld-platform.

Training levert op

De AI voor dit platform is getraind met meer dan 800.000 audiobestanden van muziek, geluidseffecten en voorbeelden van één enkel instrument. Samen vormen die bestanden een dataset van ruim 19.500 uren aan audio.

Daarbovenop kwam ook nog de corresponderende tekstuele metadata. Dit alles kwam tot stand via een deal met een provider voor stockmuziek, AudioSparx.

Stability AI neemt dus geen risico meer wat betreft de herkomst van trainingsdata. Er loopt nog steeds een zaak die is aangespannen door Getty Images rond beelden die zijn gebruikt om Stable Diffusion te trainen.

Zin om een eigen ChatGPT te bouwen? Ga aan de slag met StableLM

Netwerken is belangrijk

Stable Audio maakt gebruik van latente diffusiemodellen die uit enkele componenten bestaan, vergelijkbaar met Stable Diffusion. Die delen zijn:

Een variabele autoencoder of VAE
Een CLAP-tekstencoder
Een geconditioneerd diffusiemodel, gebaseerd op U-Net

Om de AI te trainen met de tekstprompts gebruikt Stability AI een CLAP-model, omdat de tekst via dat systeem informatie kan bevatten over de link tussen woorden en geluiden. Via die tekstencoder wordt er een teksttoken naar het diffusiemodel gestuurd.

Voor de timing van de audio houdt de training rekening met twee cijfers: het beginmoment wanneer een stukje van een audiofragment wordt gebruikt en de totale duur ervan. Als een trainingsfragment bijvoorbeeld zestig seconden duurt, maar voor de training is er maar de laatste veertig seconden gebruikt, dan is die eerste waarde 20 (seconden) en die tweede waarde 60. Met deze vorm van training kan Stability AI audiofragmenten van een specifieke lengte genereren.

Het platform kan momenteel stereoclips produceren van 95 seconden lang, tegen een sample-rate van 44.1 kHz (samples zijn het audio-equivalent van pixels bij beelden). Dit gaat binnen de seconde, met een Nvidia A100 GPU.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Stability AI lanceert tekst-naar-audio-platform

Training levert op

Zin om een eigen ChatGPT te bouwen? Ga aan de slag met StableLM

Netwerken is belangrijk

gerelateerd nieuws

nieuwsbrief