Voicebox wordt de ChatGPT van het gesproken woord

Meta heeft Voicebox voorgesteld, een generatief AI-model dat tekst omzet naar audio.

Het was er even op wachten, maar Meta heeft Voicebox nu officieel voorgesteld. Dit generatieve AI-model zet tekst om naar audio.

Wat

Het Amerikaanse bedrijf definieert zijn model als een ‘een non-autoregressief flow-matching model dat is getraind om gesproken woord te genereren, mits de nodige audiocontext en tekst’.

Training

Voicebox is getraind met meer dan vijftigduizend uren aan audio. Meta gebruikte hiervoor heel wat gesproken teksten en transcripties van publieke audioboeken in het Engels, Frans, Spaans, Duits, Pools en Portugees.

Volgens de onderzoekers zouden die diverse data ervoor zorgen dat het model meer content kan genereren die neigt naar een echte conversatie, los van de taal die elke partij spreekt. Voicebox leerde eerst om stukken gesproken tekst te voorspellen, gebaseerd op de tekst die ervoor en erna kwam.

lees ook

Meta ontwikkelt nieuwe chip voor AI

Mogelijkheden

Het model kan de audio bovendien actief aanpassen. Zo kan het systeem achtergrondgeluid elimineren en zelfs woorden die verkeerd worden uitgesproken, corrigeren.

Je hoeft voorlopig echter nog niet te hard na te denken op toepassingen. Zowel de app als de broncode van Voicebox zijn nog niet publiek beschikbaar. De reden hiervoor is mogelijk misbruik, aldus Meta.

Het is de afgelopen tijd niet alleen rozengeur en maneschijn voor het bedrijf van Mark Zuckerberg. Begin deze maand werd het belang van AI nog eens extra benadrukt om het overgebleven personeel toch maar gerust te stellen, na een boel ontslagen. Bovendien kreeg Meta vorige maand een stevige boete om de oren wegens GDPR-inbreuken.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.
terug naar home