Nvidia laat computerstem horen die praat als mens

AI-onderzoekers van Nvidia zijn er in geslaagd om een computerstem te voorzien van een complex ritme, timbre en intonatie zodat het resultaat klinkt als een echte menselijke stem.

Nvidia pakt op de Interspeech 2021-conferentie uit met een computerstem die als een mens klinkt. Met de hulp van AI en machine learning ontwikkelden de onderzoekers van de GPU-specialist modellen voor spraaksynthese die ritme, timbre en intonatie omvatten. Daarmee valt de monotone cadans van klassieke computerstemmen weg. In de voorbeelden van Nvidia horen we een stem die op een natuurlijke manier praat, net als een mens.

Gebruikers kunnen het AI-model manueel instructies geven, maar het kan ook leren van een echte menselijke acteur. Zo kan iemand een originele tekst inspreken en is het model in staat om diezelfde tekst met een andere computergegenereerde  stem na te bootsen, inclusief intonatie.

Toepassingen

Nvidia ziet veel toepassingen voor de capaciteiten. Zo kan een enkele acteur meerdere stemmen inspreken voor een videospel, of kan het model mensen met een spraakbeperking helpen om op een meer natuurlijke manier met hun omgeving te praten. De technologie kan ook misbruikt worden om deepfakes van iemand stem te maken en die persoon zo virtueel dingen te laten zeggen, wat dan weer risico’s met zich meebrengt.

Nvidia bundelt verschillende capaciteiten van zijn conversationeel AI-model in de NeMo-toolkit, die op GitHub beschikbaar is. In de toolkit zitten modellen getraind met de Mozilla Common Voice-dataset, die bestaat uit bijna 14.000 uur aan spraak in 76 taken.

nieuwsbrief

Abonneer je gratis op ITdaily !
  • This field is for validation purposes and should be left unchanged.
terug naar home