Het AI-team van Facebook onthult een manier om spraakherkenningssystemen te trainen, zonder dat daar getranscribeerde audiodata voor nodig is. Dit is een uitkomst om spraakherkenning van talen die relatief weinig voorkomen – zoals het Nederlands – enorm te verbeteren.
Spraakherkenning is een van de meestvoorkomende soorten AI en komt voor in veel populaire applicaties. Zo gebruiken Amazon Alexa en Google Assistant spraakherkenning om commando’s te begrijpen. YouTube maakt op zijn beurt gebruik van spraakherkenning om automatische captions te genereren voor video’s.
Op dit moment is er nog één probleem met spraakherkenning: het werkt alleen goed voor de meestgesproken talen ter wereld, zoals Engels, Arabisch, Chinees, Spaans en Frans. Spraaktechnologie is daarentegen erg beperkt voor talen die weinig voorkomen, zoals Baskisch en Swahili. Ook voor de Nederlandse taal loopt de spraaktechnologie nog behoorlijk achter.
Tot nu toe moest spraaktechnologie getraind worden op basis van grote hoeveelheden getranscribeerde audio. Deze data zijn ruimschoots beschikbaar in het Engels en andere veelvoorkomende talen. Voor talen die minder vaak voorkomen, is de hoeveelheid data beperkt.
De nieuwe ‘wav2vec Unsupervised’-technologie van Facebook kan hier verandering in brengen. Deze methode is in staat om kwalitatieve spraakherkenningsmodellen te creëren, zonder gelabelde trainingsdata.
Zo werkt wav2vec-U
“Wav2vec-U is het resultaat van jaren aan werk in spraakherkenning, self-supervised learning en unsupervised machine translation”, schrijven Facebook AI-onderzoekers Alexei Baevski, Wei-Ning Hsu en Michael Auli in een blogartikel. “Het is een belangrijke stap richting het bouwen van machines die een breed assortiment aan taken kan oplossen, enkel door te leren van observaties”, leggen de onderzoekers uit.
Wav2vec-U heeft nog steeds data nodig om getraind te worden, maar daar is enkel gesproken audio voor nodig. Het is niet langer nodig om deze audio te transcriberen. De technologie leert de structuur van een taal op basis van de ongelabelde audio.
De technologie werkt op basis van een ‘generator’ en een ‘discriminator’ om een model te leren hoe het tekst in de doeltaal kan associëren met de ongelabelde audio die wordt ingevoerd. In eerste instantie zullen de transcripties niet al te best zijn. De discriminator geeft echter feedback, waardoor het model na verloop van tijd steeds preciezer wordt.
Zeer accuraat
Uit experimenten van Facebook blijkt dat de technologie helpt om modellen uiteindelijk extreem accuraat te maken. Vergeleken met de TIMIT-benchmark laat de Facebook-technologie een error rate van 63% zien ten opzichte van andere unsupervised leermethodes.
Om zijn technologie verder te testen, vergeleek Facebook zijn resultaten met de prestaties van supervised AI-modellen die op traditionele wijze zijn getraind. Op basis van de Librispeech-benchmark blijkt dat wav2vec-U even accuraat is met spraakmodellen die slechts een paar jaar geleden nog als ‘state-of-the-art’ gezien werden.
Volgens Facebook is wav2vec-U een belangrijke ontwikkeling. Het bedrijf is van mening dat spraaktechnologie niet enkel beschikbaar moet zijn voor mensen die de populairste talen vloeiend spreken. De technologie moet mogelijk worden voor elke taal en elk dialect.