Nieuwe Facebook-technologie kan spraakherkenning in het Nederlands drastisch verbeteren

Het AI-team van Facebook onthult een manier om spraakherkenningssystemen te trainen, zonder dat daar getranscribeerde audiodata voor nodig is. Dit is een uitkomst om spraakherkenning van talen die relatief weinig voorkomen – zoals het Nederlands – enorm te verbeteren.

Spraakherkenning is een van de meestvoorkomende soorten AI en komt voor in veel populaire applicaties. Zo gebruiken Amazon Alexa en Google Assistant spraakherkenning om commando’s te begrijpen. YouTube maakt op zijn beurt gebruik van spraakherkenning om automatische captions te genereren voor video’s.

Op dit moment is er nog één probleem met spraakherkenning: het werkt alleen goed voor de meestgesproken talen ter wereld, zoals Engels, Arabisch, Chinees, Spaans en Frans. Spraaktechnologie is daarentegen erg beperkt voor talen die weinig voorkomen, zoals Baskisch en Swahili. Ook voor de Nederlandse taal loopt de spraaktechnologie nog behoorlijk achter.

Tot nu toe moest spraaktechnologie getraind worden op basis van grote hoeveelheden getranscribeerde audio. Deze data zijn ruimschoots beschikbaar in het Engels en andere veelvoorkomende talen. Voor talen die minder vaak voorkomen, is de hoeveelheid data beperkt.

De nieuwe ‘wav2vec Unsupervised’-technologie van Facebook kan hier verandering in brengen. Deze methode is in staat om kwalitatieve spraakherkenningsmodellen te creëren, zonder gelabelde trainingsdata.

Zo werkt wav2vec-U

“Wav2vec-U is het resultaat van jaren aan werk in spraakherkenning, self-supervised learning en unsupervised machine translation”, schrijven Facebook AI-onderzoekers Alexei Baevski, Wei-Ning Hsu en Michael Auli in een blogartikel. “Het is een belangrijke stap richting het bouwen van machines die een breed assortiment aan taken kan oplossen, enkel door te leren van observaties”, leggen de onderzoekers uit.

Wav2vec-U heeft nog steeds data nodig om getraind te worden, maar daar is enkel gesproken audio voor nodig. Het is niet langer nodig om deze audio te transcriberen. De technologie leert de structuur van een taal op basis van de ongelabelde audio.

De technologie werkt op basis van een ‘generator’ en een ‘discriminator’ om een model te leren hoe het tekst in de doeltaal kan associëren met de ongelabelde audio die wordt ingevoerd. In eerste instantie zullen de transcripties niet al te best zijn. De discriminator geeft echter feedback, waardoor het model na verloop van tijd steeds preciezer wordt.

Zeer accuraat

Uit experimenten van Facebook blijkt dat de technologie helpt om modellen uiteindelijk extreem accuraat te maken. Vergeleken met de TIMIT-benchmark laat de Facebook-technologie een error rate van 63% zien ten opzichte van andere unsupervised leermethodes.

Om zijn technologie verder te testen, vergeleek Facebook zijn resultaten met de prestaties van supervised AI-modellen die op traditionele wijze zijn getraind. Op basis van de Librispeech-benchmark blijkt dat wav2vec-U even accuraat is met spraakmodellen die slechts een paar jaar geleden nog als ‘state-of-the-art’ gezien werden.

Volgens Facebook is wav2vec-U een belangrijke ontwikkeling. Het bedrijf is van mening dat spraaktechnologie niet enkel beschikbaar moet zijn voor mensen die de populairste talen vloeiend spreken. De technologie moet mogelijk worden voor elke taal en elk dialect.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Nieuwe Facebook-technologie kan spraakherkenning in het Nederlands drastisch verbeteren

Zo werkt wav2vec-U

Zeer accuraat

gerelateerd nieuws

nieuwsbrief