Nieuwe AI van Microsoft genereert realistische spraak

Microsoft introduceert een nieuw type neurale architectuur. Het artificiële intelligentie (AI)-systeem maakt gebruikt van unsupervised learning, een tak van machine learning die kennis verzamelt van niet-gelabelde, niet-geclassificeerde en niet-gecategoriseerde testgegevens.

Dit maakte Microsoft onlangs bekend in het onderzoeksrapport Almost Unsupervised Text to Speech and Automatic Speech Recognition. De oplossing voor het ontwikkelen van het nieuwe AI-systeem bleek te liggen in Transformers, een neurale architectuur geïntroduceerd in 2017. Het systeem werd onder andere geschreven door wetenschappers van Google Brain, de AI-onderzoeksafdeling van Google.

Volgens Venturebeat bereikt het nieuwe AI-systeem een woordnauwkeurigheid van 99,84 procent en 11,7 procent PER voor automatische spraakherkenning. Het model vereiste slechts 200 audioclips en bijbehorende transcripties.

Transformers

Net als alle diepe neurale netwerken bevat Transformers digitale neuronen gerangschikt in onderling verbonden lagen, die signalen verzenden op basis van invoergegevens. Neuronen zijn mathematische functies, die losjes gemodelleerd zijn naar biologische neuronen. Bovendien passen ze langzaam het gewicht (belang) van elke verbinding met andere neuronen aan. Zo leert het model langzaam maar zeker dingen correct te voorspellen. Het unieke aan Transformers is dat ieder uitvoerelement verbonden is met ieder invoerelement. De onderlinge wegingen worden dynamisch berekend op basis van feedback, waardoor het systeem zichzelf kan verbeteren.

Weinig menselijke controle

Onderzoekers van Microsoft namen een Transformer-component op in hun AI-systeemontwerp, dat spraak of tekst als invoer of uitvoer kan verwerken. Daarbij gebruikten ze de openbaar beschikbare LJSpeech-dataset, die 13.100 Engelse audiofragmenten en transcripties bevat, als trainingsgegevens. De 200 clips zijn willekeurig uitgekozen met als doel het maken van een trainingsgegevensset. Een ruisarme auto-encodercomponent werd gebruikt om corrupte spraak en tekst te reconstrueren.

“In dit werk hebben we de bijna niet-gesuperviseerde methode voor tekst-naar-spraak en automatische spraakherkenning voorgesteld, die slechts enkele gepaarde spraak- en tekstgegevens en extra ongepaarde gegevens gebruikt. We laten in onze experimenten zien dat onze ontworpen componenten noodzakelijk zijn om de mogelijkheid van spraak- en teksttransformatie met weinig gepaarde gegevens te ontwikkelen”, aldus de onderzoekers.

Lees ook: Microsoft schenkt Azure nieuwe AI- en Blockchainmogelijkheden

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Nieuwe AI van Microsoft genereert realistische spraak

Transformers

Weinig menselijke controle

gerelateerd nieuws

nieuwsbrief