Spreken in plaats van typen: werkt spraakherkenning vandaag productiever?

Jabra Evolve 75 spraakherkenning

Spraakherkenning in je dagelijkse werk is niet nieuw. Verticale markten zoals de juridische sector en de gezondheidszorg zweren al jaren bij spraak in plaats van toetsenbord. Kan de technologie ook buiten deze sectoren een aanwinst zijn?

Dit experiment is het resultaat van ondergetekende die zijn hand afgelopen weekend zwaar heeft gekneusd. Typen met één hand is doenbaar, maar niet echt productief. Om een hoop frustratie te voorkomen, leek het mij een interessante test om een week lang alleen maar te spreken in plaats van te typen. Wat in het begin op een briljant idee leek, blijkt al heel snel een niche oplossing die niet voor iedereen bruikbaar is.

Ter informatie: heel deze tekst werd zonder toetsenbord neergeschreven. Althans, bijna zonder toetsenbord. Sommige handelingen zijn net iets te omslachtig of frustrerend zodat snel iets corrigeren of herwerken met één vinger sneller gaat.

Spraakherkenning dankzij Lernout & Hauspie

Het loont de moeite om stil te staan waarom ik in het Nederlands kan dicteren. Vaak worden wereldtalen in spraaksoftware verwerkt zoals Engels, Frans, Duits, Italiaans of Spaans. Nederlands hebben we te danken aan Lernout & Hauspie, het illustere Belgische softwarebedrijf dat eind jaren ‘90 furore maakte in de IT-wereld. De Dragon-productlijn werd na het faillissement overgenomen door ScanSoft, dat daarna Nuance Communications overnam. Later volgde een rebranding naar Nuance: het bedrijf dat we vandaag kennen en recent werd overgekocht door Microsoft voor 19,7 miljard dollar.

Ik mag daarom van geluk spreken dat ik gewoon in het Nederlands kan spreken en de tekst meestal vlekkeloos in het Nederlands op het scherm verschijnt. Voor deze test maak ik gebruik van Nuance Dragon Professional Individual 15: de meest recente softwareversie voor spraakherkenning.

Tijdens de installatie kan ik me niet van het gevoel ontdoen dat deze software oud aanvoelt.

Tijdens de installatie kan ik me niet van het gevoel ontdoen dat deze software oud aanvoelt. Het installatieprogramma is oubollig en een computer tweemaal herstarten voordat je aan de slag kan is iets teveel van het goede. Er nestelt zich in de taakbalk ook de ‘Common Software Manager’ die schijnbaar nodig is om alles up-to-date te houden. Eens dat achter de rug is, kan ik aan de slag met spraakherkenning.

Hoezo geen Kempisch accent?

Tijdens de initiële configuratie voor spraakherkenning, iets wat je eenmalig moet doen in het begin, wordt er duidelijk geadviseerd om een headset met microfoon dichtbij de mond te gebruiken. Wie enkel de microfoon van zijn laptop of webcam heeft, haalt mogelijk niet de beste ervaring in huis. Later in dit stuk kan je twee testen zien tussen een microfoon vlak voor je mond via een headset, en een microfoon in de laptop.

Om het programma te trainen, moet je eerst een voorbeeldtekst lezen. De tekst geeft een idee van wat de software doet en waarom die training nodig is, met de nodige promo dat je op de website van Nuance aanvullende tips kan terugvinden. Tijdens de installatie moet je overigens ook aangeven of je Vlaams of Nederlands spreekt.

Nuance Dragon

Wie mij kent, weet dat mijn uitspraak niet bepaald zuiver is. Het Kempische dialect zit zwaar geworteld in mij, wat het bijzonder moeilijk maakt om mooi AN te spreken terwijl ik dicteer. In het begin hoopte ik de software te trainen om Kempisch misschien toch mogelijk te maken, maar al snel heb ik door dat AN de enige manier van werken is. Iets trager spreken en duidelijk articuleren helpt de software, maar het is vooral je uitspraak en bijhorende klanken die zwaar doorwegen op de ervaring. Dit is hoe de spraakherkenning mijn Kempisch registreert:

MOOI GESPROKEN: Jij gaat toch niet bepalen hoe ik moet spreken? Als ik liever gewoon Kempisch praat, dan doe ik dat toch gewoon zeker?

KEMPISCH GESPROKEN: Jij had niet bepalen hoe het met spreken? As ik liever inwonend Kempisch praat, dan doe ik dat er gewoon zeker?

Niet het beste resultaat hierboven. Ik schuif bijgevolg het Kempisch een werkweek aan de kant en geef de spraaksoftware de maximale kans om mijn ervaring te doen slagen.

Lexicon aandikken

Mijn initiële reactie na de eerste woorden die op het scherm verschijnen, is er een van verbazing. Ik open een Word-document en zie met een lichte vertraging mijn woorden op het scherm verschijnen. Rechts onderaan de cursor is een klein icoontje van Dragon dat aangeeft dat je microfoon luistert. Bovenaan het scherm staat een kleine softwaretool continu zichtbaar die weergeeft of je microfoon aan of uit staat, samen met een aantal extra opties.

Die opties heb je al behoorlijk snel nodig voor goede spraakherkenning. Klassieke Nederlandstalige conversaties worden vlot opgepikt, maar van zodra je specifieke merknamen, technologieën of Engelse woorden dicteert, moet je die manueel aan het lexicon toevoegen. Dat is een pijnlijk traag proces dat voor de meeste gebruikers de eerste dagen heel vervelend zal maken. In mijn geval was er frustratie tot op de laatste minuut omdat ik over tal van IT-zaken schrijven, waar buzzwordbingo de standaard is.

Van zodra je specifieke merknamen, technologieën of Engelse woorden dicteert, moet je die manueel aan het lexicon toevoegen.

Ik kan me best inbeelden dat andere werknemers binnen bedrijven na een aantal dagen of weken een mooi aangedikt lexicon hebben en nauwelijks nog nieuwe toevoegingen moeten doen. Dat verhoogt het gebruiksplezier, want elke keer iets nieuw toevoegen breekt de snelheid van dicteren.

Vermoeiend met lagere productiviteit

Na het eerste halfuur heb ik al snel door dat dicteren een stiel apart is. Het is bijzonder vermoeiend om tegelijkertijd in je hoofd de juiste zin te verwerken, en die ook correct uit te spreken. Het werkt vanzelf bij onder andere e-mails of chatgesprekken, maar van zodra er iets meer creativiteit nodig is, wordt het heel vermoeiend. Ik kan me best inbeelden dat je hier na enige training veel sterker in wordt. Ikzelf worstel er na een week testen nog enorm veel mee.

Het is zelfs zo dat de snelheid van werken, bij mij althans, flink achteruit ging. Wanneer je typt, kan je tegelijk goed nadenken over wat je wil zeggen en krijg je de tijd om dat ook zo neer te schrijven. Wanneer je moet dicteren, is dat niet zo. Daar resulteert elke twijfel in een pauze, wat je extra doet nadenken dat je zeker het juiste zegt. Dat maakt het allemaal veel trager dan blind typen met 10 vingers. Wie niet blind kan typen en met één of twee vingers over de toetsen tokkelt, haalt mogelijk wel altijd winst uit spraakherkenning.

Microsoft Office en de Chrome-extensie

De spraakervaring in de Microsoft Office-suite is superieur vergeleken met andere toepassingen. In Word zie je de tekst automatisch verschijnen en kan je in feite de volledige software bedienen met je stem. Wanneer je daarbuiten gaat, worden je woorden in een apart Dragon-venster getoond en moet je op een knop klikken om die te kopiëren en plakken naar het actieve venster waar je in bezig bent.

Gelukkig schrijf ik deze tekst, samen met al mijn andere teksten, uit in Microsoft Word. Nuance ondersteunt wel een Chrome-extensie om de spraaksoftware native in je webbrowser te geven. Andere tools zoals Microsoft Teams, OneNote of andere desktop software moeten het doen met het vervelende pop-upvenster.

Nuance Dragon

De eerste vijf seconden na het inschakelen van de microfoon moet je wachten op het resultaat van je spraakherkenning. Het lijkt haast alsof er iets is misgelopen, tot het plots verschijnt. Pas daarna verschijnt alles en wordt het resultaat wel frequenter getoond. Hoe trager je spreekt, hoe sneller je het resultaat kan bewonderen. Wie snel spreekt, moet wachten tot zijn of haar zin af is voor je het resultaat kan bekijken. Snel spreken is trouwens niet echt een aanrader wegens slechte resultaten die je achteraf toch maar moet corrigeren.

Iets teveel dt-fouten

over een periode van een werkweek heeft Nuance Dragon me goed uit de miserie geholpen, maar het heeft me tegelijk ontzettend veel grijs haar gegeven. Het meest frappante probleem is zonder twijfel de dt-fouten in sommige gesproken teksten. Wanneer je kijkt naar software als Microsoft Word vandaag, worden die bijna altijd uitgelicht zodat je die kan aanpassen. Waarom Nuance dit niet zo goed kan, is mij een raadsel.

Een ander probleem met de software, is de frequentie aan correcties die je moet doorvoeren. De eerste dag keek ik naar elke zin die ik dicteerde om het resultaat te zien. Dat is een heel vermoeiende werkwijze waar je zo snel mogelijk vanaf moet stappen. Ik kijk bijvoorbeeld naar een muur of naar buiten, anders hou je het niet vol. Na een alinea, een zin of zes, durf ik kort te kijken om te zien welke fouten er werden gemaakt. Enig nadeel van deze werkwijze is dat het soms moeilijk is om de fouten snel te corrigeren omdat het niet meer fris in het hoofd zit. Tien minuten babbelen en dan pas het resultaat analyseren lijkt mij geen goed plan, tenzij je ervaring met spraakherkenning veel groter is.

Belangrijke vereiste blijft hier wel: AN spreken, altijd en overal.

Hoe algemener je tekst, met weinig specifieke woorden zoals merken, termen en Engelse woorden, hoe minder je moet corrigeren. Je leert zelf ook redelijk snel hoe vlot je mag praten om een relatief foutloos resultaat te krijgen. Belangrijke vereiste blijft hier wel: AN spreken, altijd en overal.

Leestekens uitspreken

De software blijft gelukkig niet continu de hele tijd naar je stem luisteren. Je moet die manueel in- en uitschakelen. Standaard staat die sneltoets onder de plus op het numeriek klavier. Dat is een handige plaats omdat die dicht tegen je muishand rechts ligt. Het minteken op het numeriek klavier kan je gebruiken om snel correcties door te voeren met je stem. Wie dat wenst, kan de sneltoetsen ergens anders toewijzen.

Oh ja, ik heb het nog niet gehad over het uitspreken van de leestekens. Dragon kan met zijn software niet automatisch detecteren wanneer er een komma of een punt in de zin moet staan. Resultaat: elk leesteken dat je nodig hebt, moet je luidop voorlezen. Dat lijkt raar, maar na een halve dag dicteren wen je eraan. Je moet er enkel op letten wanneer je ineens telefoon krijgt van iemand, dat je niet je zinnen met punten en komma’s begint af te haspelen.

Welke microfoon?

Voor de beste ervaring met spraakherkenning heb je een headset nodig met microfoon die dicht tegen je mond staat. Zo heb ik ook de hele week gewerkt, om frustraties te beperken. Hieronder geef ik je twee voorbeelden van dezelfde zin die ik je voorlees, maar waar ik telkens een andere microfoon gebruik en een andere afstand tot die microfoon.

Jabra Evolve 75 headset met microfoon (4 cm afstand tot microfoon):

Dicteren wat je in je hoofd hebt, is vermoeiender dan je denkt. Je moet er goed je hoofd bijhouden om ervoor te zorgen dat alles ook aangenaam leest achteraf. Het is een bijzondere ervaring die enige oefening vergt.

Laptop met ingebouwde microfoon (1 meter afstand, ongeveer op dezelfde hoogte):

Dicteren wat je in je hoofd hebt, is vermoeiender dan hij denkt. Je moeder je hoofd bijhouden om ervoor te zorgen dat alles ook aangenaam leest achteraf. Dat is een bijzondere ervaring die enige versjes een loods.

Mogelijk placebo-effect

Zoals hierboven kan zien, neemt de headset met microfoon de woorden foutloos over. De korte afstand tot de microfoon zorgt voor het beste resultaat. Bij de microfoon van de laptop zie ik, ondanks traag praten en goed articuleren, wel wat fouten opduiken. Nuance raadt in zijn software wel aan dat je maximaal 30-60 cm afstand mag hebben tussen de microfoon van je laptop.

Nuance Dragon

Om de automatische spraakherkenning te verbeteren, stelt Dragon je regelmatig voor om de software te trainen voor een betere herkenning. Dat is iets softwarematig wat je op de achtergrond kan doen wanneer je PC geen intensieve workload verwerkt. Ik heb dit nu in mijn testweek één keer laten doen. Het lijkt precies beter te zijn sinds de extra training, maar dat kan ook het placebo-effect zijn. Hou er wel rekening mee: hoe langer je de training uitstelt, hoe langer die zal duren wanneer je ze toch wil uitvoeren omdat er meer gegevens beschikbaar zijn.

Extra liters water drinken

Is spreken tegen mijn computer nu iets wat ik continu wil doen? Nee, daar leent mijn job zich niet voor, tenzij ik zeer veel tijd stop in het uitbreiden van de lexicon. Ik vrees ook dat mijn Kempisch accent iets te vaak roet in het eten gaat gooien. Ik merk bovendien dat mijn teksten minder vlot lezen wanneer ik ze dicteer vergeleken met wanneer ik ze schrijf. Gek genoeg haal ik ook niet dezelfde voldoening uit een tekst dicteren vergeleken met een getypte tekst.

Het is een bijzonder vermoeiende week geweest omdat mijn hoofd tegelijk nadenken en dicteren heel moeilijk vindt.

Na vele extra liters water drinken deze week – continu dicteren geeft je een enorme plakmond – schuif ik mijn headset aan de kant. Het is een bijzonder vermoeiende week geweest omdat mijn hoofd tegelijk nadenken en dicteren heel moeilijk vindt. Mogelijk is dat niet bij iedereen het geval en kan je dit ook trainen, maar rekening houdend met mijn snelheid van typen en het regelmatig corrigeren van gedicteerde teksten is spraakherkenning voor mij geen blijver.

Wil jij graag zelf ook eens spraakherkenning proberen? In de plaats van een duur softwarepakket aan te kopen, kan je de app Nuance Dragon Anywhere downloaden voor iOS en Android. Je kan daar de software op je mobiele telefoon gratis testen gedurende een week. Het is natuurlijk niet hetzelfde als een compleet softwarepakket zoals Nuance Dragon Professional Individual 15, maar het geeft je wel een goede indruk hoe accuraat de technologie werkt voor jou. Hopelijk heb jij meer succes dan ik.

Aantal fouten dat ik heb moeten corrigeren in deze tekst omwille van de spraakherkenning? 40


Foutvoorbeelden

Hieronder som ik nog een aantal bijzondere, subtiele of hilarische fouten op die Dragon maakte tijdens mijn testweek:

FOUT: Ik ben ook nog wattenstaafjes aan het doen met de microfoon van bijvoorbeeld Lucetic en Lin-Novo

GOED: Ik ben ook nog wat testjes aan het doen met de microfoon van bijvoorbeeld Logitech en Lenovo

FOUT: Hoe zit het nu met Ditco-in’s, crypto mijn en Ransom-Weijer

GOED: Hoe zit het nu met Bitcoins, cryptomunten en ransomware

FOUT: Toenemend aantal saai verhoogd vaardigheden ITT mis met 82%

GOED: Toenemend aantal cyberaanvallen verhoogt vaardigheden IT-teams met 82%

FOUT: Het Kempische dialect zit zwaar geworteld in mei, wat het bijzonder moeilijk gemaakt om mooi AN te spreken.

GOED: Het Kempische dialect zit zwaar geworteld in mij, wat het bijzonder moeilijk maakt om mooi AN te spreken.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.