Is het vandaag al mogelijk om een interview van A tot Z te laten uitwerken door AI? Wij lieten de AI-software Sembly een gesproken interview omzetten tot een geschreven artikel. Na dit experiment vrezen we nog niet voor onze job.
Het gebruik van artificiële intelligentie in de journalistieke sector is niet nieuw. Tien jaar geleden verschenen al de eerste nieuwsberichten geschreven door een kunstmatige reporter. De inbreng van AI beperkte zich tot nu toe tot korte, feitelijke verslagen waar weinig creativiteit bij aan te pas komt, zoals het overlopen van beurskoersen of sportuitslagen.
Toen we in onze mailbox de bijzondere pitch kregen om een interview te schrijven met en door AI, waren we dan ook onmiddelijk geïntrigreerd. De technologie evolueert natuurlijk zeer snel. Vraag ChatGPT om over eender welk onderwerp een tekst te schrijven en de chatbot zal (meestal) geen slecht werk afleveren. Maar een artikel produceren dat ook aan de hoge kwaliteitseisen van onze hoofdredacteur Michaël voldoet, dat is echter nog andere koek.
We gingen de uitdaging dan ook graag aan. Aan de andere kant van de microfoon verkiezen we toch nog altijd een mens boven een robot en dus gingen we in gesprek met Erik Adriaensen van Speech Processing Solutions, een bedrijf dat spraakverwerkingsoplossingen ontwikkelt onder de Philips-merknaam. Het interview verliep via een Microsoft Teams-oproep.
lees ook
Met deze pen neem je discreet gesprekken op
Maak kennis met Sembly
Tijdens de call belde nog een derde gesprekspartner in: Sembly. Deze software volgt vanop de achtergrond stilzwijgend mee en zet de vergadering nadien om tot samenvattingen en zelfs volledige transcripten. Hieronder kan je lezen hoe Sembly het gesprek neergeschreven heeft. Op de noodzakelijke grammaticale correcties na hebben we zo min mogelijk aangepast aan het transcript.
ITdaily: Kan je wat vertellen over Speech Processing Solutions en wat jullie doen in spraaktechnologie?
Adriaensen: “Het is onze missie om alle documenten die met spraak in een organisatie gecreëerd worden, om die efficiënter te doen verlopen, waardoor er meer tijd vrij komt, hetzij voor de patiënt, de cliënt of de auteur zelf. Dus vroeger, in een nog niet zo lang verleden, en zelfs tot op heden, gebeurde dat nog op analoge kassettenbandjes, die dan uitgetypt werden door de secretarissen. Net zoals je vandaag nog mensen hebt, audiofielen die zweren bij vinyl. Dus het cassettebandje bestaat nog steeds.
“Maar midden jaren 90, met de opkomende digitalisering, kwam dan ook de spraakherkenning op de proppen, die eerst vooral door de medische wereld omarmd werd. En nu kan je wel zeggen dat deze systemen tot volle wasdom gekomen zijn met een zeer hoge, accurate herkenningsgraad. Dus ik wil zeggen dat een strafpleiter of een radioloog die vaak dezelfde woordenschat gebruikt een quasi perfect tekstdocument krijgt dat al dan niet snel nagekeken en gelabeld kan worden door een personal assistant. Maar de beperking van dit systeem is dat je steeds gebonden bent aan één stemprofiel. Dus één stemprofiel komt overeen met één auteur. En de traditionele spraakherkenningssoftware is nog altijd niet in staat om meerdere stemprofielen van elkaar te kunnen onderscheiden.”
En is dat nu het interessante van artificiële intelligentie?
“Die heeft nieuwe pistes mogelijk gemaakt en zorgt ook voor een doorbraak, waardoor meerdere stemprofielen tegelijkertijd opnemen, documenteren en uitschrijven in een tekstdocument mogelijk wordt.”
In welke sectoren wordt spraakherkenningstechnologie het vaakst gebruikt?
“Algemeen kan je stellen dat de medische en juridische wereld het verst gevorderd zijn. De medische wereld was pionier en dan moeten we vooral denken aan de radiologen die de voortrekkers waren. Niet vergeten dat zij begonnen zijn midden jaren negentig en dat de technologie pas de laatste vijftien jaar echt tot volwassenheid is gekomen. En de adoptie zelf heeft te maken met efficiëntie en performantiewinsten. Dus als ik spreek, dan gaat dat vijf tot zeven maal sneller dan dat ik schrijf. En een hoogopgeleide en dure arts heeft er natuurlijk baat bij om meer tijd met z’n patiënten te kunnen doorbrengen dan om rapporten te schrijven.”
“Voort zijn er de voortdurende besparingen in de zorg die meebrengen dat organisaties sneller en efficiënter moeten werken. Een derde factor, dat is de schaarste van de arbeidsmiddelen, medische secretaresses zijn moeilijker te vinden. Wat betekent dat het werk efficiënter moet georganiseerd worden. En een laatste drijvende factor, denk ik, zijn de digitale transformatiefondsen van de Europese Unie. Dus geld dat ter beschikking wordt gesteld om digitale technologie te introduceren in een organisatie.”
En wat zijn voor u persoonlijk de meest interessante of de mooiste use cases van spraakherkenning?
“Ik denk dat de nieuwste toepassing die ik vandaag aan het lijstje kan toevoegen, en ik zal er direct nog enkele opnoemen, dat is de holy grail van de journalisten. Dus dat jullie nu interviews volledig kunnen laten uitschrijven dankzij het nieuwe systeem dat we op de markt brengen. Natuurlijk zal dat einddocument nog eens door jou moeten geredigeerd en nagelezen worden, maar voordien, omdat we zaten met dat één stemprofiel, was discussies of gesprekken zoals wij die nu hebben automatisch laten uitschrijven niet mogelijk. Dus het is toch wel, denk ik, een hele leuke doorbraak.”
“Nu, het andere grote voordeel van de door de spraak aangemaakt documenten zit hem vooral in de tijdswinst. Nadat de specialist in het ziekenhuis de patiënt behandeld heeft en hij zijn rapport heeft opgesteld, kan de huisarts reeds 10 minuten later beschikken over het volledig uitgeschreven rapport. De patiënt wordt vlugger geholpen. De specialist zelf kan drie tot vijf patiënten extra per dag zien. Dus doe dat maar al 22 werkdagen per maand. Reken uit je winst.”
Laten we het dan eens kort over de technische kant van speech recognition hebben. Kan u eens het volledige proces uitleggen dat daar achter zit, hoe je van een gesproken opname tot een uitgeschreven tekst komt?
“Dan denk ik dat we een onderscheid moeten maken tussen de klassieke spraakherkenning, waar ik daarnet al naar verwees. Die werkt met één stemprofiel en een specifieke context. En anderzijds dus nieuwe oplossingen die nu mogelijk zijn met spraakherkenning die gebaseerd is op artificiële intelligentie. De klassieke spraakherkenning, die furore maakte midden jaren 90, denk maar aan Lernout en Houspie, en later Dragon, die maakt gebruik van een spraakherkenningsmotor. Een spraakherkenningsmotor herkent klanken of fonemen in groepen van drie, wij noemen dat de trifonen.”
“Nu, de nieuwe technologische revolutie die er gekomen is, is er gekomen dankzij de cloud. Dus laten we zeggen of stellen dat de cloud zich heel sterk ontwikkeld heeft de laatste vijf jaar. En waarom is cloud zo belangrijk? Omdat het spraakherkenningsmodel van AI gebaseerd is op algoritmes die hun kracht halen uit het uitplegen van enorm veel data. En denk hierbij dus bijvoorbeeld aan de door Google ontwikkelde spraakherkenning. Dat was iets totaal anders, een totaal ander model, dus volledig gebaseerd op AI. Nu zelf ben ik geen developer, maar wat ik weet is dat er voor de verschillende taken, verschillende APIs gebruikt worden. En dat men gebruik maakt van programma’s zoals Open AI, DeepGram, de Google API, en in het geval van Sembly hebben zij zelf ook zelf technologie ontwikkeld.”
Wat is de invloed van taal bij het ontwikkelen van spraak-naar-tekst-systemen?
In principe is de ene taal niet moeilijker dan de andere. Natuurlijk, wat een invloed heeft, dat is het aantal fonemen die er in een taal zijn. Dus bestaat het alfabet uit 26 of meer letters, dan heb je natuurlijk meer combinatie-mogelijkheden. Wat wel nog een invloed heeft, dat is bijvoorbeeld de intonatie. En dan heb ik het niet over het Limburgs, maar als je kijkt of als je denkt aan het Mandarijns of het Japans, ik denk dat je daar tot zeven verschillende mogelijke intonaties hebt van één en hetzelfde woord.
Zullen er door de toevoeging van ChatGPT nog nieuwe use cases komen? En zijn er misschien voorbeelden die u daar al van zou kunnen geven?
Wel, ik denk dat het meest voor de hand liggende antwoord is dat we tot op heden met de klassieke spraakherkenning beperkt waren tot de overheid, medische sector en juridische sector. En dankzij de artificiële intelligentie spraaktechnologie komt alles binnen handbereik van alle mogelijke sectoren. Iedere organisatie die meetings organiseert, is potentieel gebaat met een virtuele assistent, die dus in de achtergrond deelneemt aan meetings waarbij dat die dus ervoor gaat zorgen dat je een volledig uitgeschreven verslag krijgt met een samenvatting en met de voornaamste actiepunten.”
“Bijkomend voordeel is dat je ook niet fysiek hoeft aanwezig te zijn. Achteraf krijg ik toch de samenvatting en kan ik alles gaan herbeluisteren. Dat kan ik doen terwijl ik in de wagen zit.”
Zijn er naast dan artificiële intelligentie nog interessante technologische ontwikkelingen binnen spraaktechnologie die voor grote veranderingen zouden kunnen zorgen?
“Ik heb nog niet alle voordelen van het systeem opgesomd in de zin dat je de meetings ook in twee talen kunt doen. De motor is zo intelligent dat hij kan onderscheiden of wij in het Nederlands of Engels bezig zijn. Dus als ik nu naar het Engels verander, dan zul je in het transcript zien dat de meeting minutes onmiddellijk in het Engels en niet in het Nederlands staan. Nu komt er misschien wel een bijkomend probleem, dat is dat hij even moeilijkheden gaat hebben met terug het onderscheid te maken naar het Nederlands. Dus het zou kunnen dat er twee broebelzinnen in staan, maar dat moeten we testen.”
“Een ander heel belangrijk aspect is veiligheid, dus beveiliging en privacy. Ik wil toch nog even meegeven dat al onze audio files dubbel geëncrypteerd worden met een 256 bit standaard. De audio bestanden worden ook automatisch gewist na een bepaalde tijd, maar dat is afhankelijk van de ingestelde parameters door de eindklant. Sommige organisaties zeggen vanaf dat het document gefinaliseerd is, moet het klankbestand gewist worden. Er zijn ook organisaties die zeggen van oké, we houden het nog één week bij of één maand.”
Wartaal
Op basis van het originele transcript van Sembly hebben we een coherent interview kunnen samenstellen. Maar helaas hebben we bepaalde passages ook moeten schrappen omdat Sembly ze in een onbegrijpelijk wartaaltje had neergezet. Ook hebben we af en toe wel wat moeten sleutelen in de vragen en antwoorden om ze grammaticaal correct en/of leesbaarder te maken. Via het transcript in Sembly kan je eenvoudig in de opname naar de juiste fragmenten zoeken om ze te herbeluisteren.
Als gebruiker beïnvloed je zelf ook de kwaliteit van de output, merkte Adriaensen op tijdens het gesprek. Zo heeft je ‘spraakhygiëne’ een grote impact. Personen die mompelen of met een sterk lokaal accent spreken zullen voor Sembly minder goed verstaanbaar zijn, net als het voor een mens ook moeilijker is om iemand te citeren die je niet goed begrepen hebt. Ook de kwaliteit en afstand van de microfoon die je gebruikt kan bepalen hoe accuraat Sembly je woorden neerpent.
Naast het letterlijke transcript werkt Sembly ook een samenvatting en actiepunten uit na de vergadering. Hier waren we wel zeer van onder de indruk. Zowel in de samenvatting als in de outline vatte Sembly de tekst treffend samen. Hier zit wat ons betreft dan ook de grootste troef van de tool. Wie een vergadering mist, zal achteraf toch een goed beeld hebben van wat er besproken is.
Wat hebben we vandaag geleerd?
De bedoeling van dit experiment was om te testen hoe we als journalist artificiële intelligentie kunnen gebruiken voor ons dagelijkse werk. Wij concluderen dat tools zoals Sembly nuttige hulpmiddelen kunnen zijn om routinetaken zoals het beluisteren en uitschrijven van interviewopnames (deels) te automatiseren, maar dat we toch met een kritisch oog moeten blijven kijken naar de output. Hadden we het transcript letterlijk gekopieerd zonder enige aanpassingen, zou je de wenkbrauwen meermaals gefronst hebben.
Dit advies willen we aan iedereen dit artikel leest meegeven. Deins er zeker niet voor terug om te testen hoe je AI in je dagelijkse leven kan inzetten om je productiviteit te verhogen. Maar wees er ook van bewust dat geen enkel hedendaags AI-systeem het alleswetende en -kunnende orakel is.
Algoritmen zijn getraind om specifieke taken uit te voeren, maar hebben geen enkel besef of ze die goed of slecht uitvoeren. Die kwaliteitscontrole is voor het menselijke oog bestemd. Wij nemen bij een volgend interview ons ouderwets notitieboekje toch gewoon weer bij de hand.
“Deins er niet voor terug om te testen hoe je AI in je dagelijkse leven kan inzetten om je productiviteit te verhogen. Maar wees ervan bewust dat geen enkel AI-systeem het alleswetende orakel is.”