Benaderingen voor het bouwen van conversationele toepassingen: de custom assistant

.devops
24.11.'22 11:00
7 min
Smals Research

1639774756

In een vorig artikel hebben we de stopzetting besproken van Google Conversational Actions en wat dat precies inhoudt. We gaven drie alternatieven mee om een conversationele toepassing te voorzien. In dit stuk gaan we dieper in op het derde alternatief, dat van de “custom assistant”.

Om na te gaan wat het inhoudt om een custom assistant te voorzien, raken we hieronder de verschillende benodigde componenten aan. Die componenten zijn samengevat in onderstaand schema: de gebruikersinterface (gebruikerservaring), het conversational platform, de spraakdiensten en de back-end.

*High-level componenten van een custom assistant*.

Gebruikerservaring

Een eerste aspect is de gebruikerservaring. Bij een integratie met een virtuele assistent, zoals Conversational Actions in Google Assistant, kunnen we gebruik maken van het volledige ecosysteem van de virtuele assistent. Conversationele ervaringen kunnen dan aangeboden worden op tal van toestellen waaronder smartphone, smart speaker, tot in de auto toe.

Benaderingen voor het bouwen van conversationele toepassingen

Als we een eigen assistant bouwen, dan kunnen we geen gebruik meer maken van dat ecosysteem en verliezen we voor een stuk het gebruiksgemak dat daarmee gepaard gaat, zoals het aanroepen van een assistant met één druk op de knop of een trigger word. We moeten zelf een gebruikersinterface voorzien, doorgaans in de vorm van een app of webtoepassing.

Standaard kan het er voor een gebruiker uitzien als een chattoepassing waarbij input kan gegeven worden via zowel tekst als spraak. Op het scherm kan de gebruiker de historiek zien van de volledige conversatie. In het voorbeeld hieronder is een rudimentaire interface te zien. Uiteraard kan de look & feel naar believen aangepast worden. Dit is een dialoog-gedreven interface waarbij er na elke input van de gebruiker feedback wordt gegeven door de toepassing via tekst en spraak.

Daarnaast kunnen we ons een klassieke interface inbeelden met inputvelden, waarbij spraak als extra feature wordt toegevoegd om parameters aan te leveren. Er is dan geen echte dialoog over-en-weer, maar de mogelijkheid om via continue spraak-input parameters aan te leveren. Een voorbeeld hiervan is Speechly, een tool die toelaat om intents en parameters te herkennen uit een audio-inputstream en daar events aan koppelt.

Die events kunnen dan gebruikt worden in de gebruikersinterface om de gedetecteerde parameters in te vullen in velden op het scherm. In de screenshot hieronder is te zien hoe je met een hold-to-talk knop parameters kan ingeven via spraak. De ingesproken tekst is links bovenaan zichtbaar (“book a flight from Brussels to Paris“). De parameters (Brussels en Paris) worden automatisch ingevuld in de betreffende velden van het formulier. De demo kan je hier zelf uitproberen. Momenteel ondersteunt Speechly enkel Engels en Fins.

*Voorbeeld van een gebruikersinterface met spraak als extra feature (Speechly)*

Conversational platform

Naast de front-end hebben we uiteraard een conversational platform nodig om een custom assistant te bouwen. Die staat in voor het herkennen van intents en entities (parameters), dialoogbeheer en het capteren van alle benodigde parameters om op een vraag te kunnen antwoorden (slot filling). Naast de features en kwaliteit van het conversational platform kan het deployment model van belang zijn in functie van gegevensbescherming en privacy: wordt het platform gehost in de public cloud, of kan het platform in een meer gecontroleerde omgeving draaien (private cloud of on-premise op eigen infrastructuur)?

Heel wat aanbieders, zoals Chatlayer, Google en Oswald, bieden een conversational platform onder SaaS-vorm aan in de public cloud. FOD BOSA biedt een raamcontract voor een ‘bot platform as managed service’ dat gebaseerd is op een SaaS-platform. Enkele aanbieders, zoals Cognigy en Nuance bieden daarnaast ook de mogelijkheid om het platform on-premise te draaien.

De keerzijde van het zelf hosten van een oplossing is dat we dan ook zelf moeten instaan voor de infrastructuur waarop het draait, waarbij de nodige aandacht moet uitgaan naar beschikbaarheid, performantie, veiligheid, etc. Die aspecten brengen een zekere kost met zich mee.

Spraakdiensten

Om naast een tekstuele interface ook een spraakinterface aan te bieden zijn er diensten nodig voor spraakherkenning (speech-to-text) en spraaksynthese (text-to-speech). Net zoals bij de conversationele platformen zijn er heel wat spraakdiensten beschikbaar in de public cloud, zoals Amazon, Google en Microsoft.

Daarnaast zijn er oplossingen die ook on-premise kunnen gehost worden, zoals Deepgram, Microsoft, Nuance en Speechmatics. De Microsoft speech services uit de Azure cloud kunnen elders gehost worden onder de vorm van Docker containers, in een private cloud of on-premise. Het is zo dat in beide gevallen (Azure public cloud en containers) er een pay-per-use verbruiksmodel gehanteerd wordt.

Bij het zelf hosten van een dergelijke oplossing winnen we hiermee enerzijds aan controle: de verwerkte spraakgegevens verlaten onze eigen infrastructuur niet. Anderzijds moeten we zelf instaan voor de hosting, wat gepaard gaat met extra kosten zoals hierboven beschreven bij het conversational platform.

Tot slot

Eén van de weinige voorbeelden van een custom spraakassistent is KBC Kate. Die laat toe om bepaalde info op te vragen of transacties uit te voeren vanuit de KBC Mobile app via tekst of spraak. In principe zijn de tools voorhanden om een dergelijke custom assistant te bouwen. Een belangrijk aandachtspunt is evenwel gegevensbescherming en privacy.

Indien public cloud services geen optie zijn, kunnen we gebruik maken van on-premise alternatieven. Die betekenen echter een extra kost op vlak van hosting, en niet elke aanbieder biedt de mogelijkheid tot een on-premise deployment. Om te experimenteren met dergelijke technologie kan gekozen worden voor een oplossing die zowel in de public cloud als on-premise beschikbaar is. Op die manier kan relatief goedkoop gestart worden met een public cloud oplossing en indien nodig overgeschakeld worden naar een on-premise installatie om tegemoet te komen aan vereisten rond gegevensbescherming en privacy.

Dit is een ingezonden bijdrage van Bert Vanhalst, IT consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals. Interesse om te werken bij Smals? Neem dan een kijkje naar het huidige uitgebreide jobaanbod.

terug naar home

featured

Zijn kmo’s klaar voor de AI Act?

.business
11.04.'24
10 min

recent in devops

Sabotage van XZ Utils vermoedelijk geen geïsoleerd geval

.devops
18.04.'24
2 min

OpenAI geeft 50% korting op workloads buiten de piekuren

.devops
16.04.'24
2 min

Android 15 verschijnt in bèta, maar geeft weinig geheimen prijs

.devops
12.04.'24
3 min

meer devops

poll

"*" indicates required fields

ronde tafel

Artificiële intelligentie

.data
03.04.'24
5 min

Datacenter en infrastructuur

.infrastructuur
12.03.'24
5 min

meer ronde tafels

events

Trend Micro – Risk To Resilience World Tour

18/04/2024
Plein Publiek, Antwerpen

Hannover Messe 2024

22 - 26/04/2024
Hannover, Duitsland

Sophos Cybersecurity on Tour – Belgium

14/05/2024
Kattebroek, Brussel

meer events

vacatures

meer vacatures

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.