Van selfservice tot dynamische architectuur: productief aan de slag met data

Data is in iedere moderne organisatie een cruciale bouwsteen. Zeker nu bedrijven de mogelijkheden van generatieve AI verkennen, is het belangrijk om dergelijke systemen kwalitatieve gegevens aan te bieden. Tenzij je modellen met accurate data voedt, kan je immers niet verwachten dat de resultaten betrouwbaar zijn. Wat is de beste strategie om data voor te bereiden? En waar bewaar je die data dan best? Een overzicht van een aantal trends in het opzetten van een effectieve data-architectuur.

Data analytics en AI staan in de meeste bedrijven bovenaan de agenda. Maar niet overal leveren ze al de gewenste resultaten en productiviteitswinst. In een vorig artikel kon je lezen wat de struikelblokken zijn en hoe je ze kunt omzeilen. De basis van elk succesvol analytics-project is de data waarmee we een model aan het werk zetten. Zonder goede en vlot toegankelijke data gaat het gegarandeerd mis.

Overal groeit het besef dat AI-technologie geen wonderdoos is die altijd goede resultaten tevoorschijn tovert. Als je data slechts voor 80% accuraat is, dan zal de output van een model wellicht ook in één op de vijf gevallen foutief zijn. Erger nog, als je modellen op historische data traint waarin een menselijke bias zit, gaat deze bias ook in je modellen een nieuw leven krijgen. Indien er bijvoorbeeld bij een bank ooit slechte kredietscores werden gegeven aan bepaalde bevolkingsgroepen of minderheden, dan gaan je modellen dat gedrag ook vertonen. In een volgend artikel gaan we hier dieper op en leggen we uit waarom trust zo belangrijk is in het gebruik van data.

Wat kan je dan doen om de kwaliteit van de data te verhogen?

Data opschonen versus alles bij elkaar gooien

In de praktijk zijn twee uitersten mogelijk. Enerzijds zouden we kunnen proberen om alle ruwe data op te schonen voor we er analytics op loslaten. Daarvoor nemen we de data weg uit de gekende silo’s om ze in een centraal datawarehouse te plaatsen. Door de kwantiteit en de vereiste kwaliteit en snelheid van data is deze aanpak tijdsintensief en haast onbegonnen werk. Tegenover het datawarehouse staat de optie van een data lake, waarbij we alle data – inclusief ruwe en ongestructureerde data – bij elkaar brengen en er niets mee doen tot we de gegevens effectief nodig hebben. Hoewel dit met de huidige capaciteit van schijven en cloud zeker niet onhaalbaar is, schuiven we de problematiek op deze manier alleen maar voor ons uit. Zoals wel vaker zit het antwoord dus ergens in het midden …

Silo’s zijn zo hardnekkig dat we moeten aanvaarden dat ze altijd zullen blijven bestaan. Wel kunnen we ze met de juiste data-architectuur onder controle houden. Daarom kijken bedrijven steeds meer naar een pragmatische manier om data aan te bieden door middel van diversificatie. Terwijl sommige data meteen klaar moet zijn voor consumptie, kunnen andere gegevens gerust nog wachten. We krijgen dus een dynamische mix van een datawarehouse-strategie en andere vormen van data-architectuur.

Data als product & selfservice

De architectuur die het beste van beide werelden wil combineren, is data mesh. Enkele pijlers van dit concept gaan zeker blijven. Zo vertrekt data mesh vanuit het idee dat data een product is. In plaats van alles centraal te willen plaatsen, blijft de verantwoordelijkheid bij de persoon die de data beheert. Net zoals een fysiek product heeft ook data een levenscyclus en een bepaalde kwaliteit die de waarde ervan bepaalt. En net zoals dat product kan je data aanbieden door alles in een catalogus te plaatsen.

Dat brengt ons bij een andere trend die de productiviteit in werken met data alleen maar zal vergroten: selfservice. In tegenstelling tot de klassieke Excelsheet, die eigenlijk ook een vorm van selfservice is, hebben we moderne tools nodig die de gebruiker zoveel mogelijk transparantie bieden. Waar komen gegevens vandaan? Hoe compleet en accuraat is de data? Het zijn allemaal indicatoren die inzicht bieden in een vaak complexe spaghetti en die de traceerbaarheid van data doen toenemen. De catalogus van SAS houdt hier rekening mee en automatiseert bovendien het proces door zichzelf aan te vullen naarmate de data gebruikt wordt. In combinatie met feedback van gebruikers zelf kan zo’n aanpak je datacataloog aanzienlijk verrijken, zodat iedereen de relevante gegevens gemakkelijk kan inzetten.

Cloud of geen cloud?

Al het bovenstaande maakt duidelijk dat het niet meer van belang hoeft te zijn waar je je data bewaart. Aangezien we data toch constant over en weer bewegen, moeten we platformen niet meer altijd zo dicht mogelijk bij het zwaartepunt van de data brengen. Dit laat bedrijven toe om alternatieven zoals de mogelijkheden van een multicloud aanpak te verkennen. Zo is er tegenwoordig een ruim aanbod cloud databases die kostefficiënte opslag aanbieden zonder gebruikers een architectuur op te leggen. Dergelijke platformen zijn heel open en zetten vooral in op prestaties, schaalbaarheid en security.

Een goed voorbeeld van zo’n snelgroeiend cloud-dataplatform is SAS-partner Snowflake. Omdat je als gebruiker niets zelf hoeft te bouwen, verlagen dit soort oplossingen de drempel om je data in de cloud te plaatsen. Snowflake gaat zelfs nog een stapje verder en biedt bedrijven de mogelijkheid om data, al dan niet tegen betaling, via een marktplaats aan externe gebruikers aan te bieden. Dat zou interessant kunnen zijn voor ontwikkelaars van apps. Denk bijvoorbeeld aan een slimme applicatie om productie, transport en consumptie van energie beter op elkaar af te stemmen. Daarvoor zouden we heel wat data nodig hebben die overal verspreid zit. Wat is de capaciteit aan zonnepalen? Wat voor weer mogen we verwachten? Wat zijn de huidige prijzen voor elektriciteit? Hoeveel wagens zijn er op dit moment aan het opladen? Via cloud-platformen kunnen organisaties elkaars data gebruiken en verrijken.

Voor wie public cloud toch niet ziet zitten, biedt de wereld van opensource interessante oplossingen om data te bewaren. Parquet en ORC zijn twee opslagformaten die door een brede community ondersteund worden. Beide zijn gemakkelijk op te starten en leveren uitstekende prestaties voor het gebruik van data. Ook vanuit het SAS-platform zijn deze tools heel eenvoudig te benaderen.

Stabiel en dynamisch

Al deze voorbeelden passen binnen de filosofie dat de gebruiker aan zoveel mogelijk data moet kunnen, ongeacht waar die precies zit opgeslagen. Niemand heeft z’n data immers op één plaats zitten. Zeker nu businessgebruikers vaker met data en analytics aan de slag gaan, moeten oplossingen stabiel, eenvoudig en dynamisch zijn. Enkel dan zal de productiviteit van je dataprojecten de hoogte inschieten.

Dit artikel is een ingezonden bijdrage van SAS. In een derde en laatste artikel van deze reeks rond productief werken met analytics focussen we op het belang van trust. Zonder vertrouwen in data, algoritmen en resultaten van modellen ontstaan er alleen maar discussies die de productiviteit van projecten op hun beurt onderuit halen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Van selfservice tot dynamische architectuur: productief aan de slag met data

Data opschonen versus alles bij elkaar gooien

Data als product & selfservice

Cloud of geen cloud?

Stabiel en dynamisch

gerelateerd nieuws

nieuwsbrief