Data: een gediversifieerde aanpak bepaalt het succes van analytics

Wie met data aan de slag gaat, moet onmiddellijk voor de juiste strategie kiezen. Als het in de beginfase al fout gaat, valt er meestal niet veel te redden of zal het veel geld en energie kosten om toch nog de verwachte waarde te halen. Het bepalen van die strategie is weliswaar niet eenvoudig aangezien de business voortdurend verandert. Hoe je data verwerkt en waar je data bewaart, vraagt dan ook om een gediversifieerde aanpak.

De meeste nieuwe IT-systemen houden er vanuit hun design rekening mee dat gebruikers met data en analytics zullen willen werken, maar pakweg vijf tot tien jaar geleden was dat zeker nog niet het geval. Een systeem om bijvoorbeeld facturen of tickets te maken, diende niet om data te verwerken en zo beperkte de levensduur van de data zich tot het ogenblik waarop de factuur of het ticket was uitgeprint.

Vandaag beseffen we hoe groot de waarde van data voor een organisatie kan zijn. Het is daarom erg belangrijk dat je op voorhand bepaalt wat je met data wil doen en waar je die data daarvoor het best kunt bewaren. En zoals met iedere vorm van technologie moet je ook bij data analytics voortdurend rekening houden met je processen en mensen.

Big Bang

Afhankelijk van de context kunnen de antwoorden op datavraagstukken grondig verschillen. In sommige situaties hebben gebruikers erg geconsolideerde data nodig. Zo bestaat het jaarrapport van een bedrijf doorgaans uit een overzichtelijke tabel met een beperkt aantal cijfers. Die statistieken komen van meerdere databronnen en zijn het resultaat van berekeningen uit ontelbaar veel lijnen in de organisatie. Een bank gebruikt zo’n rapport bijvoorbeeld om te rapporteren aan een commissie en kan dat alleen doen met consistente cijfers. In de farmaceutische sector is het zelfs essentieel dat de gerapporteerde cijfers over twintig jaar nog steeds exact hetzelfde resultaat opleveren wanneer ze het rapport op oude data zouden laten draaien.

In andere situaties is de consistentie van data veel minder belangrijk. Sterker nog, geconsolideerde data kan soms totaal onbruikbaar zijn. Voor een experiment met fraude-analytics heb je bijvoorbeeld slechts één databron (een belastingaangifte, een verzekeringsformulier, …), maar je moet wel alle detailtransacties kunnen zien om het gedrag van een fraudeur op te sporen of te onderscheiden van een niet-fraudeur. Hiervoor bouwt een data scientist analytische modellen die op de data worden losgelaten. Met een geconsolideerd data warehouse is dat onmogelijk, omdat de gegevens van gebruikers dan al zijn samengevoegd en gedetailleerde informatie uit de verrichte transacties niet meer te achterhalen valt.

Afhankelijk van de context kunnen de antwoorden op datavraagstukken grondig verschillen.

Bovenstaande voorbeelden tonen aan dat je vooraf al goed moet weten welke inzichten je precies uit de data wil halen. Ooit geloofde men wel in een soort ‘big bang’-aanpak met een data warehouse waarin de data zoveel mogelijk wordt gecentraliseerd en aan elkaar gekoppeld, zodat gebruikers er nadien nog alles mee kunnen doen. Intussen groeit het besef dat zoiets te veel werk en kosten met zich meebrengt. Bovendien is zo’n data warehouse ook niet in staat om de verwachtingen waar te maken. Daarvoor evolueren de behoeften van een bedrijf te snel, en intussen maken nieuwe uitdagingen op het gebied van privacy en cloud het datavraagstuk niet eenvoudiger.

Data gravity

Van zodra je weet wat je ermee wil doen, moet je bepalen waar je de data wil bewaren. In een eerder artikel legden we al uit dat een cloudomgeving ideaal is om vast te stellen of er waarde in je data zit, maar diezelfde omgeving is niet noodzakelijk de beste locatie om een analytisch model uit te rollen. We moeten de data dus terug uit deze geïsoleerde omgeving of ‘sandbox’ halen en op basis van andere parameters de meest optimale locatie bepalen. Dat is ook belangrijk in het kader van ‘data gravity’, het vermogen van data om applicaties en diensten naar zich toe te trekken.

Het meest logische is dat je gaat kijken naar het zwaartepunt van de data en vervolgens nagaat of het zin heeft om ook andere data naar daar te brengen. Je kunt data natuurlijk ook later nog verplaatsen, maar bedenk wel dat het een flinke duit kan kosten om grote volumes te transporteren. Zo rekenen sommige cloudproviders extra kosten aan voor gebruikte bandbreedte. Soms is het ook belangrijk dat de afstand tot de data niet te groot is. In de financiële wereld zijn er zelfs officiële regels die bepalen dat je binnen een opgelegde termijn aan je data moet kunnen geraken. Een publieke cloud is dan niet altijd de beste oplossing, aangezien je daar niet voldoende controle over hebt en de provider niet altijd de juiste garanties kan aanbieden.

Aangezien niemand zich op één oplossing wil vastpinnen, groeit de populariteit van de hybride cloud. Zelfs al kiest een bedrijf voor een standaard cloudoplossing, zoals Microsoft Azure of Amazon Web Services, dan is het nog niet uitgesloten dat departementen op eigen houtje met andere clouds experimenteren of dat er op een dag een nieuwe CTO binnenwandelt die alles over een andere boeg wil gooien. Vanuit het standpunt van de data is het daarom essentieel om voldoende flexibiliteit en dynamiek in te bouwen voor gebruik in diverse omgevingen.

Datacatalogus

De gebruiker van de data mag natuurlijk niets merken van de complexiteit die op de achtergrond speelt. Als je echt iets met data wil bereiken, dan moet het zo eenvoudig mogelijk zijn om aan de juiste gegevens te geraken. Daarom is het een goed idee om met een datacatalogus te werken. Dat is een soort etalage waarin je data samenbrengt en classificeert. Gebruikers kunnen hier ook nuttige informatie over de kwaliteit en de afkomst van de databron terugvinden of toevoegen. Met SAS is het bijvoorbeeld heel eenvoudig om databronnen te beoordelen of commentaren voor toekomstige gebruikers achter te laten.

Dankzij data lineage kan je de volledige stroom van data ontwarren, en zowel de oorspronkelijke bron van de data terugvinden als alle manipulaties die erop gedaan zijn. Aangezien dit gekoppeld is aan de datacatalogus, kan je op deze manier dus ook informatie verschaffen over voorgaande projecten waarvoor de data gebruikt is. Zo krijgt een datacatalogus zelfs potentieel om het ethische vraagstuk over het gebruik van data te verlichten.

In plaats van alles zelf te willen bouwen, wordt IT nu in de eerste plaats een facilitator die gebruik van data mogelijk maakt en stimuleert.

Soms zit er bijvoorbeeld bias in data en ontstaat het risico dat iemand de data bewust of onbewust voor de verkeerde doeleinden gebruikt. Om dit tegen te gaan, kan een catalogus de data volgens hun ethische gevoeligheid rangschikken en gebruikers waarschuwen dat ze bewust met de data moeten omgaan. Omdat je perfect kunt zien waarvoor de data is ingezet, wordt het ook eenvoudiger om te controleren of het gebruik overeenkomt met de governance waarvoor het bedrijf wil staan.

Nieuwe rol voor IT

Werken met data vraagt dus om een pragmatische aanpak waarbij we de opslag en verwerking van de data diversifiëren in functie van de eigenlijke toepassing of van het type gebruiker waarmee we te maken krijgen. Aangezien de doelstellingen en behoeften van een organisatie constant veranderen, bestaat er geen algemene successtrategie waarmee je voor jaren goed zit.

Vanuit die denkwijze is de rol van IT overal aan het wijzigen. In plaats van alles zelf te willen bouwen, wordt IT nu in de eerste plaats een facilitator die gebruik van data mogelijk maakt en stimuleert. IT-teams werken het kader voor governance uit en zien erop toe dat de privacyregels correct worden toegepast. Ze voorzien voldoende capaciteit en staan klaar om snel te reageren op wisselende bedrijfsbehoeften. En ze verzekeren selfservice, zodat gebruikers altijd en overal gemakkelijk de juiste data kunnen terugvinden en benutten. Kortom, ze zorgen voor de basis die nodig is om van data analytics een echt succesverhaal voor de organisatie te maken.

Dit is een ingezonden bijdrage van SAS en het laatste deel in een driedelige reeks over hoe je een toekomstbestendig analytics-platform bouwt. Voor meer informatie over hun oplossingen, kan je hier terecht.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Data: een gediversifieerde aanpak bepaalt het succes van analytics

Big Bang

Data gravity

Datacatalogus

Nieuwe rol voor IT

gerelateerd nieuws

nieuwsbrief