Waarom cloud-native voor analytics de ideale omgeving is

Veel bedrijven hebben de voorbije jaren een cloudstrategie ontwikkeld. Met de cloud kunnen ze snel en kostefficiënt opschalen wanneer dat nodig blijkt. Zo’n omgeving is ook voor het inzetten van analytics heel interessant. Het is de ideale plek om te experimenteren en bovendien kan je modellen dankzij efficiënt gebruik van de cloud sneller in productie nemen.

De voordelen van de cloud zijn intussen algemeen bekend: meer flexibiliteit en wendbaarheid, de mogelijkheid om snel te schalen, en een lagere kostprijs zijn de voornaamste redenen waarom een bedrijf naar de cloud migreert. De cloud is dan ook een vast ingrediënt van de digitalisering waar de meeste organisaties volop mee bezig zijn. Kenmerkend voor dit proces is dat er data gegenereerd worden, maar helaas weten we niet op voorhand of we iets met deze data kunnen doen.

Analytics is in de meeste gevallen ook maar een bijproduct van digitalisering. Het zit dus niet in het hart van een design ingebouwd. We moeten daarom eerst met de data kunnen experimenteren en de cloud is de geknipte testomgeving. Ze biedt de schaalbaarheid en flexibiliteit die je nodig hebt om voor onbepaalde tijd experimenten te laten draaien.

Experimenteren in de cloud

We verzamelen de datasets op een afgescheiden plek waar we kunnen vaststellen of ze waarde voor het bedrijf hebben, een sandbox. Aangezien we nog niet weten of we iets aan de data hebben, en al zeker niet wat we ermee gaan doen, hebben we een soort Zwitsers zakmes nodig dat voor alles kan dienen: gebruik in neurale netwerken, het toepassen van regressietechnieken, etc.

Sommige data kunnen we ook probleemloos in een publieke cloud plaatsen, terwijl andere om meer controle vragen en zelfs wettelijk gezien verplicht in een on-premises datacenter moeten blijven.

Sommige technieken zullen een heel lichte workload hebben, terwijl andere juist erg veeleisend zijn. Denk bijvoorbeeld aan de analyse van beelden die om specifieke hardware vraagt. Een machine met een GPU is heel duur en dus wil je daar enkel voor betalen als je dit echt nodig hebt. Ook hiervoor vinden we in de flexibiliteit van een cloudomgeving de beste oplossing.

Het proces is voorbij wanneer we kunnen besluiten of er al dan niet waarde in de data zit. In een volgende stap halen we alles opnieuw uit de sandbox. De cloud was immers de juiste omgeving voor de experimentfase, maar dat is niet noodzakelijk het geval voor het uitrollen van een model. Er spelen nu immers andere parameters en de juiste migratieaanpak is afhankelijk van de cloudstrategie en prioriteiten van een bedrijf. Sommige data kunnen we ook probleemloos in een publieke cloud plaatsen, terwijl andere om meer controle vragen en zelfs wettelijk gezien verplicht in een on-premises datacenter moeten blijven. Veel bedrijven evolueren dan ook naar een hybride aanpak en combineren daarbij zelfs meerdere cloudproviders.

Containertechnologie

In veel bedrijven is de stap van een sandbox naar een operationele omgeving een bottleneck. Een model kan er immers mooi uitzien, maar levert pas waarde op wanneer bijvoorbeeld de CEO van een organisatie er betere beslissingen door kan nemen of wanneer geautomatiseerde processen de gebruikservaring van klanten verbeteren. Toch is het opschalen van een model uit een testomgeving nog steeds een obstakel. De gebruikte tools zijn niet altijd gebouwd voor een IT-omgeving en vaak begrijpt de IT-afdeling ook maar weinig van de ‘rock-’n-roll’ die een data scientist produceert.

Containertechnologie biedt hiervoor een goede oplossing. Een container is een pakket met daarin een applicatie en specifieke componenten. Het is een handige manier om inhoud te verplaatsen naar verschillende omgevingen binnen de infrastructuur. Om meerdere containers te laten samenwerken, heb je een platform zoals Kubernetes nodig. Dat is de dirigent van het orkest die de containers start en stopt, automatisch herstelt en configureert. Alle grote cloudproviders werken met een Kubernetes-motor, waardoor de meeste containers gemakkelijk in een datacenter en in verschillende cloudomgevingen kunnen worden gebruikt.

Een belangrijk voordeel van zo’n container is dat er geen grote migratieprojecten nodig zijn en dat we druppelsgewijs nieuwe integraties kunnen toevoegen.

Natuurlijk is zo’n container in het kader van analytics nog steeds een heel technisch gebeuren. SAS biedt daarom gebruiksklare containers met een minimaal stukje software om een model vlot in een productieomgeving te laten draaien. Een belangrijk voordeel van zo’n container is dat er geen grote migratieprojecten nodig zijn en dat we druppelsgewijs nieuwe integraties kunnen toevoegen. Het is dus geen drama als je eens een update mist en het is ook niet nodig om voortdurend te debuggen, want dat kost een IT-afdeling alleen maar kostbare tijd.

Het resultaat: data scientists zullen hun modellen veel sneller in een operationele omgeving kunnen opnemen. En dat is noodzakelijk, want na een tijdje neemt de voorspellingskracht van een model af. Stel dat je bijvoorbeeld het gedrag van klanten wil voorspellen, dan kan er in slechts één maand tijd veel veranderen. Daarom gaan Bedrijven hun modellen continue bijwerken, verbeteren of zelfs helemaal opnieuw maken. Ze willen ook geen tijd laten verloren gaan eens dat nieuwe model klaar is en het zo snel mogelijk in de operationele omgeving gebruiken.

Selfservice

Ook in de context van data gravity speelt de cloud een cruciale rol. Data zit doorgaans over allerlei locaties verspreid, terwijl analytics uit verschillende vaatjes moet kunnen tappen. In de praktijk wordt data aangetrokken door de applicatie die de informatie het meest nodig heeft, maar grote brokken data worden steeds zwaarder om te verplaatsen. Daarom moet je een plek kiezen waar je de data gecentraliseerd laat landen. Nadien kan je dan nog steeds bepalen waar je bepaalde data gaat opslaan: in een publieke cloud of een gecontroleerd on-premises datacenter.

Nog een voordeel van analytics in een cloud-native omgeving is het feit dat meer eindgebruikers ermee aan de slag kunnen (selfservice). Vergelijk het met de manier waarop we bankieren. We hoeven hiervoor niet meer naar een fysieke bank te gaan, maar kunnen alle verrichtingen zelf regelen in de digitale wereld die de bank gebouwd heeft.

Data zit doorgaans over allerlei locaties verspreid, terwijl analytics uit verschillende vaatjes moet kunnen tappen.

Met analytics en infrastructuur doen we eigenlijk hetzelfde: hoewel het niet voor iedereen in een bedrijf is weggelegd, kunnen veel gebruikers met dit soort systemen al ver geraken. De eindgebruiker en het beheer van data zijn twee onderwerpen die we in de volgende artikels van deze reeks in meer detail zullen bespreken.

Dit is een ingezonden bijdrage van SAS en het eerste deel in een driedelige reeks over hoe je een toekomstbestendig analytics-platform bouwt. Voor meer informatie over hun oplossingen, kan je hier terecht. Wil je leren van early adopters? Volg dan gratis een webinar (45 minuten) met 8 best practices via deze link.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Waarom cloud-native voor analytics de ideale omgeving is

Experimenteren in de cloud

Containertechnologie

Selfservice

gerelateerd nieuws

nieuwsbrief