Veel bedrijven hebben de voorbije jaren een cloudstrategie ontwikkeld. Met de cloud kunnen ze snel en kostefficiënt opschalen wanneer dat nodig blijkt. Zo’n omgeving is ook voor het inzetten van analytics heel interessant. Het is de ideale plek om te experimenteren en bovendien kan je modellen dankzij efficiënt gebruik van de cloud sneller in productie nemen.
De voordelen van de cloud zijn intussen algemeen bekend: meer flexibiliteit en wendbaarheid, de mogelijkheid om snel te schalen, en een lagere kostprijs zijn de voornaamste redenen waarom een bedrijf naar de cloud migreert. De cloud is dan ook een vast ingrediënt van de digitalisering waar de meeste organisaties volop mee bezig zijn. Kenmerkend voor dit proces is dat er data gegenereerd worden, maar helaas weten we niet op voorhand of we iets met deze data kunnen doen.
Analytics is in de meeste gevallen ook maar een bijproduct van digitalisering. Het zit dus niet in het hart van een design ingebouwd. We moeten daarom eerst met de data kunnen experimenteren en de cloud is de geknipte testomgeving. Ze biedt de schaalbaarheid en flexibiliteit die je nodig hebt om voor onbepaalde tijd experimenten te laten draaien.
Experimenteren in de cloud
We verzamelen de datasets op een afgescheiden plek waar we kunnen vaststellen of ze waarde voor het bedrijf hebben, een sandbox. Aangezien we nog niet weten of we iets aan de data hebben, en al zeker niet wat we ermee gaan doen, hebben we een soort Zwitsers zakmes nodig dat voor alles kan dienen: gebruik in neurale netwerken, het toepassen van regressietechnieken, etc.
Sommige data kunnen we ook probleemloos in een publieke cloud plaatsen, terwijl andere om meer controle vragen en zelfs wettelijk gezien verplicht in een on-premises datacenter moeten blijven.
Sommige technieken zullen een heel lichte workload hebben, terwijl andere juist erg veeleisend zijn. Denk bijvoorbeeld aan de analyse van beelden die om specifieke hardware vraagt. Een machine met een GPU is heel duur en dus wil je daar enkel voor betalen als je dit echt nodig hebt. Ook hiervoor vinden we in de flexibiliteit van een cloudomgeving de beste oplossing.
Het proces is voorbij wanneer we kunnen besluiten of er al dan niet waarde in de data zit. In een volgende stap halen we alles opnieuw uit de sandbox. De cloud was immers de juiste omgeving voor de experimentfase, maar dat is niet noodzakelijk het geval voor het uitrollen van een model. Er spelen nu immers andere parameters en de juiste migratieaanpak is afhankelijk van de cloudstrategie en prioriteiten van een bedrijf. Sommige data kunnen we ook probleemloos in een publieke cloud plaatsen, terwijl andere om meer controle vragen en zelfs wettelijk gezien verplicht in een on-premises datacenter moeten blijven. Veel bedrijven evolueren dan ook naar een hybride aanpak en combineren daarbij zelfs meerdere cloudproviders.
Containertechnologie
In veel bedrijven is de stap van een sandbox naar een operationele omgeving een bottleneck. Een model kan er immers mooi uitzien, maar levert pas waarde op wanneer bijvoorbeeld de CEO van een organisatie er betere beslissingen door kan nemen of wanneer geautomatiseerde processen de gebruikservaring van klanten verbeteren. Toch is het opschalen van een model uit een testomgeving nog steeds een obstakel. De gebruikte tools zijn niet altijd gebouwd voor een IT-omgeving en vaak begrijpt de IT-afdeling ook maar weinig van de ‘rock-’n-roll’ die een data scientist produceert.
Containertechnologie biedt hiervoor een goede oplossing. Een container is een pakket met daarin een applicatie en specifieke componenten. Het is een handige manier om inhoud te verplaatsen naar verschillende omgevingen binnen de infrastructuur. Om meerdere containers te laten samenwerken, heb je een platform zoals Kubernetes nodig. Dat is de dirigent van het orkest die de containers start en stopt, automatisch herstelt en configureert. Alle grote cloudproviders werken met een Kubernetes-motor, waardoor de meeste containers gemakkelijk in een datacenter en in verschillende cloudomgevingen kunnen worden gebruikt.
Een belangrijk voordeel van zo’n container is dat er geen grote migratieprojecten nodig zijn en dat we druppelsgewijs nieuwe integraties kunnen toevoegen.
Natuurlijk is zo’n container in het kader van analytics nog steeds een heel technisch gebeuren. SAS biedt daarom gebruiksklare containers met een minimaal stukje software om een model vlot in een productieomgeving te laten draaien. Een belangrijk voordeel van zo’n container is dat er geen grote migratieprojecten nodig zijn en dat we druppelsgewijs nieuwe integraties kunnen toevoegen. Het is dus geen drama als je eens een update mist en het is ook niet nodig om voortdurend te debuggen, want dat kost een IT-afdeling alleen maar kostbare tijd.
Het resultaat: data scientists zullen hun modellen veel sneller in een operationele omgeving kunnen opnemen. En dat is noodzakelijk, want na een tijdje neemt de voorspellingskracht van een model af. Stel dat je bijvoorbeeld het gedrag van klanten wil voorspellen, dan kan er in slechts één maand tijd veel veranderen. Daarom gaan Bedrijven hun modellen continue bijwerken, verbeteren of zelfs helemaal opnieuw maken. Ze willen ook geen tijd laten verloren gaan eens dat nieuwe model klaar is en het zo snel mogelijk in de operationele omgeving gebruiken.
Selfservice
Ook in de context van data gravity speelt de cloud een cruciale rol. Data zit doorgaans over allerlei locaties verspreid, terwijl analytics uit verschillende vaatjes moet kunnen tappen. In de praktijk wordt data aangetrokken door de applicatie die de informatie het meest nodig heeft, maar grote brokken data worden steeds zwaarder om te verplaatsen. Daarom moet je een plek kiezen waar je de data gecentraliseerd laat landen. Nadien kan je dan nog steeds bepalen waar je bepaalde data gaat opslaan: in een publieke cloud of een gecontroleerd on-premises datacenter.
Nog een voordeel van analytics in een cloud-native omgeving is het feit dat meer eindgebruikers ermee aan de slag kunnen (selfservice). Vergelijk het met de manier waarop we bankieren. We hoeven hiervoor niet meer naar een fysieke bank te gaan, maar kunnen alle verrichtingen zelf regelen in de digitale wereld die de bank gebouwd heeft.
Data zit doorgaans over allerlei locaties verspreid, terwijl analytics uit verschillende vaatjes moet kunnen tappen.
Met analytics en infrastructuur doen we eigenlijk hetzelfde: hoewel het niet voor iedereen in een bedrijf is weggelegd, kunnen veel gebruikers met dit soort systemen al ver geraken. De eindgebruiker en het beheer van data zijn twee onderwerpen die we in de volgende artikels van deze reeks in meer detail zullen bespreken.
Dit is een ingezonden bijdrage van SAS en het eerste deel in een driedelige reeks over hoe je een toekomstbestendig analytics-platform bouwt. Voor meer informatie over hun oplossingen, kan je hier terecht. Wil je leren van early adopters? Volg dan gratis een webinar (45 minuten) met 8 best practices via deze link.