Optimaliseer Data Science in de cloud met deze 6 tips

De cloud heeft data science getransformeerd. Datateams hebben nu toegang tot een enorme bron van elastische rekenkracht, talloze data en beheerde clouddiensten die het bouwen, trainen en implementeren van machine learning en deep learning-modellen op grote schaal makkelijker maakt.

Datateams lopen echter tegen uitdagingen aan wanneer ze met een cloudgebaseerd model gaan werken. Zo leren datawetenschappers, -engineers en ontwikkelaars vaak pas gaandeweg de nieuwe omgeving te gebruiken en is er een ecosysteem aan tools en frameworks dat steeds groter wordt en zich steeds sneller ontwikkelt . Daarnaast zorgen de vele mogelijkheden in de cloud ook voor veel potentiële valkuilen.

Met de volgende zes tips kunnen datateams beter profiteren van de voordelen van de cloud, terwijl ze op een veilige, efficiënte en effectieve manier werken. 

1. Maak governance een topprioriteit

Het is belangrijk om iteratie en onderzoek mogelijk te maken zonder de governance en security in gevaar te brengen. Veel datawetenschappers willen bijvoorbeeld intuïtief een dataset kopiëren voordat ze ermee aan de slag gaan. Maar het is te gemakkelijk om een kopie te maken, verder te werken en te vergeten dat  de kopie bestaat, met compliance-, security- en privacyproblemen tot gevolg. Een dataplatform moet je helpen om aan virtuele kopieën te werken, zonder dat je datasets hoeft te dupliceren, terwijl je de controle houdt over welke gebruikers toegang hebben tot bepaalde applicaties. Creëer daarom processen die kopieën minimaliseren en opschonen.

2. Laat je vooroordelen buiten de deur

Als je altijd hebt gewerkt in een on-premise-wereld, heb je bepaalde opvattingen en vooroordelen over de infrastructuur die niet van toepassing zijn op cloudplatforms. Ik heb datawetenschappers vaak horen zeggen dat ze hun model meerdere keren per dag willen trainen, maar dat dit te langzaam gaat en andere processen vertraagt. Maar dat is geen probleem met een elastische infrastructuur. Begin met wat je wilt bereiken, niet wat je denkt dat mogelijk is, en ga van daaruit verder.

3. Voorkom datasilo’s 2.0

Voorkom het realiseren van datasilo’s die we kennen uit de on-premise-wereld. De hoeveelheid tools, platforms en leveranciers, kan leiden tot overtollige, inconsistente data op meerdere locaties. Een andere oorzaak van fragmentatie is het opslaan van gestructureerde data in bijvoorbeeld een datawarehouse, terwijl semi-gestructureerde data in een datameer terechtkomt. Dit is niet alleen lastig qua governance en security, maar staat ook betere voorspellingen of classificaties in de weg. Datasilo’s voorkom je met een cloudplatform dat een geconsolideerd dataoverzicht biedt. Daarmee kun je namelijk gestructureerde, semi-gestructureerde en ongestructureerde data naast elkaar accommoderen en heb je een enkele instantie voor meerdere cloudproviders en tools.

4. Houd alle opties open

Het is heel goed dat frameworks en tools zich in een hoog tempo ontwikkelen, maar zorg dat je niet vast komt te zitten in een benadering die je opties beperkt wanneer technologieën komen en gaan. Spark ML was vroeger bijvoorbeeld hét antwoord op de meeste grootschalige trainingsproblemen, maar nu trekken TensorFlow en PyTorch de meeste aandacht. Je weet nooit wat er volgend jaar of volgende week gebeurt. Kies een dataplatform met een uitbreidbare architectuur die nieuwe tools en technologieën kan integreren en je niet dwingt te werken met één framework of één proces.

5. Maak gebruik van databronnen van derde partijen

De cloud maakt het eenvoudiger om externe data van partners en dataserviceproviders op te nemen in je modellen. Dit was met name het afgelopen jaar belangrijk, omdat bedrijven probeerden te begrijpen hoe de impact van COVID-19, schommelingen in de economie en daaropvolgende veranderingen in consumentengedrag hun bedrijf zouden beïnvloeden. Organisaties gebruikten bijvoorbeeld data over lokale infectiepercentages, bezoekersaantallen in winkels en signalen van sociale media om kooppatronen en voorraadbehoeften te voorspellen. Verken externe databronnen en bepaal welke bronnen helpen bij het beantwoorden van je vragen.

6. Minimaliseer complexiteit

Machine learning en deep learning zijn erg waardevol, maar zijn niet geschikt voor elk probleem. Begin altijd met de eenvoudigste optie en verhoog zo nodig de complexiteit. Probeer een eenvoudige lineaire regressie, of kijk naar gemiddelden en medianen. Hoe nauwkeurig zijn de voorspellingen en zorgt een complexere aandacht voor een significant betere ROI? Soms is dat het geval, maar kies niet altijd op basis van je eerste instinct een complexere optie.

Geavanceerde data-analyses zijn nog nooit zo toegankelijk geweest. Datawetenschappers, data-engineers en ontwikkelaars behoren nu tot de belangrijkste medewerkers van elke organisatie. De cloud is een eenvoudige, krachtige en dynamische plek voor data-analyses. De bijbehorende uitdagingen zijn niet moeilijk aan te pakken als je weet dat ze er zijn en je de juiste beslissingen neemt over technologie en tools. Maar zorg wel dat je met de juiste intenties de data induikt. 

Dit is een aangeleverde bijdrage van Coen Bos, VP Benelux & Nordics bij Snowflake. Voor meer informatie rond de oplossingen van het bedrijf kan je hier terecht.

nieuwsbrief

Abonneer je gratis op ITdaily !
  • This field is for validation purposes and should be left unchanged.
terug naar home