IBM en Trifacta hebben samen een tool gemaakt die data moet voorbereiden op het gebruik van kunstmatige intelligentie (AI)- en machine learning-modellen. De tool heeft InfoSphere Advanced Data Preparation en moet de voorbereiding van data voor self-service analytics versnellen.
Volgens Big Blue en Trifacta is het voorbereiden van data een essentiële stap in het bouwen van machine learning- en voorspellende modellen, schrijft Silicon Angle. Dat is omdat de data extreem accuraat moet zijn, omdat de modellen anders niet effectief zijn. Het probleem is dat data scientists wel 80 procent van hun tijd aan deze taak kunnen besteden. Die tijd kan beter ergens anders aan besteed worden, menen de twee bedrijven. Daar moet InfoSphere Advanced Data Preparation bij helpen.
Met InfoSphere Advanced Data Preparation kunnen data scientists hun ruwe datasets omzetten in een format die geschikt is voor machine learning-modellen. Daarbij kunnen ze werken met hun bestaande data lakes en data warehouses. De tool is ontworpen voor het formatteren, structureren en verrijken van de datasets voor analytische verwerking en standaard rapportages.
InfoSphere Advanced Data Preperation werkt door gebruikers te helpen bij het visualiseren van het proces om de data voor te bereiden, zodat ze constant de kwaliteit van hun data kunnen volgen en zich kunnen verzekeren dat er geen fouten voorkomen bij het formatten. Dit proces is volledig geautomatiseerd. Daardoor kunnen niet alleen data scientists de data voorbereiden en verrijken voor analytische doeleinden, maar kunnen gewone werknemers dat ook.
Cloud Pak for Data
IBM kondigde daarnaast diverse updates aan voor zijn Cloud Pak for Data-dienst. Deze dienst is bedoeld voor het integreren, overzien en beheren van data in meerdere publieke en private clouds. Met de updates wordt Watson Knowledge Catalog Professional on Cloud Pak for Data beschikbaar. Dat moet de vindbaarheid van data voor analyses verbeteren en meer governance-tools beschikbaar stellen.
Verder is DatStage Edition for Cloud Pak for Data toegevoegd. Deze update is bedoeld om latency in data-transformaties te verminderen. Watson Discovery for Cloud Pak for Data is een AI-zoektool voor het ontdekken van data in meerdere clouds.