Met de nieuwe API van Databricks kunnen gebruikers eenvoudig synthetische datasets creëren voor machine learning.
Databricks heeft een nieuwe API geïntroduceerd waarmee gebruikers eenvoudig synthetische datasets kunnen creëren voor machine learning-projecten. De API is onderdeel van Mosaic AI Agent Evaluation, een tool waarmee ontwikkelaars de kwaliteit, kosten en snelheid van AI-toepassingen kunnen evalueren.
Genereren in drie stappen
Synthetische data, gegenereerd door AI, biedt een snellere en meer kostenefficiënte manier om trainingsdatasets te maken dan handmatige methoden. De nieuwe API is gericht op het genereren van vraag-en-antwoord verzamelingen die nuttig zijn voor toepassingen met LLM’s. Het proces omvat drie stappen: het uploaden van een frame met relevante gegevens in Apache Spark of Pandas, het aangeven van het gewenste aantal vragen en antwoorden, en het aanpassen van de outputstijl en het gebruiksscenario.
Omdat onjuiste trainingsgegevens de kwaliteit van AI-modellen kan beïnvloeden, is de API ontworpen om datavalidatie te vereenvoudigen. In plaats van volledige antwoorden genereert de API feiten die nodig zijn om de vragen te beantwoorden.
In 2024 zullen nieuwe functies worden toegevoegd, waaronder een grafische interface voor snellere reviews en tools om veranderingen in datasets te volgen.
Eerder dit jaar integreerde Databricks nog Nvidia-GPU’s in zijn platform. Hiermee kunnen gebruikers AI-workloads versnellen vanuit het Data Intelligence Platform.