Pure Storage introduceert met Data Stream een full stack-oplossing om data voor te bereiden en te koppelen aan de AI-referentie-architectuur van Nvidia.
Pure Storage heeft Data Stream voorgesteld. Dat is een geïntegreerde hardware- en softwarestack die bedrijven moet helpen hun te koppelen aan AI-toepassingen. De oplossing automatiseert het verzamelen, opschonen en structureren van gegevens, zodat organisaties in een volgende stap AI-modellen kunnen trainen en inzetten.
Een groot deel van de tijd die bedrijven aan AI-projecten besteden, gaat volgens Pure Storage naar het voorbereiden van data. Volgens Pure Storage kan dat oplopen tot tachtig procent van de totale projecttijd. Data Stream moet dat proces vereenvoudigen door datapipelines automatisch te koppelen aan de AI-architectuur, waarin opslag en GPU’s rechtstreeks samenwerken.
Deel van het Data Platform
Data Stream vormt een onderdeel van het Pure Storage Data Platform en is afgestemd op enterprise-inferentiegebruik met het Nvidia AI Data Platform als referentie-ontwerp. Data Stream ondersteunt realtime data-ingestie en -structurering uit uiteenlopende bronnen, zoals tekstbestanden, pdf’s en tabellen. De oplossing biedt multiprotocoltoegang (NFS, S3, SMB) en kan geïntegreerd worden met vectordatabases op Pure Storage FlashBlade//S.
Data Stream werkt nauw samen met Nvidia NeMo Retriever om ruwe data om te zetten in vectorrepresentaties die AI-systemen kunnen gebruiken om context en verbanden te begrijpen. Deze aanpak ondersteunt toepassingen zoals Retrieval Augmented Generation (RAG). Via de integratie met NVIDIA NIM kunnen organisaties AI-workloads uitvoeren op lokale infrastructuur of in de cloud via gestandaardiseerde API’s.
Nvidia-GPU’s
Daarnaast maakt Data Stream gebruik van GPU-geoptimaliseerde pipelines op basis van de Nvidia RTX Pro 6000 Blackwell Server Edition en softwarebibliotheken zoals Nvidia Spark Rapids en cuVS. De combinatie met FlashBlade//S moet rekenknelpunten voorkomen en de prestaties bij dataverwerking verbeteren.
Tot slot verwerkt Data Stream data direct op de opslaglaag, wat het aantal databewegingen volgens Pure Storage vermindert. De output wordt opgeslagen in formaten zoals JSON, Apache Parquet of Arrow, geschikt voor schaalbare vectoropslag en RAG-datasets op grote schaal.
