Snowflake’s AI-onderzoeksteam onthult een open source-inferentie- en fine-tuningsysteem dat snelle en geheugenefficiënte prestaties biedt voor modellen met honderden miljarden parameters.
Snowflake brengt de Llama 3.1-familie van LLM’s naar Cortex AI. Zo kunnen Snowflake-klanten binnen hun Snowflake-omgeving aan de slag met de grote modellen. Het grote opensource-model Llama 3.1 405B tekent eveneens present. Het model werd door Snowflake zelf geoptimaliseerd voor zowel inferentie als fine-tuning, telkens op basis van bedrijfseigen data die veilig en privé blijven.
Het AI-onderzoeksteam van Snowflake de bijhorende Massive LLM Inference and Fine-Tuning System Optimization Stack bovendien open source gemaakt. Deze stap volgt op de lancering van Llama 3.1 405B binnen Snowflake en markeert een belangrijke mijlpaal in de samenwerking met DeepSpeed, Hugging Face, vLLM en de bredere AI-gemeenschap.
Uitdagingen en oplossingen
Modellen van het formaat van Llama 3.0 405B brengen aanzienlijke uitdagingen met zich mee, vooral op het gebied van geheugenvereisten en inferentie met lage latency. Beiden zijn belangrijk voor realtime toepassingen en kosteneffectieve verwerking. Het opslaan en verwerken van de model- en activeringstoestanden vereist grote GPU-clusters, wat vaak een obstakel vormt voor datawetenschappers die geen toegang hebben tot dergelijke middelen.
De Massive LLM Inference and Fine-Tuning System Optimization Stack van Snowflake biedt een oplossing voor deze problemen. Door gebruik te maken van geavanceerde parallelliteitstechnieken en geheugenoptimalisaties, maakt Snowflake snelle en efficiënte AI-verwerking mogelijk zonder de noodzaak van al te complexe en bijgevolg erg dure infrastructuur.
Het systeem kan realtime prestaties leveren op slechts één GPU-node en ondersteunt contextvensters tot 128K in multi-node setups. Zo is het systeem flexibel inzetbaar op zowel nieuwe als oudere hardware, waardoor een breder scala aan bedrijven ervan kan profiteren.
Voordelen voor datawetenschappers
Datawetenschappers kunnen met dit systeem Llama 3.1 405B verfijnen met gemengde precisietechnieken op minder GPU’s, wat de afhankelijkheid van grote GPU-clusters vermindert. Dit vergemakkelijkt de ontwikkeling en implementatie van krachtige generatieve AI-toepassingen op bedrijfsniveau.
lees ook
Geen AI zonder datacloud: de 5 AI-pijlers van Snowflake
Daarnaast heeft Snowflake een geoptimaliseerde infrastructuur ontwikkeld voor fine-tuning. Deze omvat modeldistillatie, veiligheidsrails, retrieval augmented generation (RAG) en synthetische datageneratie, wat bedrijven in staat stelt eenvoudig te starten met deze toepassingen binnen Cortex AI.
De aankondigingen passen helemaal binnen de strategie van Snowflake, dat zich als specialist van data in de cloud ook tot AI-partner wil ontpoppen. Enerzijds is Snowflake uniek gepositioneerd om AI-ontwikkelingen aan de klanten van data te koppelen, en anderzijds heeft het weinig keuze. De AI-hype draait immers op volle toeren, en zonder relevante AI-oplossingen voor de data van klanten, zouden die misschien wel elders kunnen zoeken.