Red Hat AI Inference Server zorgt voor efficiënte en betrouwbare AI-inferentie op uiteenlopende infrastructuren. Welke cloud, modellen en accelerator je gebruikt, laat Red Hat je volledig vrij in.
Red Hat kondigt op zijn Summit in Boston AI Inference Server aan. De oplossing is bedoeld om inferentie – het moment waarop een AI-model antwoorden genereert – sneller en betrouwbaarder te maken. Dit vergt veel rekenkracht, zeker bij grootschalige toepassingen. Red Hat wil met deze server de kosten en vertragingen beperken die daarbij komen kijken.
Inference Server is illustratief voor Red Hats geloof in open AI-technologie (de spatie is hier van belang). Volgens Red Hat is het een probleem als modellen en data achter gesloten deuren blijven. Red Hat steunt op open standaarden en dringt geen technologie op. Inference Server draait op elk model, op elke accelerator en in elke mogelijke cloudomgeving.
vLLM
De tool werkt op basis van vLLM, een open source-project van UC Berkeley dat ondersteuning biedt voor verschillende AI-modellen en functies zoals multi-GPU en uitgebreide contextverwerking. Daarnaast integreert Red Hat compressie- en optimalisatietechnologie van Neural Magic. Zo draaien zelfs grote modellen efficiënter op uiteenlopende hardware.
De AI Inference Server kan zelfstandig ingezet worden of geïntegreerd worden in Red Hat Enterprise Linux AI en Red Hat OpenShift AI. Ook andere Linux- en Kubernetesplatformen worden ondersteund.
Modelcatalogus
Hoewel gebruikers vrij zijn in modelkeuze, biedt Red Hat toegang tot een modelrepository op Hugging Face, met gevalideerde modellen die onmiddellijk inzetbaar zijn voor wie niet kan kiezen. Red Hat voorziet daarnaast ondersteuning voor ondernemingen die AI-oplossingen in productie willen brengen, met garantie op prestaties en updates.
Met deze lancering positioneert Red Hat zich als leverancier van een breed inzetbaar platform voor generatieve AI. Het bedrijf wil AI toegankelijk maken voor organisaties ongeacht hun voorkeur voor cloudproviders, hardware of modellen. De combinatie van vLLM en llm-d moet zorgen voor een gestandaardiseerd ecosysteem dat generatieve AI op schaal mogelijk maakt.