AWS toont op Re:Invent Project Rainer. Dat is een HPC-cluster voor AI-workloads, gebouwd op basis van eigen chips. Het syteem moet OpenAI-concurrent Anthropic helpen met de ontwikkeling van modellen.
Op Re:Invent in Las Vegas toont AWS Project Rainer aan het grote publiek. Project Rainer is een HPC-supercluster, gebouwd op basis van honderdduizenden zelf ontwikkelde Trainium 2-chips. De originele naam van die componenten verklapt al dat ze bedoeld zijn voor AI-trainingsworkloads.
Project Rainer is opgedeeld in Trn2 Ultraservers. Dat zijn servers bestaande uit 64 Trainium 2-chips. Iedere chip heeft 96 gibibytes aan HBM-geheugen en acht NeuronCores. Samen zorgen die ervoor dat een Ultraserver 332 petaflops aan FP8-rekenkracht naar het strijdtoneel brengt.
AWS kopelt de Ultraservers virtueel aan elkaar. De hardware voor het Project Rainer-supercluster staat verspreid over datacenters in verschillende locaties. Op die manier wil AWS garanderen dat er voldoende stroom voorradig is om het geheel aan te drijven.
Hogere latency
Daar staat tegenover dat Project Rainer geen spectaculair lage latency heeft. De cloudprovider ontwikkelde eigen netwerktechnologie onder de naam Elastic Fabric Adapter om die keerzijde enigszins te compenseren. Elastic Fabric Adapter zorgt ervoor dat dataverkeer niet langs het OS moet passeren, wat de algemene communicatiesnelheid in het cluster verbeterd.
Poject Rainer is nog niet klaar. AWS verwacht het cluster volgend jaar af te werken. Wanneer dat gebeurt, wordt het HPC-cluster het grootste ter wereld voor de training van AI-modellen. OpenAI-concurrent Anthropic kan er dan mee aan de slag gaan. Dat bedrijf krijgt zo vijf keer meer rekenkracht ter beschikking dan vandaag voor de uitwerking van zijn modellen.
AWS investeert stevig in Anthropic en probeert met de samenwerking een tegengewicht te bieden voor de Microsoft-OpenAI-tandem. Microsoft ondersteunt OpenAI ook met zowel geld als brute rekenkracht in Azure.