Microsoft geeft een handvol details vrij over een nieuw project getiteld Singularity. Onder die noemer werkt het bedrijf aan nieuwe cloudinfrastructuur speciaal op maat van AI.
Microsoft wil cloudinfrastructuur bouwen specifiek op maat van AI-workloads. Het platform zou verder gaan dan een eenvoudige dienst op de Azure-cloud. Microsoft werkt aan het project onder de codenaam Singularity. De cloudprovider omschrijft het als “een nieuwe AI-platform dienst van de grond op gebouwd, die een drijvende kracht voor AI zal worden zowel binnen Microsoft als daarbuiten.”
Veel details verklapt het bedrijf nog niet. Enkele onderzoekers en experts die zich bezig houden met het project publiceerden pas een paper die een tipje van de sluier opricht. Die paper draagt de titel Singularity: Planet-Scale, Preemptive and Elastic Scheduling of AI Workloads. Dat toont alvast de richting die Microsoft uit wil.
Optimale benutting van alle capaciteit
De onderzoekers schuiven een aantal designdoelen naar voren. Zo mag Singularity geen ongebruikte resources tellen. Alle accelerators in de hardware worden als een enkele gedeeld logisch cluster behandeld. Er zal geen sprake zijn van statische reservering van capaciteit. Singularity krijgt een scheduler die vrije capaciteit waar ook ter wereld zo opportunistisch mogelijk zal inzetten, los van clusters, regio’s of types workload.
Hoewel capaciteit verdeeld wordt, zal Singularity workloads wel op een veilige manier behandelen en isoleren. Wanneer een inferentie-workload meer pk’s nodig heeft, zal de scheduler capaciteit vrijmaken door systeembronnen vrij te geven die op dat moment preventief voor trainingsdoeleinden worden gebruikt.
Verder wijzen de onderzoekers naar de weerbaarheid van het systeem. Omdat training via een neuraal netwerk dagen of zelfs weken kan duren, is het geen optie om een job te herstarten. Als een job wordt gestopt om bronnen vrij te maken, wordt die daarna automatisch herstart zonder verlies van vooruitgang.
Moderne scheduler op wereldschaal
Uit die basisprincipes blijkt dat Singularity vooral draait rond de innovatieve scheduler. Die zal immers instaat zijn om een wereldwijde poule aan systeembronnen te beheren. Voor de scheduler gelden twee sleutelmechanismen. Eerst en vooral is er de capaciteit om trainingjobs zoals gezegd te pauzereren en bronnen vrij te maken. Vervolgens moet de software steeds elastisch alle workloads kunnen schalen over een variabele hoeveelheid accelerators.
Wanneer, hoe en voor wie Singularity zal verschijnen, is in deze fase onduidelijk. Het idee erachter, schijnt wel duidelijk door. Microsoft wil een grote poule van infrastructuur bouwen verspreid over de hele wereld, met daarin een veelvoud aan accelerators. Die moeten dynamisch worden toegewezen aan de meest relevante workloads, zodat de hele infrastructuur steeds optimaal benut wordt en prioritaire taken steeds de capaciteit krijgen die ze nodig hebben. Het opzet lijkt op een soort van supercomputer op wereldschaal.