Microsoft lanceert de Maia 200: een nieuwe AI-inferentiechip die grootschalige AI-toepassingen efficiënter en kosteneffectiever moet maken binnen de Azure-infrastructuur.
Microsoft onthult de Maia-200. Dat is een AI-accelerator waarmee Microsoft een alternatief wil bieden tegenover de Blackwell-generatie van Nvidia, maar ook het AI-aanbod van andere cloudspelers. De Maia-200 is gericht op inferentie en moet AI-modellen zoals GPT-5.2 ondersteunen. De chip volgt Maia uit 2023 op.
Specificaties en RAM-tekorten
De Maia-200 rolt van de band bij TSMC en wordt gebakken op een 3 nanometerproces. De chip beschikt over FP8/FP4-tensorcores en levert 10 petaFLOPS aan FP4-rekenkracht aan een TDP van 750 watt. Daarmee presteert Maia-200 wat inferentie betreft in theorie op het niveau van de Nvidia B200. Volgens Microsoft biedt de Maia 200 drie keer betere FP4-prestaties dan Amazon’s Trainium 3 en overtreft hij de FP8-prestaties van Google’s TPU v7. Van een vergelijking met de Rubin-architectuur van Nvidia is op dit moment geen sprake.
De chip krijgt verder 216 GB HBM3e-geheugen mee, met een bandbreedte van 7 TB/s, en 272 MB on-chip SRAM. Dat laat Maia-200 toe om grote LLM’s in te laden. De Maia-200 is zo een mooi voorbeeld van een AI-processor die een grote hoeveelheid HBM-geheugen opslokt. De chip illustreert de rol van Microsoft in de huidige DRAM-tekorten en bijhorende hoge prijzen.
Eigen server-architectuur
Microsoft heeft ook de server-architectuur zelf uitgewerkt. Elke servertray bevat vier volledig verbonden chips met directe links. Microsoft gebruikt standaard ethernet en een eigen transportprotocol voor snelle en betrouwbare communicatie tussen de chips. Redmond blijft zo onafhankelijk van interconnects van derden, zoals Nvidia.

De chip is bedoeld voor grootschalige AI-workloads en wordt in eerste instantie ingezet in de Azure-datacenters in Iowa en later in Arizona.
Efficiëntie bij LLM-inferentie
Maia 200 moet de efficiëntie verhogen bij het uitvoeren van grote taalmodellen, waaronder GPT-5.2 van OpenAI. Ook interne teams zoals Microsoft Superintelligence gebruiken de chip voor onder meer synthetische datageneratie en reinforcement learning. Door de herontworpen geheugenstructuur en geoptimaliseerde datadoorvoer is Maia 200 afgestemd op inferentie met lage precisie, wat moet bijdragen aan de kosten-efficiëntie.
Maia SDK
Voor ontwikkelaars komt er een Maia SDK beschikbaar die onder andere ondersteuning biedt voor PyTorch, een Triton-compiler, en programmeermogelijkheden op laag niveau via NPL. Dit moet helpen bij het optimaliseren van AI-modellen voor gebruik op de Maia 200-hardware. De Maia SDK is momenteel als preview te gebruiken.
Dankzij een pre-silicium testomgeving kon Microsoft de Maia 200 sneller inzetten dan eerdere generaties. Microsoft werkt intussen al aan toekomstige generaties van Maia.
