Hoe Intel de veeleisende workloads van morgen wil ondersteunen

Intel doet uit de doeken wat er gebeurt onder de motorkap van de splinternieuwe Nervana Neural Processor voor Training. De chip is een op maat gebouwde accelerator, die uitblinkt in efficiëntie, hoge geheugenbandbreedte en schaalbaarheid. Hij moet Intel zo relevant houden in een HPC-context.

Intel liet vorige maand weten dat het samen met Baidu sleutelt aan de Nervana Neural Processor voor Training, NNP-T voor de vrienden. Dat is een accelerator speciaal ontwikkeld voor de training van AI-algoritmes op basis van complexe modellen. De chip is het resultaat van Intels overname van Nervana, waar het ding zijn naam aan ontleent. Voor we kijken naar wat de NNP-T precies doet, is het echter interessant om uit te vissen waarom de chip bestaat.

Evoluerend landschap

Tot tien jaar geleden stond krachtig rekenwerk synoniem met x86-cpu’s, wat op zijn beurt een synoniem was voor Intel Xeon. Xeon-chips waren het hart van servers en supercomputers over de hele wereld. Vandaag heeft vier op de vijf HPC-systemen in de top 500 een architectuur die gebruik maakt van gpu-acceleratie. Workloads zijn de laatste jaren zodanig geëvolueerd dat parallel rekenwerk prioritair is geworden. De gpu is daar veel beter voor geschikt dan de cpu, waardoor Nvidia zich de laatste jaren kon ontpoppen van gaming-merk tot AI-specialist.

Knap lastig voor Intel natuurlijk, dat het gros van het high-end compute-werk ziet verdwijnen naar hardware uit de stal van een andere fabrikant. In Santa Clara blijven ze gelukkig niet bij de pakken zitten. Intel heeft een strategie klaar om zijn positie in zowel datacenters als supercomputers te vrijwaren met nieuwe hardware. De aanpak is tweeledig.

Dubbele aanval

Enerzijds kijkt Intel rechtstreeks naar Nvidia. Dat bedrijf plakt zijn Tesla-gpu’s aan wat in de regel nog steeds Intel-gebaseerde systemen zijn (al maakt AMD een opmars). Intel wil binnenkort naast de cpu ook de gpu-accelerator gaan leveren, en werkt daarom aan een eigen Xe-reeks van grafische kaarten. De eerste exemplaren daarvan verschijnen in 2020.

Tezelfdertijd is er een trend van alsmaar specifiekere hardware, gericht op specifieke workloads. Waar de gpu een soort generalistische aanpak voor parallel rekenwerk biedt, zorgen doelgerichte chips zoals de Tensor-processors van Google voor maximale efficiëntie in een sterk groeiende niche van trainingsworkloads. Ook daar wil Intel meespelen, en wel met Nervana.

Training en inferentie

Nervana is opnieuw een tweeledig antwoord op dit deel van het probleem. Logisch, aangezien machine learning en AI uit twee heel verschillende types workload bestaan. Een getraind algoritme uitvoeren voor bijvoorbeeld spraak- of beeldherkenning is niet zo rekenintensief. Op maat gemaakte chips doen dat heel efficiënt. Denk aan de AI-processors in bijvoorbeeld Huawei-telefoons. Getrainde algoritmes uitvoeren is inferentie. Daarvoor heeft Intel sinds begin dit jaar de 10 nm Nervana Neural Processor voor Inferentie (NNP-I) op de markt. Die is klein, licht en efficiënt.

Training is een ander verhaal. Daarbij komen we opnieuw in HPC-territorium terecht. Trainingschips moeten enorme hoeveelheden rekenwerk kunnen verzetten op basis van alsmaar groeiende datasets. Schaalbaarheid is belangrijk: de vraag naar rekenkracht blijft steeds groeien. Terwijl mag het verbruik en de kost voor het draaien van de hardware niet uit de hand lopen. Efficiëntie en verbruik wegen zwaar op de bottom line van HPC-clusterboeren. De hardware die Intel hiervoor bouwt, is de NNP-T.

Op de koffie bij de concurrentie

Een eerste opvallende karakteristiek van die chip is het productieproces. NNP-T wordt gebakken op een 16 nm-productielijn van TSMC, nota bene een concurrent van Intel. Vreemd, tenzij je weet dat Nervana zijn neurale processors, voor de overname door Intel, voor TSMC-processen ontwikkelde. Intel is slim genoeg om kwaliteit te herkennen wanneer het die ziet en laat het team voortbouwen op het gekende proces. Verder op de roadmap zal Intel wel eigen technologieën introduceren in het NNP-T-design.

NNP-T wordt gebakken op een 16 nm-productielijn van TSMC, nota bene een concurrent van Intel.

De NNP-T-chip wordt omsingeld door vier High Bandwith Memory 2 (HBM2)-dies. Dat supersnelle geheugen wordt samen met de eigenlijke chip via TSMC’s CoWoS (Chip-on-Wafer-on-Substrate)-interconnecttechnologie verbonden met een microbump-interposer. Dat zorgt voor een stevige bandbreedte. De NNP-T past niet in een socket, maar werkt via een 3325 pin-BGA-interface, naar analogie met ook de meest high-end Xeon-processors. Het gebruik van CoWoS is opvallend, opnieuw omdat Intel met EMIB een concurrerende technologie heeft.

Specificaties

Het HBM2-geheugen is verbonden via 64 serdes-lanes die elk een bandbreedte van 28 GBps ondersteunen. Op iedere NNP-T-chip zitten 24 Tensor-processors die aan het geheugen kunnen. Die hebben onderling ook nog eens toegang tot 60 MB aan gedeeld SRAM-geheugen, verspreid over de hele die. Het resultaat is een die met 27 miljard transistors, wat resulteert in een formaat van 6 cm op 6 cm. NNP-T is met andere woorden een (relatief) uit de kluiten gewassen chip.

De NNP-T krijgt een kloksnelheid van 1,1 Ghz mee, met een thermisch profiel van 150 tot 250 watt in een luchtgekoelde configuratie. Dat lijkt de deur open te zetten voor krachtigere watergekoelde configuraties, al vertelt Intel daar nog niets over.

Geheugen en samenwerking

De individuele Tensor-kernen op de chip zijn geoptimaliseerd voor snelle geheugentoegang en FP32 en BF16-rekenwerk. Dat maakt ze perfect voor trainingswerk. Even belangrijk als het binnenwerk is echter de schaalbaarheid. NNP-T’s zijn ontwikkeld om samen te werken. Volgens Intel kunnen ze perfect samenwerken, niet enkel binnen één chassis of tussen chassis onderling, maar binnen meerdere racks.

In theorie kan de architectuur overweg met 1.024 nodes, die elk acht NNP-T’s bevatten (met op hun beurt 24 Tensor-kernen). Efficiënt schalen kan volgens Tom’s Hardware met tot 256 kaarten. Daarna is het nog koffiedik kijken, maar meer is zeker mogelijk.

NNP-T’s zijn ontwikkeld om samen te werken.

Voor het einde van dit jaar wil Intel de eerste NNP-T-chips naar klanten sturen, met een initiële focus op Tier 1-cloudproviders. Tier 1-klanten krijgen bovendien rechtstreekse toegang tot de hardware. Andere gebruikers moeten tevreden zijn met kerneltoegang. Brede beschikbaarheid staat gepland voor 2020.

Theoretisch goede zet

De NNP-T is op papier een erg capabele chip, die perfect inspeelt op de noden van hedendaags HPC-rekenwerk. De grote geheugenbandbreedte, de efficiëntie en de schaalbaarheid maken dat de processor een belangrijke hoeksteen kan worden in de training van toekomstige slimme algoritmes. Intel heeft bovendien de ervaring en de connecties om zijn chip binnen te krijgen bij grote spelers.

Wat het werkelijke succes zal zijn, moeten we afwachten. Intel mag dan wel heer en meester zijn in x86, in accelerators en op maat gemaakte chips weegt die ervaring minder door. Concurrentie van Nvidia’s hardware, die zich intussen meer dan bewezen heeft, is niet min.

Gerelateerd: Met de neus tegen de muur: het einde van de grote sprongen in computerkracht

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Hoe Intel de veeleisende workloads van morgen wil ondersteunen

Evoluerend landschap

Dubbele aanval

Training en inferentie

Op de koffie bij de concurrentie

NNP-T wordt gebakken op een 16 nm-productielijn van TSMC, nota bene een concurrent van Intel.

Specificaties

Geheugen en samenwerking

NNP-T’s zijn ontwikkeld om samen te werken.

Theoretisch goede zet

gerelateerd nieuws

nieuwsbrief