De afgelopen jaren heeft Nvidia zich omgevormd van grafische kaarten-specialist voor gamers tot dominante kracht in datacenters. Het zette die eerste stap 10 jaar geleden, wat het dominante marktaandeel verklaart. Google wil nu een deel van de koek met zijn eigen TPUv2-chips.
Sinds de lancering van G80 en bijhorende CUDA-API heeft Nvidia een vliegende start genomen in de datacenterwereld 10 jaar geleden. Wie naar de lijst van 500 beste supercomputers kijkt, ziet dat Nvidia er 87 keer in staat. Zeker wat betreft toepassingen zoals machine learning en artificial intelligence (AI) is Nvidia de grote slokop.
Intel, Google en Microsoft
Die lucratieve markt zorgt ervoor dat andere fabrikanten een deel van de koek willen. Intel werkt nu plots aan grafische kaarten voor datacenters en neurale netwerken, maar ook Google en Microsoft zijn ermee bezig. In een nieuw rechtstreekse test tussen Google en Nvidia zijn de verschillen opvallend miniem.
Om beide partijen grondig te testen, wordt er gebruik gemaakt van RiseML. Deze benchmarktool meet hoe goed oplossing is voor machine learning. Om ervoor te zorgen dat geen enkele architectuur de voorkeur krijgt qua resultaten, mochten zowel Google als Nvidia de resultaten inkijken en verdedigen. De resultaten werden ook nagekeken door een panel van experts. Meer info daarrond kan je lezen in deze blogpost.
Benchmark
De benchmark meet de resultaten tussen vier Google TPUv2-chips en vier Nvidia Volta V100. Beide hebben 64 GB RAM en de datasets werden op exact dezelfde manier getraind. RiseML testte het ResNet-50-model en het team onderzocht de ruwe prestaties (throughput), accuraatheid en convergentie (een algoritme convergeert wanneer de output steeds dichter bij de specifieke waarde zit).
De gesuggereerde batchgrootte is 1024, maar de test werd ook over kleinere waarden gemeten. In die lagere waarden scoort Nvidia beduidend beter, maar Google gaat nipt met de hoofdvogel lopen. Het verschil is 76,4 procent top-1 accuraatheid voor Google tegen 75,7 procent voor Nvidia).
Kosten
Qua prestaties is het verschil beperkt, maar verschil op vlak van budget is het verschil veel groter. Wanneer er wordt gekeken hoeveel het kost om iets te trainen tot op 75,7% accuraat, valt het op dat Google flink goedkoper is. De twee andere oplossingen zijn van AWS, die laatste over een contract van 12 maanden wat iets goedkoper maakt.
Er bestaat een kans dat Google zijn processors subsidieert, maar de karakteristieken van machine learning-chips variëren qua implementatie en kennis van ontwikkelaars. Daarom is dit niet het laatste woord van Nvidia. Wat betreft de ResNet-50-benchmark, haalt Google haast identieke prestaties aan een veel lager prijspunt.