Welke hardware voor machine learning-training en inferentie is de beste? Die van Google en Nvidia volgens de ML Perf-benchmark, die ondanks de kwalitatieve tests nauwelijks deelnemers aantrekt. De resultaten zeggen dan ook meer over het vertrouwen dat andere hardwarebouwers in hun chips hebben.
Nvidia en Google bouwen de beste hardware voor training en inferentie van machine learning-modellen. Dat is de voorzichtige conclusie die we kunnen trekken uit een rapport van MLPerf. Die organisatie heeft als ambitie om op een eerlijke en objectieve manier machine learning hardware en bijhorende software te vergelijken. Daarvoor ontwikkelt de organisatie een benchmarksuite samen met technieken om nuttige vergelijkingen mogelijk te maken.
Weinig enthousiasme
Machine learning-hardware testen is niet hetzelfde als een workstation reviewen. ML Perf heeft toegang tot de hardware nodig via de fabrikanten ervan. Zij kunnen deelnemen aan de tests, maar hebben ook het recht zichzelf uit de resultaten te verwijderen. Dat heeft als resultaat dat er nauwelijks complete testresultaten terug te vinden zijn op de website. Nvidia is veruit de actiefste deelnemer, gevolgd voor Google. Ook Intel, Fujitsu en Alibaba namen deel aan enkele tests uit de benchmarksuite. Andere bedrijven zoals MediaTek, Qualcomm of AMD verschijnen niet in de lijst.
Het is onduidelijk of dat komt omdat ze geen interesse hadden, dan wel omdat de resultaten tegenvielen en ze die liever niet publiek wilden. Aan The Register zegt David Kanter van ML Perf dat dat laatste scenario “absoluut mogelijk” is. ML Perf wordt ondersteund door enkele grote namen en organisaties uit de sector en is dus niet van de minste. Dat chipbouwers niet willen deelnemen, zegt in dit geval dan ook meer over hen dan over de tests zelf.
Diverse categorieën
ML Perf maakt gebruik van twee testcategorieën: Closed Division waarbij het testproces gestandaardiseerd is voor een optimale vergelijking, en Open Division waarbij fabrikanten meer vrijheid krijgen in de implementatie van de benchmarktests. Ieder divisie is opgesplitst in tests die de prestaties voor verschillende taken nagaan. Zo is er beeldherkenning, twee variaties van objectherkenning, twee varianties van vertalingen, recomendations, reinforcement learning en Go.
Omdat niet iedere chip ideaal is voor ieder type workload, kunnen fabrikanten kiezen welke tests ze willen uitvoeren. Enkel Google liet alle tests op enkele combinaties van de TPUv3-accelerator met bijhorende software uitvoeren. Nvidia koos voor een doelgerichtere strategie. Intel en Alibaba lieten slechts één type test uitvoeren, en Fujitsu speelde enkel (als enige) mee in de Open Division.
Vergelijken
De versnipperde resultaten maken een waardevolle vergelijking aartsmoeilijk. We kunnen wel zeggen dat de DGX-2 met 16 Tesla V100-accelerators trager is dan een TPUv3.32-systeem met evenveel accelerators van Google. ImageNet-training met ResNet-50 v1.5 duurt 57,87 minuten bij Nvidia versus 42,19 bij Google. Voor objectdetectie is datzelfde DGX-2-systeem met lichtjes aangepaste software dan weer iets sneller dan het equivalent van Google.
Alibaba voerde de ImageNet-test uit met een 64x Tesla v100-systeem gelinkt via PCIe maar Nvidia draaide die test zelf niet met een vergelijkbare DGX-computer. Vergeleken met 64 TPUv3-kernen is het Alibiba-systeem, voorzien van de eigen Sinian-software, echter een stuk trager. Dergelijke resultaten zijn indicatief, en laten de werkelijke rekenkracht van de systemen buiten beschouwing. Ze geven je wel een idee van wat je op het vlak van prestaties kan verwachten voordat je investeert in een machine learning-systeem, zowel in de cloud als on premises.
Of andere fabrikanten het beter doen, is onduidelijk maar ook twijfelachtig. ML Perf is zoals gezegd geen obscuur initiatief, waardoor er weinig reden is voor een fabrikant om niet deel te nemen behalve dan onzekerheid over de competitiviteit.
Gerelateerd: AI, machine learning en deep learning: wat is het verschil?