產經情報

新MLPerf推論評比結果出爐,Nvidia GPU搭配Arm伺服器效能不輸搭配x86伺服器

日期:2021-09-24

全球資料中心正在加速採用Arm架構,因Arm架構具有低耗電、高效率與高效能的優勢,還有持續擴展的軟體生態系統。在這個趨勢下,Nvidia提交Arm架構的A100伺服器來參加MLPerf推論評比,且評比成果更顯示,基於Arm的GPU平臺,效能不輸搭配x86架構的GPU平臺

ML基準測試套件MLPerf最新推論評比在9月22日出爐。Nvidia首度以GPU搭配不同CPU架構來參加MLPerf Inference v1.1的測試,比較兩種組合在6種AI應用中的成效。實際結果顯示,搭配Arm架構的A100效能與搭配x86架構相差無幾,僅略低於x86架構的效能,但在醫療影像識別評比中,Arm架構效能更勝過x86架構。

MLPerf推論評比共分為6種AI應用,分別是用於推薦的DLRM框架、用於NLP的BERT、用於語音辨識的RNN-T、用於醫療影像辨識的3D U-Net、用於影像分類的ResNet-50 v1.5,以及用於低解析物件偵測的SSD搭配MobileNet-v1、用於高解析物件偵測的SSD搭配ResNet-34。

Nvidia指出,相較於去年MLPerf Inference v0.7的推論評比,A100 GPU在這次v1.1版本的評比中,於各項AI應用的效能均有所提升,尤其在語音識別與醫療影像識別的領域,效能更分別較去年提升了3成與5成。Nvidia AI推論與雲端部門的產品經理Dave Salvator指出,這些效能的提升,並非基於硬體的改良,而是來自於軟體對於硬體效能的優化。

MLPerf推論評比又可依據在雲端或邊緣端運算,分為兩大評比類別;而在雲端資料中心進行推論的類別,又可分為完全無延遲的離線運算(Offline)與低延遲的伺服器運算(Server)。在雲端資料中心的測試中,若以A30 GPU為基準,來比較單一加速器(Accelerator)的效能,可以發現A100 GPU效能幾乎領先了所有加速器。

進一步來看,這次領先的A100 GPU分別搭配了x86架構與Arm架構的CPU。評比結果顯示,搭配Arm架構的A100效能僅略低於搭配x86架構的效能,其中在離線的雲端推論類別,Arm架構伺服器在醫療影像AI的推論效能,更勝過x86架構。

Nvidia在今天發布的部落格指出,全球資料中心正在加速採用Arm架構,因Arm架構具有低耗電、高效率與高效能的優勢,還有持續擴展的軟體生態系統。在這個趨勢下,Nvidia提交Arm架構的A100伺服器來參加MLPerf推論評比,評比成果更顯示,基於Arm的GPU加速平臺,已經準備好處理資料中心的各種AI工作負載。

除了在雲端推論評比取得領先地位,在邊緣端的推論評比上,Nvidia也以A100 PCIe取得了最佳成績。若以Nvidia嵌入式邊緣運算晶片Jetson Xavier NX的效能為基準,可以發現A30與A100 PCIe遙遙領先其他晶片效能,尤其A100 PCIe在醫療影像識別、NLP與高解析物件偵測等推論成效,大幅領先其他晶片。

Dave Salvator也特別強調軟體在推論評比中扮演的加速角色。在AI推論上,Nvidia靠深度學習推論軟體開發套件Tensor RT來最佳化AI模型,透過稀疏性與量化感知訓練兩大功能,在不影響推論準確率的情況下,縮減模型權重與精度,來加快模型運算效率。

同時,Nvidia也透過開源推理軟體Triton,簡化AI模型在生產環境的大規模部署。Dave Salvator解釋,Triton主要可以自動化基礎架構的管理,具有彈性化擴展(auto scaling)及負載均衡(Load balancing)兩大功能,尤其將AI模型部署到推論環境中執行時,對於運算資源的需求可能突然來到高峰,若運算資源已經飽和,就會延長模型推論時間。但透過Triton,當運算需求突然增加時,可以自動將工作分配到閒置的CPU資源上執行,最佳化利用CPU或GPU,來加速模型推論。

Dave Salvator也揭露一張圖表,比較使用Triton來部署AI模型,以及透過客製化程式碼來部署AI模型的效能差異。Nvidia指出,使用Triton的A100推論效率,可以達到客製化程式碼的93%,使用Triton的A30更可達到與客製化程式碼相同的成效。

在這項推論評比中,Nvidia也運用多實例GPU(Multiple Instance GPU,MIG)來進行評比,MIG可以將每個A100 GPU最多分為七個執行實例,各自獨立且具備個別的記憶體、快取和運算核心,來執行不同的AI工作負載。由於MLPerf推論評比只有六項應用,Nvidia還多執行了一個影像分類的AI應用,將7項應用同時在A100中執行。得到的結果是,每項工作負載的推論效能均達到獨立執行的95%。Dave Salvator指出,能達到這個成果,Triton功不可沒,因為Triton可以讓不同框架的多個模型同時在單一GPU或CPU上執行,而不需增加額外的程式碼。