產經情報

字級設定：
大
中
小
收藏
.

新MLPerf推論評比結果出爐，Nvidia GPU搭配Arm伺服器效能不輸搭配x86伺服器

日期：2021-09-24

全球資料中心正在加速採用Arm架構，因Arm架構具有低耗電、高效率與高效能的優勢，還有持續擴展的軟體生態系統。在這個趨勢下，Nvidia提交Arm架構的A100伺服器來參加MLPerf推論評比，且評比成果更顯示，基於Arm的GPU平臺，效能不輸搭配x86架構的GPU平臺

ML基準測試套件MLPerf最新推論評比在9月22日出爐。Nvidia首度以GPU搭配不同CPU架構來參加MLPerf Inference v1.1的測試，比較兩種組合在6種AI應用中的成效。實際結果顯示，搭配Arm架構的A100效能與搭配x86架構相差無幾，僅略低於x86架構的效能，但在醫療影像識別評比中，Arm架構效能更勝過x86架構。

MLPerf推論評比共分為6種AI應用，分別是用於推薦的DLRM框架、用於NLP的BERT、用於語音辨識的RNN-T、用於醫療影像辨識的3D U-Net、用於影像分類的ResNet-50 v1.5，以及用於低解析物件偵測的SSD搭配MobileNet-v1、用於高解析物件偵測的SSD搭配ResNet-34。

Nvidia指出，相較於去年MLPerf Inference v0.7的推論評比，A100 GPU在這次v1.1版本的評比中，於各項AI應用的效能均有所提升，尤其在語音識別與醫療影像識別的領域，效能更分別較去年提升了3成與5成。Nvidia AI推論與雲端部門的產品經理Dave Salvator指出，這些效能的提升，並非基於硬體的改良，而是來自於軟體對於硬體效能的優化。

MLPerf推論評比又可依據在雲端或邊緣端運算，分為兩大評比類別；而在雲端資料中心進行推論的類別，又可分為完全無延遲的離線運算（Offline）與低延遲的伺服器運算（Server）。在雲端資料中心的測試中，若以A30 GPU為基準，來比較單一加速器（Accelerator）的效能，可以發現A100 GPU效能幾乎領先了所有加速器。

進一步來看，這次領先的A100 GPU分別搭配了x86架構與Arm架構的CPU。評比結果顯示，搭配Arm架構的A100效能僅略低於搭配x86架構的效能，其中在離線的雲端推論類別，Arm架構伺服器在醫療影像AI的推論效能，更勝過x86架構。

Nvidia在今天發布的部落格指出，全球資料中心正在加速採用Arm架構，因Arm架構具有低耗電、高效率與高效能的優勢，還有持續擴展的軟體生態系統。在這個趨勢下，Nvidia提交Arm架構的A100伺服器來參加MLPerf推論評比，評比成果更顯示，基於Arm的GPU加速平臺，已經準備好處理資料中心的各種AI工作負載。

除了在雲端推論評比取得領先地位，在邊緣端的推論評比上，Nvidia也以A100 PCIe取得了最佳成績。若以Nvidia嵌入式邊緣運算晶片Jetson Xavier NX的效能為基準，可以發現A30與A100 PCIe遙遙領先其他晶片效能，尤其A100 PCIe在醫療影像識別、NLP與高解析物件偵測等推論成效，大幅領先其他晶片。

Dave Salvator也特別強調軟體在推論評比中扮演的加速角色。在AI推論上，Nvidia靠深度學習推論軟體開發套件Tensor RT來最佳化AI模型，透過稀疏性與量化感知訓練兩大功能，在不影響推論準確率的情況下，縮減模型權重與精度，來加快模型運算效率。

同時，Nvidia也透過開源推理軟體Triton，簡化AI模型在生產環境的大規模部署。Dave Salvator解釋，Triton主要可以自動化基礎架構的管理，具有彈性化擴展（auto scaling）及負載均衡（Load balancing）兩大功能，尤其將AI模型部署到推論環境中執行時，對於運算資源的需求可能突然來到高峰，若運算資源已經飽和，就會延長模型推論時間。但透過Triton，當運算需求突然增加時，可以自動將工作分配到閒置的CPU資源上執行，最佳化利用CPU或GPU，來加速模型推論。

Dave Salvator也揭露一張圖表，比較使用Triton來部署AI模型，以及透過客製化程式碼來部署AI模型的效能差異。Nvidia指出，使用Triton的A100推論效率，可以達到客製化程式碼的93%，使用Triton的A30更可達到與客製化程式碼相同的成效。

在這項推論評比中，Nvidia也運用多實例GPU（Multiple Instance GPU，MIG）來進行評比，MIG可以將每個A100 GPU最多分為七個執行實例，各自獨立且具備個別的記憶體、快取和運算核心，來執行不同的AI工作負載。由於MLPerf推論評比只有六項應用，Nvidia還多執行了一個影像分類的AI應用，將7項應用同時在A100中執行。得到的結果是，每項工作負載的推論效能均達到獨立執行的95%。Dave Salvator指出，能達到這個成果，Triton功不可沒，因為Triton可以讓不同框架的多個模型同時在單一GPU或CPU上執行，而不需增加額外的程式碼。