產經情報

一家廠商主導的AI硬體生態系統

日期:2024-10-25

這幾年來,Nvidia堪稱最活躍、最受各界矚目的企業級加速運算平臺廠商,隨著伺服器虛擬化、大數據分析、生成式AI技術浪潮一波波襲來,Nvidia都在其中扮演重要角色,他們不斷打破既有市場規則,開創許多新的典範。

以及今年發表的Blackwell架構資料中心GPU為例,截至目前為止,Nvidia在尚未推出基於這個GPU晶片而成的運算模組或加速卡之際,居然就已開始主推新一代融合晶片GB200 Grace Blackwell Superchip(結合自研Arm處理器Grace與Blackwell架構GPU),基於36個GB200的整櫃式系統GB200 NVL72,以及預載8個Blackwell架構GPU的加速運算基板:HGX B200、HGX B100,而非按部就班地推廣各種GPU解決方案。

先前Nvidia在Ampere架構與Hopper架構的作法,是先解說與強調單個A100或H100 GPU的性能與效益,同時帶入匯集4或8個GPU的加速運算基板/GPU伺服器,展示整個伺服器廠商生態的支持與響應,後續再擴及搭配更大量GPU的單櫃或多櫃型系統。不過,隨著Nvidia去年完成融合晶片GH200 Grace Hopper Superchip的設計,以及多家廠商這兩年陸續推出基於GH200的伺服器,像是:雲達、Supermicro、技嘉、華碩、永擎、和碩、Nvidia、Amax、立端、HPE,或許是因為這些廠商的熱烈響應,使Nvidia對這類採用「超級晶片」的伺服器更有信心,因此,今年3月GTC大會與6月台北國際電腦展,他們更是開門見山、直接主推基於GB200而成的伺服器與整櫃型系統。至於Blackwell架構GPU的主要技術特色介紹,並不像前幾代資料中心GPU架構發表時那樣詳盡,目前只能仰賴Nvidia網站的介紹,而且,上面公布的技術架構簡介文件,聚焦Blackwell架構的部分,嚴格來說只有5頁篇幅,相較之下,現行Hopper架構技術白皮書,在架構設計、規格、效能的總覽與深度解析有近50頁之多。

在Blackwell架構GPU的效能展現上,今年8月底公布的AI推論測試結果MLPerf Inference v4.1,首度以第三方機構的角度,揭露基於此架構而成的產品B200能耐(單臺伺服器、單個GPU),從中可看出同樣使用Llama 2 70B的模型時,B200均大幅領先AMD Instinct MI300X、Nvidia GH200、Nvidia H200。

詳細內文請參考網址...