產經情報

內含上千RISC-V核心 創新AI加速器晶片訴求低功耗

日期:2021-09-09

美國矽谷新創公司Esperanto在8月下旬舉行的年度Hot Chips大會期間解除隱身模式,發表號稱迄今市場上性能最高的RISC-V晶片──為超大規模資料中心量身打造、內含超過1,000顆核心的人工智慧(AI)加速器ET-SoC-1。

雖然該晶片可以在10~60W之間的電壓與功率配置下運作,其「甜蜜點」是單顆晶片20W;此配置可以讓6顆晶片封裝為一片Glacier Point加速卡,讓總功耗維持在120W以下。6晶片加速卡的整體性能則為約800TOPS。

Esperanto新發表的加速器號稱是目前在單晶片中內建最多RISC-V核心的,總共達到1,093顆;其中包括1,088顆ET-Minion客製RISC-V核心,扮演節能AI加速引擎的角色,還有4顆ET-Maxion RISC-V核心,以及一顆RISC-V服務處理器,整個設計著重在節能效率。

在Esperanto創辦人暨執行董事長Dave Ditzel接受了《EE Times》的訪問,他表示:「我們是第一家推出在單晶片上整合千顆RISC-V核心的公司,人們已經討論眾多核心許多年,但我們還沒有看到很多產品;而大多數RISC-V晶片都是嵌入式應用。」

「我們團隊的人說,讓我們來向他們展示RISC-V也可以做高階晶片…我們會讓大家看到真正經驗豐富的CPU設計師能在這個領域做什麼;」Ditzel的CPU設計工程師團隊從超大規模資料中心營運商那邊了解到他們的詳細需求,「他們不要訓練晶片,他們在訓練方面沒有問題。」

AI訓練通常是離線任務,超大規模資料中心的龐大x86處理器也不會一直都是工作滿載,因此其處理量還是可以在有空時用來訓練。「他們的真正問題在於推論,」Ditzel指出:「這是他們廣告業務的驅動力,他們需要在100毫秒(milliseconds)甚至更少的時間內得到答案。」

因此,加速推薦推論引擎以支援線上廣告,成為資料中心晶片的開發重點;超大規模資料中心業者對於加速這類模型的需求相當明確。他指出:「我們的客戶需要100MB的晶片上記憶體,他們要用推論做的所有事情符合這100MB。」

客戶還需要與晶片外部記憶體連結的介面,「真正的問題是你能在加速卡上放多少記憶體;Ditzel解釋,「把那一片板卡想成運算單元而非晶片,一旦你可以在板子上放記憶體,你就能比透過PCIe匯流連結主機更快的速度存取資料。」

該晶片上記憶體系統有L1、L2與L3快取記憶體,以及完整的主記憶體系統與暫存器檔案(register files),總容量比100MB多一點點。板卡上的記憶體系統則能在約100GB的容量中儲存大多數的模型權重與激勵函數。

眾所周知推薦模型難以加速,這是它們仍在現有的CPU伺服器上執行的主要原因之一。Ditzel表示:「當你要調出1億個消費者最近買了什麼東西的資料,就得存取板卡上的記憶體,而現在都是透過隨機記憶體存取,快取不會作用,所以你真的需要比普通電腦更厲害的。」

他接著指出:「x86伺服器能處理大量記憶體,並支援預取(pre-fetching),而且通用CPU能妥善處理那樣的工作負載,因此對任何一種加速器來說,要切入推薦引擎業務都很難。」而且這類應用還得支援INT8與FP16、FP3等資料類型,這需要盡可能維持最高預測精確度,同時傾向不需要移植或重寫程式以支援較低精度數學的浮點運算。

Ditzel表示,領導級x86伺服器晶片業者也是在最近才將8位元向量擴充(vector extensions)指令集添加到伺服器處理器中;「在超大規模資料中心上百萬台x86伺服器上執行的大多數推論任務,仍是採用32位元浮點運算。」

Esperanto安裝在雙M.2卡上的晶片,是設計成能適用現有x86伺服器基礎設施的加速器插槽,不過這導致功率極限為120W,而且需要氣冷散熱。而Ditzel指出,該公司的設計並沒有要與Google的TPU或者是AWS的Inferentia等業者自己開發的晶片直接競爭。

「超大規模資料中心業者正在嘗試讓整個社群幫他們打造加速器晶片,很多這些業者也相信開放性運算(Open Compute Project),因此他們會採購OCP伺服器,而且會想要裡面有標準化的東西;」他表示:「他們會樂見市場競爭…他們也正在試著鼓勵競爭,並向人們展示什麼是可能的。」

這家新創公司堅信,大型資料中心營運商需要外部的加速器晶片供應商;「一直都會有『自己做,或外面買』的決策權衡,」Ditzel舉例指出,Esperanto有一家客戶就是無法取得對手陣營自家開發的晶片,「而如果你有能勝出的方案,就可能獲得那樣的客戶青睞。」

創新的方法

與競爭對手採用高耗電晶片加速器的方法相反,Esperanto提供的是可以使用多顆的較低功耗晶片;這種方法解決了對記憶體頻寬的需求,因為有更多的接腳可當作記憶體I/O,不需要藉助昂貴的HBM。

Esperanto的硬體也可以被設計為通用電腦;Ditzel指出,儘管其應用焦點是推薦模型,該公司的晶片也可以加速平行處理。一張6晶片的加速卡內含約6,000顆平行核心,每一個核心都能處理雙執行緒,這代表「可以隨心所欲丟出問題。」

另一個Esperanto的特色是積極的節能設計,客戶要求將6晶片的Glacier Point加速卡總功率預算設定為120W,也就是每顆晶片功耗20W;而一般AI加速器的功耗要高出10倍。該公司是從多個方面來達到節能效果,包括將時脈頻率降低到大約1GHz的最佳水準,供應電壓則降到約0.4V,超越SRAM的極限。

此外因為利用號稱市面上最小指令集的RISC-V核心,減少了電晶體數量並為開關電容帶來助益。而Esperanto選用的是先進且穩定的製程技術──台積電(TSMC)的7奈米製程。

Esperanto的晶片包含1,088顆ET-Minion核心,用以處理AI工作負載。該種核心為64位元,排列有序的RISC-V處理器與該公司自家的AI最佳化向量/張量運算單元佔據晶片的大部份空間。浮點運算MAC在該配置中扮演主導角色,與眾不同的是,整數MAC擁有兩倍的浮點處理寬度;Ditzel指出,這是根據客戶要求。

根據硬體模擬結果,Ditzel表示其6晶片Glacier Point加速卡的性能超越競爭產品;考量記憶體系統設計與每瓦性能,這家新創公司認為自家方案在推薦引擎應用上具備明顯優勢,而這是因為專注於低功耗設計。未來該公司也考慮推出邊緣應用的縮小版ET-SoC-1,而目前的這個版本預計在幾個月之後上市。