隨著 AI 進入企業級應用,應用場景不斷增加,除了執行運算所需要的大量數據,為了讓分析和產出成果更準確和可靠,AI 運算相關的推理(inference)需求也跟著湧現;當 AI 模型完成訓練,推理晶片會根據訓練邏輯產出成果——可能是生成一張圖片,或以文字回應一則提示(prompt)——並完成任務。
近期有數間晶片設計新創 SambaNova、Groq、Cerebras,正以 AI 推理市場為立足點,企圖撼動 NVIDIA 價值上兆美元的市場領導地位。
新創為何鎖定 AI 推理市場,以小搏大?
2017 年,Rodrigo Liang 與兩位夥伴共同創辦 AI 晶片公司「SambaNova Systems」,試圖以不同的方式開發晶片與數據分析軟體,挑戰 NVIDIA 等市場領導者。當時整個 AI 生態系還相對不成熟,推理相關的 AI 工作負載僅佔少數,然而如今 AI 基礎模型在運算規模與精確度上不斷突破,產業需求的重心,也逐漸由訓練機器模型轉向實際運用。
今年八月,NVIDIA 財務長 Colleen Kress 表示,NVIDIA 資料中心的工作負載已經有 40% 都是作為推理用途,後來與華爾街投資機構伯恩斯坦(Bernstein)分析師會面時,Kress 也同意推理是 AI 領域一大市場;另一方面,SambaNova 共同創辦人暨執行長 Liang 則在受訪時表示,在不久的將來,高達九成的 AI 運算工作負載都會來自推理需求,且大約再過半年,AI 推理市場就會走向成熟。
誰的晶片更適合 AI 推理用途?
在晶片設計上,相異於 NVIDIA 或 AMD 使用圖形處理器(GPU),SambaNova 採用的是一種可重組的資料串流單元(reconfigurable dataflow unit,簡稱 RDU),Liang 認為這樣的設計架構與機器學習模型更相符,因為這些模型本來就不是要用來渲染圖像,而是處理資料的。同樣選擇瞄準 AI 推理市場,NVIDIA 另一家新興挑戰者「Cerebras」的執行長 Andrew Feldman 也支持此說法。
然而根據伯恩斯坦分析師的紀錄,Kress 相信「考量到晶片網路系統架構的強度、液體冷卻能力,以及 ARM 架構處理器等關鍵因素」,NVIDIA 製造出的晶片才「最能滿足推理用途」;Kress 也強調目前 NVIDIA 多數的推理收益都來自推薦引擎和搜尋。
新創想搶 NVIDIA 客戶,主打的優勢是什麼?
為了說服 NVIDIA 既有的顧客群改變心意,新興晶片設計廠商標榜的是「高速」,像是 Cerebras 和 SambaNova 都聲稱自家供應的是全世界最快速的推理運算晶片,兩家用的都是 RDU 而非 GPU,更能適應代理型人工智能(agentic AI)的應用需求,僅需少數指令就能執行任務。
除此之外,這些市場新興挑戰者也正嘗試不一樣的商業模式,以避開與 NVIDIA 的直接競爭,甚至與建構 AI 模型的企業展開交涉。例如 SambaNova 透過自家雲端服務,為 Meta 提供開源的 Llama 基礎模型,Cerebras 和 Groq 也推出類似服務;換言之,這些新創不僅與 NVIDIA 等晶片設計大廠競爭,也即將挑戰 OpenAI 等 AI 模型開發商。
而在效能方面,可以參考為 AI 模型與 API 供應商提供獨立分析的網站「Artificialanalysis.ai」的數據:日前該網站公布分析結果,針對 Llama 的 3.1 70B 和 8B 模型,Cerebras、SambaNova、Groq 確實是透過 API 提供最高速推論即服務(inference-as-a-service)的三間廠商。
分析機構: AI 推理晶片買家看重「降本」與「提效」
不過如同半導體與 AI 調研機構 Semianalysis 指出,買家考量的不只是效能,還有與整個晶片生命週期相關的產品優勢與開銷;根據 Semianalysis 首席分析師 Dylan Patel 的觀點,全心追求晶片效能的這些新創,可能很快就會面臨挑戰,關鍵在於「以詞元(token)計算,GPU 能提供更優異的總體擁有成本(total cost of ownership)。」
針對此說法,Liang 承認「速度與成本之間往往需要權衡,當推理速度提高,所需要的硬體規模可能也會增加、使成本上升」,但 SambaNova 可以用更少的晶片達成高速和高效能,進而壓低成本。