在 AI 晶片競爭白熱化的當下,Google 正以獨特的姿態切入市場。TPU(Tensor Processing Unit)作為 Google 為 AI 打造的客製化晶片,能夠處理機器學習模型訓練和執行所需的龐大運算需求。由於 Google 自家的 AI 模型全靠 TPU 進行訓練,其晶片策略走向備受業界關注。
在今日舉行的 Trillium TPU 線上媒體聚會中,Google Cloud 產品群經理 Mohan Pichika 除了強調 Google 在 AI 領域的領先地位,更特別說明 Google「並非一家晶片硬體公司」,這也展現了 Google 有別於 NVIDIA、Intel 等傳統晶片大廠的策略思維:選擇將 TPU定位為企業 AI 運算方案中的一個關鍵選項,而非唯一解答。
今日媒體聚會上除了介紹歷代 TPU 產品,也更深入地解釋了第六代 Trillium 的性能表現等,稍早《INSIDE》已刊出相關報導。
為什麼 Mohan 要強調「Google 並非一家晶片硬體公司」?這是因為近來包括像是 NVIDIA、高通(Qualcomm)等都接連推出了像是迷你 AI 超級電腦 Project DIGITS 等以及 AI 本地裝置解決方案等,但可以肯定 Google 並不會推出類似的產品。
Mohan 指出,這是因為 Google 並非一家做晶片的公司,目前所發展的一切晶片策略,都是為了為客戶提供最佳的技術解決方案,也就是 Google 在 AI 硬體市場的定位其實是要提供一個完整的解決方案生態系統。
Mohan 強調,AI 工作負載沒有萬能(no one-size-fits-all)的解決方案,因此 Google Cloud 提供最廣泛的 AI 加速器選擇,讓客戶能夠靈活選擇最適合其需求的基礎架構。除了 TPU,Google Cloud 也提供 Intel、AMD 和 ARM 的 CPU,這些產品都經過最佳化設計,能夠滿足客戶在 AI 推論和訓練等方面日益增長的需求,以提供企業最大的運算彈性。
另一方面,Google 也持續與 NVIDIA 等 GPU 廠商合作,提供多元化的 AI 加速器產品組合。這也透露出 Google 其實是希望與現有晶片廠商合作,其策略核心並非是要與這些企業展開競爭。
在這之中,扮演重要角色的則是 Google 的 AI Hypercomputer 架構,可說是將這種靈活配置的理念具體化的核心。Mohan 表示,生成式 AI 浪潮的確帶動了 AI 加速器的需求,包括 AI21 Labs、Anthropic 等 AI 企業都在使用 TPU,不過他認為 TPU 的應用範圍仍會持續擴大,包括傳統機器學習模型、支援各種推薦系統等。
Mohan 觀察到,隨著機器學習模型不斷最佳化,傳統的 CPU 也逐漸在特定 AI 工作負載上展現實力。特別是在處理推薦系統和小型語言模型時,經過優化的 CPU 已能提供令人驚豔的效能表現。這顯示出不同類型的運算晶片都有其適用場景。他也預測,未來 AI 加速器和通用型運算晶片將會更緊密地結合,共同滿足客戶在 AI 領域的需求。
最後,在談到 AI 技術發展時,Mohan 指出這是一個快速演進的領域,模型架構不斷推陳出新,包括推理模型(reasoning models)以及 Mixture of Experts 等架構都在持續發展中。這些新興架構的出現,也凸顯出為什麼 Google 要在其 AI 基礎設施中提供多元的運算選項,以因應不同類型 AI 工作負載的需求。