產經情報

NeuReality:讓生成式AI更綠色永續!

日期:2024-06-27

人工智慧(AI)勢不可擋,開始滲透到人類社會的各方面。ChatGPT和類似的生成式AI工具出現後已風靡全球。儘管許多人對這些生成式AI工具的功能讚不絕口,但這些模型的環境成本和影響卻常常被忽視,特別是這些系統的開發和使用極其耗能,而其實體基礎設施也需要大量能源。

部署AI對於以CPU為中心的傳統運算架構帶來了巨大的技術挑戰。在基於軟體的管理和資料控制基礎上,資料必須在網路、CPU和深度學習加速器(DLA)之間多次來回移動。這就造成了平行指令之間的多重衝突,從而限制了DLA的利用率,浪費了寶貴的硬體資源,並增加了成本和功耗。

如何在利用AI優勢的同時減少其碳足跡?NeuReality執行長兼聯合創辦人Moshe Tanach在接受歐洲版《EE Times》採訪時表示,減少AI碳排放的關鍵在於簡化運作和提高效率。他認為,從以CPU為中心的資源密集型模型過渡到NeuReality以AI為中心的模型和晶片伺服器(server-on-a-chip)解決方案,可以降低成本、減少能耗並提高傳輸速率。
Anne-Françoise Pelé:推論AI到底是什麼?它與ChatGPT等大語言模型(LLM)的生成式AI有什麼關係?

Moshe Tanach:讓我來詳細解釋為什麼推論AI和NeuReality的特定技術系統關係到生成式AI和ChatGPT以及其他類似LLM的經濟可行性。

首先,任何神經網路模型都始終遵循底層架構,例如卷積神經網路(CNN)、遞迴神經網路(RNN)、長短期記憶(LSTM)以及現在用於LLM和生成式AI的Transformer模型(編碼器/解碼器)。有了它,你就可以在未來生成語言、影像和其他可能的事物。你想讓它運作多久都行,只需要給它新的情境或新的輸入。這就是為什麼在ChatGPT時,你會看到「重新生成」(regenerate)功能。因此,生成式AI是神經網路模型或AI類別的又一個例子。

其次,不管是哪一種神經網路模型,都必須經過訓練才能執行預定的任務。開發人員為其模型饋入一個精選的資料集後,它就能「學習」關於待其分析的資料類型所需的各種知識。ChatGPT (生成式預訓練Transformer)擅長分析和生成類人文本,主要使用網際網路的所有資料進行訓練。

一旦它使用了所有網際網路資料,並找到了不同字母和單詞之間的所有關聯點,所有的資料就會在ChatGPT內部形成結構。

第三,一旦它被凍結並使用新的情境或輸入,你就可以進行推論,也即使用已訓練模型的過程。為了理解推論,可以想像如何教人從聲音辦識樂器。一開始,你先彈吉他、小提琴和烏克麗麗,並解釋這些樂器如何發出不同的聲音。之後,當你介紹斑鳩琴時,他就可以推斷出它所發出的獨特聲音,正與吉他、小提琴和烏克麗麗都很相似,因為它們都是絃樂器。

NeuReality專注於推論階段,而不是訓練複雜的AI模型。我們為資料中心以AI為中心的推論創建了底層架構和技術堆疊,從而以更低的成本和能耗實現最佳性能,並使其易於使用和部署,讓所有企業都能從中受益。

Anne-Françoise Pelé:NeuReality的推論AI解決方案如何幫助解決生成式AI問題?

Moshe Tanach:想像一下每天在像ChatGPT這樣的LLM和其他類似的模型上進行數十億次AI查詢。

相較於傳統模型,針對這些AI查詢進行分類、分析和回答所需的電腦能力可說是天文

數字,而系統成本、效率不佳和碳排放也是如此。微軟(Microsoft)和OpenAI自己都公開表示,僅執行ChatGPT每天就要花費數百萬美元。

事實上,生成式AI所需的輸入比以通用CPU為中心的系統少10倍。NeuReality設計的網路可定址處理單元(NAPU)的執行功耗要低得多。因此,我們可以幫助公司節省資源,同時減輕全球能源系統的負擔——這在與IBM Research合作的測試案例中得到了驗證。

Anne-Françoise Pelé:減輕推論對於環境的影響——為什麼這對於在商業應用中有效推廣生成式AI模型至關重要?

Moshe Tanach:如同影像分類、自然語言處理、推薦系統和異常檢測模型等其他模型一樣,生成式AI受到以CPU為中心的架構的影響。

NeuReality正重塑推論AI,以滿足生成式AI和其他所有依賴推論的模型在當前和未來的需求,因而能在不耗費資金的情況下擴大規模。當一家公司依靠CPU來管理深度學習模型中的推論時,無論DLA有多強大,CPU都會達到一個最佳閾值。

相形之下,NeuReality的AI解決方案堆疊並不會不堪重負,並可在更低能耗的基礎上,高效率且有效地執行系統架構。

Anne-Françoise Pelé:訓練生成式AI模型的碳足跡是多少?

Moshe Tanach:NeuReality以AI為中心的架構採用了能效更高的NAPU,這是一種全新的客製AI晶片,大幅降低了功耗。

相形之下,當今的生成式AI和LLM因其高能耗和由此產生的碳排放而引發了嚴重的環境問題。分析師認為,單次AI查詢的碳足跡可能是一般搜尋引擎查詢的4到5倍。據估計,ChatGPT每天消耗117萬GPU小時,相當於15萬伺服器節點小時,每天排放約55噸CO2當量。這相當於一輛普通汽車生命週期的排放量,假設每日穩定使用時,每年累積起來相當於365輛汽車生命週期的排放量。

我想用三項研究來說明當今以CPU和GPU為中心的生成AI模型對環境造成的負面影響。

2019年,美國麻州大學阿默斯特分校(UMass Amherst)的研究人員對多個LLM進行了訓練,發現訓練一個AI模型會排放超過626,000磅(約283,948.59kg)的CO2——相當於五輛汽車生命週期的排放量——早在2019年,《麻省理工科技評論》(MIT Technology Review)即分享了這一資料。

最近的一項研究做了類似的比較。該研究報告稱,使用1,750億個參數訓練GPT-3消耗了1,287MWh的電力,導致了502噸碳的碳排放量。這相當於駕駛112輛汽油動力車一整年。此外,微軟也概述了Azure實例的運算成本。

Anne-Françoise Pelé:如何才能讓這些模型比其前一代的性能更強,但又不至於對環境造成嚴重的衝擊?

Moshe Tanach:我們對於建構更高性能、更低成本且能減少碳足跡的推論AI解決方案有著強烈且迫切的需求。這必須滿足各種條件而非選擇題,如此才能讓生成式AI以及在欺詐檢測、翻譯服務、聊天機器人等各種AI應用滿足當前和未來的永續需求。

目前的基礎設施主要存在兩個方面的不足:

.系統架構使用非AI專用硬體,因此無法完成推論伺服器的實際工作;

.儘管深度學習模型將軟體卸載到硬體上,但仍有太多周邊功能執行於軟體上,因而並未完全卸載到提高能效所需的程度。

這些系統缺陷降低了目前所使用的GPU和DLA利用率,而欠缺效率造成更嚴重的能源消耗,進而衝擊環境。

NeuReality讓這些模型以更低的價格更有效地執行,同時減少對環境的影響。我們為AI設計了系統架構,而不是修改舊架構。新的NAPU將剩餘的運算功能卸載到成本和功耗較低的Arm核心上。透過消除CPU瓶頸,我們還提高了DLA的利用率。

當所有的因素都加在一起時,就可以讓以AI為中心的解決方案更有效地運作,同時也不會對環境造成更嚴重的影響。

Anne-Françoise Pelé:執行推論的碳足跡是多少?

Moshe Tanach:讓我們以Google為例——擁有龐大的資料中心,必須處理從Google Search到Google Bard的各種任務。根據2022年2月的Google Research資料,在過去三年中,機器學習訓練和推論每年僅佔Google總能耗的10~15%。而且,每年約有2/5用於訓練,3/5用於推論。根據Statista以及Google內部統計,Google的總能耗也在逐年增加,其他擁有大型資料中心的巨頭也是如此。機器學習的工作負載成長尤其迅速,每次訓練執行的運算量亦然。

雖然AI推論在總能耗中所佔的比例較小,但在支援耗電的生成式AI應用程式(App)方面卻越來越受歡迎。選擇合適的高能效基礎設施來最佳化模型,並實施軟體工具和演算法以減少推論過程中的運算工作量,這一點至關重要。這正是NeuReality在2023年底推出新型NR1後的重要任務。

Anne-Françoise Pelé:如何以永續的推論來實現更綠色的生成式AI?有哪些選擇?

Moshe Tanach:NeuReality在三年前開始這一旅程時就有此先見之明了。我們要解決的問題是如何在系統級設計最好的AI技術,以及如何設計出適合推論AI的軟體工具,以滿足其日益成長的需求。

努力實現高性能、可負擔和易用的AI,同時減少對環境的影響,應該成為更廣泛的永續發展策略之一部份。同時,在這一策略中,大大小小的企業都要考慮其AI模型在整個生命週期中對環境的影響。

為此需要權衡多個因素,包括用於訓練和推論的高能效硬體,特別是GPU、TPU以及專為以更高能效執行AI工作負載而設計的客製DLA。

當然,NeuReality也知道這些晶片並非最佳選擇,因此提供了一個具有更低能耗的小型模型作為替代方案。

Anne-Françoise Pelé:NeuReality成立於2019年,旨在開發新一代AI推論解決方案,擺脫以CPU為中心的傳統架構,實現高性能、低延遲和高能效。為什麼必須為以CPU為中心的推論AI架構開發替代方案?

Moshe Tanach:現在,執行ChatGPT每天至少需要70萬美元,因為底層架構並不是為推論而打造的(ChatGPT現可以瀏覽網際網路,且不再受限於2021年9月之前的資訊,而NeuReality的推論能力更強)。ChatGPT實在太昂貴、太耗能,而且很可能遲早會達到性能上限。

我們的解決方案堆疊專為各種形式的AI推論而設計,無論是雲端運算、虛擬實境、深度學習、網路安全還是自然語言處理。這一市場和我們的客戶迫切需要讓生成式AI更有利潤,而NeuReality能以極低的成本提供10倍的性能,換句話說,每天只需20萬美元,而不是100萬美元。

NeuReality解決了當今的挑戰,從經濟上來看,提高了客戶總價值或整體擁有成本;而在環境上,實現了更低功耗和更少的碳足跡。我們以AI為中心的架構之所以與眾不同,主要是因為它考慮到四個模型特徵:

.強化資料的移動和處理;

.強化目前在軟體和CPU中執行的排列——因而強化了我們的AI管理程式;

.在用戶端和伺服器之間建立高效的資料管理網路;

.結合解碼器、DSP、DLA和Arm處理器的異質運算,所有這些都為高效執行進行了最佳化和擴展,以確保DLA的持續利用,並輔以多功能多用途的處理器。

這些功能內建於NeuReality的AI解決方案堆疊中,以降低每次推論作業的能耗,從而使其成為一種更綠色且高效的方法。

Anne-Françoise Pelé:NeuReality聲稱以AI為中心的系統級方法簡化了大規模執行AI推論的過程。這是如何做到的?如何降低能耗?

Moshe Tanach:NeuReality與IBM研究人員合作,共同測試我們的推論AI解決方案。結果顯示,相較於以CPU伺服器為基礎的傳統解決方案,我們的方案性能提高了10倍。從時間和資源密集型CPU轉向NeuReality的NAPU還能降低成本和功耗,這對營收、成本管理和環境都有好處。

結合許多因素的共同作用, 讓NeuReality的系統架構得以降低了能耗:

.NAPU實現了AI運算資源配置的分解和相容,只在需要時才使用資源,利用率達到100%;

.執行完整的AI任務管線(而不僅僅是DLA模型),可將密集型任務卸載到NR1硬體上,與異質運算引擎(而非軟體APP)平行處理,從而使我們的解決方案更具能效;

.減少推論時間——透過硬體卸載實現並降低推論延遲,可使其適用於即時或低延遲應用。

Anne-Françoise Pelé:您能說明NeuReality的未來願景和抱負?公司目前的狀況如何?

Moshe Tanach:簡而言之,NeuReality的目標是讓AI變得簡單。我們的終極願景在於建立一個綠色永續的AI數位世界,讓我們在此實現民主化AI並透過AI技術加速人類的成就。

我們是一家年輕的公司,未來的願景是讓所有創新者都能使用AI,協助他們治療疾病、改善公共安全,並將更多AI的創新想法付諸實踐。

如今,我們擁有真正的產品和合作夥伴,也形成了一條價值鏈,協助我們將產品推向市場。過去三年來,我們的團隊努力製作NR1-P原型,並設計出全新的NR1晶片,目前已完成驗證並採用台積電(TSMC)技術製造,現正出貨中。

我們的推論AI解決方案還包括另外三個組成:

.NRI-M模組是一款全高雙寬PCIe卡,包含一個NR1晶片和一個網路附加推論服務,可連接到外部DLA;

.NR1-S推論伺服器是帶有NR1-M模組和NR1晶片的推論伺服器原型設計,可實現真正的分解式AI服務。該系統不僅成本更低,能效比高達50倍,而且不需要IT人員為企業最終用戶實施;

.我們還開發了軟體工具和API,以簡化開發、部署和管理我們的AI介面。

NeuReality更大的願景是讓AI在經濟和環境上永續發展。我們打算透過豐富的系統工程專業知識,不斷地預測和建構未來。隨著我們與技術領域內外的客戶和合作夥伴保持同步,如今已開始設計並建構未來一年、三年、五年或十年所需的技術基礎設施和系統。

(參考原文:How to Make Generative AI Greener,by Anne-Françoise Pelé)