產經情報

字級設定：
大
中
小
收藏
.
.

NeuReality：讓生成式AI更綠色永續！

日期：2024-06-27

人工智慧(AI)勢不可擋，開始滲透到人類社會的各方面。ChatGPT和類似的生成式AI工具出現後已風靡全球。儘管許多人對這些生成式AI工具的功能讚不絕口，但這些模型的環境成本和影響卻常常被忽視，特別是這些系統的開發和使用極其耗能，而其實體基礎設施也需要大量能源。

部署AI對於以CPU為中心的傳統運算架構帶來了巨大的技術挑戰。在基於軟體的管理和資料控制基礎上，資料必須在網路、CPU和深度學習加速器(DLA)之間多次來回移動。這就造成了平行指令之間的多重衝突，從而限制了DLA的利用率，浪費了寶貴的硬體資源，並增加了成本和功耗。

如何在利用AI優勢的同時減少其碳足跡？NeuReality執行長兼聯合創辦人Moshe Tanach在接受歐洲版《EE Times》採訪時表示，減少AI碳排放的關鍵在於簡化運作和提高效率。他認為，從以CPU為中心的資源密集型模型過渡到NeuReality以AI為中心的模型和晶片伺服器(server-on-a-chip)解決方案，可以降低成本、減少能耗並提高傳輸速率。
Anne-Françoise Pelé：推論AI到底是什麼？它與ChatGPT等大語言模型(LLM)的生成式AI有什麼關係？

Moshe Tanach：讓我來詳細解釋為什麼推論AI和NeuReality的特定技術系統關係到生成式AI和ChatGPT以及其他類似LLM的經濟可行性。

首先，任何神經網路模型都始終遵循底層架構，例如卷積神經網路(CNN)、遞迴神經網路(RNN)、長短期記憶(LSTM)以及現在用於LLM和生成式AI的Transformer模型(編碼器/解碼器)。有了它，你就可以在未來生成語言、影像和其他可能的事物。你想讓它運作多久都行，只需要給它新的情境或新的輸入。這就是為什麼在ChatGPT時，你會看到「重新生成」(regenerate)功能。因此，生成式AI是神經網路模型或AI類別的又一個例子。

其次，不管是哪一種神經網路模型，都必須經過訓練才能執行預定的任務。開發人員為其模型饋入一個精選的資料集後，它就能「學習」關於待其分析的資料類型所需的各種知識。ChatGPT (生成式預訓練Transformer)擅長分析和生成類人文本，主要使用網際網路的所有資料進行訓練。

一旦它使用了所有網際網路資料，並找到了不同字母和單詞之間的所有關聯點，所有的資料就會在ChatGPT內部形成結構。

第三，一旦它被凍結並使用新的情境或輸入，你就可以進行推論，也即使用已訓練模型的過程。為了理解推論，可以想像如何教人從聲音辦識樂器。一開始，你先彈吉他、小提琴和烏克麗麗，並解釋這些樂器如何發出不同的聲音。之後，當你介紹斑鳩琴時，他就可以推斷出它所發出的獨特聲音，正與吉他、小提琴和烏克麗麗都很相似，因為它們都是絃樂器。

NeuReality專注於推論階段，而不是訓練複雜的AI模型。我們為資料中心以AI為中心的推論創建了底層架構和技術堆疊，從而以更低的成本和能耗實現最佳性能，並使其易於使用和部署，讓所有企業都能從中受益。

Anne-Françoise Pelé：NeuReality的推論AI解決方案如何幫助解決生成式AI問題？

Moshe Tanach：想像一下每天在像ChatGPT這樣的LLM和其他類似的模型上進行數十億次AI查詢。

相較於傳統模型，針對這些AI查詢進行分類、分析和回答所需的電腦能力可說是天文

數字，而系統成本、效率不佳和碳排放也是如此。微軟(Microsoft)和OpenAI自己都公開表示，僅執行ChatGPT每天就要花費數百萬美元。

事實上，生成式AI所需的輸入比以通用CPU為中心的系統少10倍。NeuReality設計的網路可定址處理單元(NAPU)的執行功耗要低得多。因此，我們可以幫助公司節省資源，同時減輕全球能源系統的負擔——這在與IBM Research合作的測試案例中得到了驗證。

Anne-Françoise Pelé：減輕推論對於環境的影響——為什麼這對於在商業應用中有效推廣生成式AI模型至關重要？

Moshe Tanach：如同影像分類、自然語言處理、推薦系統和異常檢測模型等其他模型一樣，生成式AI受到以CPU為中心的架構的影響。

NeuReality正重塑推論AI，以滿足生成式AI和其他所有依賴推論的模型在當前和未來的需求，因而能在不耗費資金的情況下擴大規模。當一家公司依靠CPU來管理深度學習模型中的推論時，無論DLA有多強大，CPU都會達到一個最佳閾值。

相形之下，NeuReality的AI解決方案堆疊並不會不堪重負，並可在更低能耗的基礎上，高效率且有效地執行系統架構。

Anne-Françoise Pelé：訓練生成式AI模型的碳足跡是多少？

Moshe Tanach：NeuReality以AI為中心的架構採用了能效更高的NAPU，這是一種全新的客製AI晶片，大幅降低了功耗。

相形之下，當今的生成式AI和LLM因其高能耗和由此產生的碳排放而引發了嚴重的環境問題。分析師認為，單次AI查詢的碳足跡可能是一般搜尋引擎查詢的4到5倍。據估計，ChatGPT每天消耗117萬GPU小時，相當於15萬伺服器節點小時，每天排放約55噸CO2當量。這相當於一輛普通汽車生命週期的排放量，假設每日穩定使用時，每年累積起來相當於365輛汽車生命週期的排放量。

我想用三項研究來說明當今以CPU和GPU為中心的生成AI模型對環境造成的負面影響。

2019年，美國麻州大學阿默斯特分校(UMass Amherst)的研究人員對多個LLM進行了訓練，發現訓練一個AI模型會排放超過626,000磅(約283,948.59kg)的CO2——相當於五輛汽車生命週期的排放量——早在2019年，《麻省理工科技評論》(MIT Technology Review)即分享了這一資料。

最近的一項研究做了類似的比較。該研究報告稱，使用1,750億個參數訓練GPT-3消耗了1,287MWh的電力，導致了502噸碳的碳排放量。這相當於駕駛112輛汽油動力車一整年。此外，微軟也概述了Azure實例的運算成本。

Anne-Françoise Pelé：如何才能讓這些模型比其前一代的性能更強，但又不至於對環境造成嚴重的衝擊？

Moshe Tanach：我們對於建構更高性能、更低成本且能減少碳足跡的推論AI解決方案有著強烈且迫切的需求。這必須滿足各種條件而非選擇題，如此才能讓生成式AI以及在欺詐檢測、翻譯服務、聊天機器人等各種AI應用滿足當前和未來的永續需求。

目前的基礎設施主要存在兩個方面的不足：

．系統架構使用非AI專用硬體，因此無法完成推論伺服器的實際工作；

．儘管深度學習模型將軟體卸載到硬體上，但仍有太多周邊功能執行於軟體上，因而並未完全卸載到提高能效所需的程度。

這些系統缺陷降低了目前所使用的GPU和DLA利用率，而欠缺效率造成更嚴重的能源消耗，進而衝擊環境。

NeuReality讓這些模型以更低的價格更有效地執行，同時減少對環境的影響。我們為AI設計了系統架構，而不是修改舊架構。新的NAPU將剩餘的運算功能卸載到成本和功耗較低的Arm核心上。透過消除CPU瓶頸，我們還提高了DLA的利用率。

當所有的因素都加在一起時，就可以讓以AI為中心的解決方案更有效地運作，同時也不會對環境造成更嚴重的影響。

Anne-Françoise Pelé：執行推論的碳足跡是多少？

Moshe Tanach：讓我們以Google為例——擁有龐大的資料中心，必須處理從Google Search到Google Bard的各種任務。根據2022年2月的Google Research資料，在過去三年中，機器學習訓練和推論每年僅佔Google總能耗的10~15%。而且，每年約有2/5用於訓練，3/5用於推論。根據Statista以及Google內部統計，Google的總能耗也在逐年增加，其他擁有大型資料中心的巨頭也是如此。機器學習的工作負載成長尤其迅速，每次訓練執行的運算量亦然。

雖然AI推論在總能耗中所佔的比例較小，但在支援耗電的生成式AI應用程式(App)方面卻越來越受歡迎。選擇合適的高能效基礎設施來最佳化模型，並實施軟體工具和演算法以減少推論過程中的運算工作量，這一點至關重要。這正是NeuReality在2023年底推出新型NR1後的重要任務。

Anne-Françoise Pelé：如何以永續的推論來實現更綠色的生成式AI？有哪些選擇？

Moshe Tanach：NeuReality在三年前開始這一旅程時就有此先見之明了。我們要解決的問題是如何在系統級設計最好的AI技術，以及如何設計出適合推論AI的軟體工具，以滿足其日益成長的需求。

努力實現高性能、可負擔和易用的AI，同時減少對環境的影響，應該成為更廣泛的永續發展策略之一部份。同時，在這一策略中，大大小小的企業都要考慮其AI模型在整個生命週期中對環境的影響。

為此需要權衡多個因素，包括用於訓練和推論的高能效硬體，特別是GPU、TPU以及專為以更高能效執行AI工作負載而設計的客製DLA。

當然，NeuReality也知道這些晶片並非最佳選擇，因此提供了一個具有更低能耗的小型模型作為替代方案。

Anne-Françoise Pelé：NeuReality成立於2019年，旨在開發新一代AI推論解決方案，擺脫以CPU為中心的傳統架構，實現高性能、低延遲和高能效。為什麼必須為以CPU為中心的推論AI架構開發替代方案？

Moshe Tanach：現在，執行ChatGPT每天至少需要70萬美元，因為底層架構並不是為推論而打造的(ChatGPT現可以瀏覽網際網路，且不再受限於2021年9月之前的資訊，而NeuReality的推論能力更強)。ChatGPT實在太昂貴、太耗能，而且很可能遲早會達到性能上限。

我們的解決方案堆疊專為各種形式的AI推論而設計，無論是雲端運算、虛擬實境、深度學習、網路安全還是自然語言處理。這一市場和我們的客戶迫切需要讓生成式AI更有利潤，而NeuReality能以極低的成本提供10倍的性能，換句話說，每天只需20萬美元，而不是100萬美元。

NeuReality解決了當今的挑戰，從經濟上來看，提高了客戶總價值或整體擁有成本；而在環境上，實現了更低功耗和更少的碳足跡。我們以AI為中心的架構之所以與眾不同，主要是因為它考慮到四個模型特徵：

．強化資料的移動和處理；

．強化目前在軟體和CPU中執行的排列——因而強化了我們的AI管理程式；

．在用戶端和伺服器之間建立高效的資料管理網路；

．結合解碼器、DSP、DLA和Arm處理器的異質運算，所有這些都為高效執行進行了最佳化和擴展，以確保DLA的持續利用，並輔以多功能多用途的處理器。

這些功能內建於NeuReality的AI解決方案堆疊中，以降低每次推論作業的能耗，從而使其成為一種更綠色且高效的方法。

Anne-Françoise Pelé：NeuReality聲稱以AI為中心的系統級方法簡化了大規模執行AI推論的過程。這是如何做到的？如何降低能耗？

Moshe Tanach：NeuReality與IBM研究人員合作，共同測試我們的推論AI解決方案。結果顯示，相較於以CPU伺服器為基礎的傳統解決方案，我們的方案性能提高了10倍。從時間和資源密集型CPU轉向NeuReality的NAPU還能降低成本和功耗，這對營收、成本管理和環境都有好處。

結合許多因素的共同作用，讓NeuReality的系統架構得以降低了能耗：

．NAPU實現了AI運算資源配置的分解和相容，只在需要時才使用資源，利用率達到100%；

．執行完整的AI任務管線(而不僅僅是DLA模型)，可將密集型任務卸載到NR1硬體上，與異質運算引擎(而非軟體APP)平行處理，從而使我們的解決方案更具能效；

．減少推論時間——透過硬體卸載實現並降低推論延遲，可使其適用於即時或低延遲應用。

Anne-Françoise Pelé：您能說明NeuReality的未來願景和抱負？公司目前的狀況如何？

Moshe Tanach：簡而言之，NeuReality的目標是讓AI變得簡單。我們的終極願景在於建立一個綠色永續的AI數位世界，讓我們在此實現民主化AI並透過AI技術加速人類的成就。

我們是一家年輕的公司，未來的願景是讓所有創新者都能使用AI，協助他們治療疾病、改善公共安全，並將更多AI的創新想法付諸實踐。

如今，我們擁有真正的產品和合作夥伴，也形成了一條價值鏈，協助我們將產品推向市場。過去三年來，我們的團隊努力製作NR1-P原型，並設計出全新的NR1晶片，目前已完成驗證並採用台積電(TSMC)技術製造，現正出貨中。

我們的推論AI解決方案還包括另外三個組成：

．NRI-M模組是一款全高雙寬PCIe卡，包含一個NR1晶片和一個網路附加推論服務，可連接到外部DLA；

．NR1-S推論伺服器是帶有NR1-M模組和NR1晶片的推論伺服器原型設計，可實現真正的分解式AI服務。該系統不僅成本更低，能效比高達50倍，而且不需要IT人員為企業最終用戶實施；

．我們還開發了軟體工具和API，以簡化開發、部署和管理我們的AI介面。

NeuReality更大的願景是讓AI在經濟和環境上永續發展。我們打算透過豐富的系統工程專業知識，不斷地預測和建構未來。隨著我們與技術領域內外的客戶和合作夥伴保持同步，如今已開始設計並建構未來一年、三年、五年或十年所需的技術基礎設施和系統。

(參考原文：How to Make Generative AI Greener，by Anne-Françoise Pelé)