實體 AI(Physical AI),也就是機器人,將如何引爆 AI 下一波商機?NVIDIA 負責主導機器人研發的 AI 總監 Jim Fan,在紅杉資本 AI 峰會「AI Ascent 2025」演講分享 NVIDIA 對於實體 AI 現況與未來的最新觀察,當中提出「實體圖靈測試(Physical Turing Test)」的概念,並深度解釋「模擬」技術演變,將如何啟動 AI 機器人的未來。
什麼是「實體圖靈測試」?
圖靈測試是英國電腦科學家艾倫·圖靈提出的思想實驗,是一種檢驗機器是否具備「智慧」的概念性測試。而 Jim Fan 提出「實體圖靈測試(Physical Turing Test)」,意指當你無法分辨一個實體任務,是由人類還是機器人完成時,就算通過了測試。不過,Fan 認為 AI 大型語言模型似乎已經悄然通過圖靈測試,但實體 AI 領域仍面臨巨大挑戰。
首先,他提到,語言模型的研究人員抱怨數據快用完了,將網際網路比喻為 AI 的「化石燃料」,然而在機器人領域,「我們甚至連『化石燃料』都沒有。」與語言模型可以從海量網路數據中學習不同,實體機器人所需的數據,例如關節控制訊號,是連續且隨時間變化的,無法從網路上抓取。收集這種數據非常昂貴且緩慢,通常需要人類透過遠端操作來示範,被 Fan 比喻為燃燒「人類燃料」,效率極低且難以擴展。
為了克服機器人訓練資料收集的瓶頸,NVIDIA 一直以來提倡「模擬(Simulation)」技術作為加速實體 AI 訓練的解方,Fan 也提出相同說法,不過,他更進一步說明模擬技術的發展階段,甚至將之視為機器人領域的核能級解方。
從「模擬 1.0」、「模擬 1.x」到「模擬 2.0」
Fan 解釋,其核心概念是讓機器人在「模擬」環境中進行訓練,其中一個想法是,模擬必須比真實時間快 10,000 倍──這代表在單一 GPU 上,應該有 10,000 個環境並行運行,進行物理模擬;另一個想法是這 10,000 個環境不能完全相同,還必須改變一些參數,例如重力、摩擦力和重量,這被稱為領域隨機化(domain randomization)。
模擬 1.0:數位分身(Digital Twin)
值得關注的是,領域隨機化的原理是,如果一個神經網路能夠控制機器人解決一百萬個不同的世界中的任務,那麼它很有可能也能解決「第一百萬零一」個。這類方法稱為「數位分身」或「模擬 1.0」,意指在虛擬環境中一比一建構實體世界,再將訓練完成的模型直接應用於現實場景。透過此方法,人形機器人可以在 2 小時的模擬時間,學習十年的步行數據。
然而,Fan 表示,模擬 1.0 的缺點是需要建造一個數位分身、需要有人建造機器人模型、建造環境等,是非常繁瑣和手動的過程。
模擬 1.x:數位表親(Digital Cousin)
為了解決數位分身的擴展問題,NVIDIA 下一步是開始「生成部分模擬內容」,運用各種生成式 AI 模型──所有的 3D 資產都可以由 3D 生成模型生成;所有的紋理可以由 Stable Diffusion 或其他擴散模型生成;所有的場景佈局可以由 PRM(Probabilistic Roadmap Method)和語言模型生成。
為了把這些生成內容組合再一起,NVIDIA 建立了一個名為 Robocast 的框架。在這個框架中,除了機器人本身,所有東西都是生成的。Fan 表示,Robocast 模擬產生的場景,例如紋理,可能還不完全真實,但已經「夠接近」真實,他將之稱為「數位表親(digital cousin)」──捕捉了正確的特性,但不是完全的數位分身。
模擬 2.0:數位遊牧者(Digital Nomad)
不過模擬 1.x 多樣性仍然受到人工設計系統的根本限制,Fan 提到另一項重大突破──基於影片生成模型的模擬技術。他表示,傳統圖形模擬複雜場景(如軟體物體、流體)需要非常長的時間,而影片生成模型如 Sora、 VOs 等擴散模型技術,在模擬可變形物體方面,僅發展一年時間就取得了長足進步。
Fan 在演講展示了一個例子:一段看起來非常逼真的機器人操作物體影片,其實沒有一個是真實的像素,而是完全由客製化模型生成。他表示,根據不同的語言提示,生成的影片會執行不同的動作,即使這個動作從未在現實世界中發生過。
舉例來說,即使真實硬體可能不支援用正確的手抓取物體並放入籃子,甚至彈奏烏克麗麗,影片生成模型則能做到具有高度多樣性。Fan 指出,影片擴散模型將數億個網路影片壓縮成一種「模擬多元宇宙」,開發者可以在這個「夢境空間」讓機器人操作任何任務,和各種物體互動。Jim Fan 將這稱為「模擬 2.0」或「數位遊牧者」。
數位遊牧者這種模擬技術,目前可能運行得較慢,但 Fan 指出,這代表另一個技術途徑:神經世界模型(neural world models)──這種模型的性能,可以隨著運算資源呈現指數成長,且因為不須手動建立每個物體,在複雜度和多樣性上最終將超越典型的圖形工程師。
Fan 強調,將模擬 1.x 和模擬 2.0 兩個技術路徑結合,將成為擴展下一代機器人的「核動」。
當解決實體 AI,下一步是發展實體 API
「那麼接下來呢,在我們解決實體 AI 之後,我們要往哪裡去?我會說下一件事情是實體 API。」Jim Fan 認為,像語言模型 API(LM API)能夠移動大量的數位位元一樣,實體 API 的作用在於移動大量的原子,基本上是賦予軟體一個實體的致動器(physical actuator),用來改變實體世界。
Fan 進一步提出,實體 API 將催生一個新的經濟體系,包含如何向機器人發出指令的「實體提示(Physical prompting)」、實體應用程式商店(Physical app store),以及新的技能經濟。例如,米其林主廚可以訓練機器人,以服務形式提供米其林級晚餐。
讓機器人走入生活的最終目標,Fan 預期當人們購買並使用機器人時,機器人會融入背景,就像一種環境智慧(ambient intelligence),甚至不會讓人注意到機器人通過「實體圖靈測試」的那一刻,「那一天只會被記作又是一個星期二。」