AI 模型發展漸趨多元,除了大型語言模型、小型語言模型,被稱為世界模擬器(world simulators)的「世界模型(world models)」,正被視為 AI 下個重點發展之一。
2024 年,AI 先驅電腦科學家李飛飛的空間智慧新創 World Labs,已募集 2 輪資金要打造「大世界模型」,目前估值 10 億美元;Google DeepMind 則挖角 OpenAI 的影像生成模型 Sora 負責人之一建構「世界模擬器」;OpenAI 也將 Sora 描述為世界模型。
究竟世界模型是什麼?為什麼越來越受歡迎?
讓 AI 擁有對真實世界的理解
AI 世界模型受到人類心智模型的啟發──人類大腦會從感官獲取資訊,藉此形成對周圍世界更具體的理解。
AI 研究者 David Ha 和 Jürgen Schmidhuber 在一篇論文舉例,棒球打擊手之所以能打出時速 100 英里的快球,是因為他們可以「本能地」預測球的方向,而這一切是在潛意識中推理、發生──他們的肌肉根據大腦模型的預測,在正確的時間、位置反射性揮棒。有觀點認為,心智模型是人類擁有智慧的先決條件。
AI 世界模型作為一種 AI 系統,也依循相同路徑。根據 AI 新創 runway,AI 世界模型能針對外部環境建構內部提示,再依據這些提示模擬出環境的未來事件;世界模型的目標,是模擬出和真實世界一模一樣的狀況。
世界模型為何成為焦點?
事實上,世界模型的概念已經存在十幾年,但漸受歡迎的原因之一是 AI 生成影片的興起。
《TechCrunch》觀察,目前多數 AI 生成的影片內容仍有恐怖谷現象,例如將四肢呈現得扭曲或相互融合。此外,生成式 AI 模型雖然經過多年的影像訓練,對於籃球彈跳方向等物理運作或許可以準確預測,但實際上並不知道籃球為何會彈跳。
相較之下,擁有 3D 世界認知的世界模型,可以更好地呈現籃球彈跳的效果。而為了讓 AI 實現這種洞察力,世界模型接受一系列的資料訓練,包含照片、音訊、影像和文字。
世界模型的潛力,不只在生成影片。Meta 首席 AI 科學家楊立昆等研究人員表示,世界模型有一天可以用在數位和實體領域的複雜預測和規劃。World Labs 聯合創辦人 Justin Johnson 則表示,世界模型未來可以根據遊戲、虛擬攝影等需求生成虛擬的 3D 世界。
對於開發者來說,有了強大的世界模型,就不需要定義每一個物件的移動方式──這通常是乏味、麻煩且浪費時間的任務。Snap 前 AI 主管兼 Higgsfield 執行長 Alex Mashrabov 向媒體表示,有了先進的世界模型,AI 就可以對身處的任何場景產生自我理解,並開始推理出可能的解決方案。
世界模型要跨越的 3 道高牆
世界模型的概念雖然很誘人,但仍面臨許多技術挑戰。楊立昆在 2024 年一場演講就坦言,要實現他心目中的世界模型,至少還有 10 年時間。
根據外媒分析,世界模型遇到的障礙,也是目前 AI 模型發展困境的縮影。首先,訓練和運行世界模型需要大量的運算能力──光是被視為早期世界模型的 Sora,就需要數千個 GPU。
此外,世界模型也會產生幻覺,並將偏誤內化到訓練資料中。舉例來說,根據歐洲城市晴天影片進行訓練的視訊模型,可能難以理解或描繪下雪的韓國城市,或直接產出不正確的內容。
要解決這項問題,世界模型的訓練資料必須足夠廣泛,除了要涵蓋各種不同的場景,也必須非常具體,讓 AI 能深入理解不同場景的細微差別。然而,目前 AI 發展也面臨資料匱乏的危機。Epoch AI 預估,到 2026 年至 2032 年間,開發人員將耗盡用於訓練生成式 AI 模型的資料。
不過,世界模型仍極具吸引力。Mashrabov 表示,如果障礙被一一克服,世界模型可以「更強有力地」連結 AI 與現實世界——不只在生成虛擬世界上取得突破,在機器人和 AI 決策方面也能有重大進展。