Nvidia於CES發表全新Cosmos平臺,加速實體人工智慧(Physical AI),特別是機器人和自動駕駛領域的發展。Cosmos集結了先進的生成式世界基礎模型、高效能視覺分詞器(Tokenizer)、安全性防護機制以及影片處理工作管線,提供相關領域開發者強大的開發工具。
過去實體人工智慧的發展始終受限於高昂的開發成本、龐大的資料需求以及繁瑣的測試流程。Nvidia現在推出Cosmos平臺,期望大幅解決這些問題,降低技術門檻,讓更多開發者能夠跨進實體人工智慧開發領域。Cosmos平臺的核心則是Cosmos世界基礎模型(World Foundation Model,WFM),這些模型能夠生成基於物理原理且極為逼真的合成資料,提供機器人和自動駕駛系統訓練與測試所需的模擬環境。同時,開發者還可利用自身的資料集,對這些模型進行微調,以符合特定應用需求。
Nvidia執行長黃仁勳在CES演講提到,Cosmos是第一個世界基礎模型,他們利用2,000萬小時的影片資料訓練,專注於捕捉物理動態物體,從自然景象到人類行為,這些影片涵蓋了行走、手部動作,甚至快速相機運動等主題,教導人工智慧理解真實世界中的動態變化,進而讓人工智慧能夠更精確地模擬和預測物理世界的行為。
除了強大的世界基礎模型之外,Cosmos還整合了部分Nvidia特有的技術。其中,採用Nvidia Cosmos Tokenizer作為視覺分詞器,能將影像與影片高效轉換成電腦可處理的Token,Nvidia指出,Nvidia Cosmos Tokenizer與目前最先進的編碼器相比,總壓縮率提高至8倍,處理速度則提升為12倍。
此外,藉由Nvidia NeMo Curator提供的影片處理加速工作管線,開發者可在短時間內處理並標記大量的影片資料,短短14天的時間處理、整理和標記2,000萬小時的影片資料,而傳統僅使用CPU的處理方式則需要三年多的時間。Nvidia強調,Cosmos平臺的效能相較於傳統僅使用CPU的處理方式,有著大幅度提升,可縮短開發周期。
Nvidia採用開放模型授權的方式,鼓勵產業共同參與,目前已有機器人和汽車等多家公司採用Cosmos技術,包涵1X、Agile Robots、Agility、Figure AI、Foretellix,叫車服務Uber也與Nvidia合作,透過結合豐富的駕駛資料與Cosmos平臺,及Nvidia DGX Cloud運算能力,助自動駕駛產業的合作夥伴高效建立人工智慧模型。