產經情報

DeepMind運用大型基礎模型自動控制機器人

日期:2024-01-16

DeepMind揭露一系列機器人研究的最新進展,在Robotics Transformers(RT)基礎上發展AutoRT、SARA-RT和RT-Trajectory系統,讓機器人可以更快地做決策,並且能理解世界,在環境中順利導航。

機器人能接受「整理房子」、「烹調一頓美味健康的飯菜」等人類口語指令,就完成工作,需要對世界有高度的了解。依據機器人所需要具備的能力,DeepMind開發多項重要系統,首先是結合大型基礎模型的AutoRT。AutoRT將大型語言模型和視覺語言模型等大型基礎模型,與機器人控制模型RT-1或RT-2結合,創建一個可以在新環境中部署機器人,並收集訓練資料的系統。

也就是說,AutoRT藉由運用大型基礎模型所提供的語言和視覺處理能力,結合機器人控制技術,使機器人能夠自動進入並適應未知環境,進一步收集對學習和功能改進有用的資料。

AutoRT能夠同時指揮多個機器人,每個機器人都搭載攝影機和末端執行器(End Effector),在一系列配置中執行不同的任務。對於每個機器人,系統會使用視覺語言模型來了解環境和視線中的物體,而大型語言模型則會建議機器人執行具創造性的任務,像是將零食放回臺面,其扮演決策者的角色,替機器人選擇合適的任務來執行。

AutoRT系統經過7個月的實驗,可同時控制不同大樓中的20多個機器人,共可控制超過52種獨特機器人,已收集包括6,650個獨特任務的77,000次機器人試驗等多樣化資料。而雖然AutoRT是一個資料收集系統,但也是現實世界中自動機器人的展示,研究人員也為其設計安全護欄,參考作家Isaac Asimov在其機器人相關小說中設定的機器人三定律,最重要的第一條定律不得傷害人類,並進一步延伸限制機器人不得執行涉及人類、動物、尖銳物品和電器等相關任務。

雖然有這道規則,但研究人員仍擔心無法保證機器人安全性,因此AutoRT還實施多道安全措施,像是協作機器人的關節受力在超過閾值時會自動停止,並且所有活動機器人都受人類監控,人類可以隨時按下物理開關停止機器人。

此外,DeepMind研究人員也開發了一個新系統SARA-RT,可將Robotics Transformers模型轉換成為更為高效的版本。研究人員將其應用在最新的機器人控制系統RT-2,在看過簡短的影像歷史紀錄之後,SARA-RT-2模型的準確度比RT-2提升10.6%,速度更是快上14%。而這也是第一個可擴展的注意力機制,可以在不損失品質的情況下改進運算效率。

研究人員解釋,傳統Transformers架構主要的限制,在於其運算需求高,因此會減慢機器人的決策過程。SARA-RT透過一種稱為向上訓練(Up-training)的模型微調方法,使模型更有效率,將注意力模型的平方複雜度降為線性複雜度,大幅降低運算要求,不僅提高原始模型的速度,還保留其品質。

DeepMind第3種機器人創新技術則是RT-Trajectory,RT-Trajectory為一種機器人訓練模型,可以透過在訓練影片中自動加入機器人動作的視覺輪廓,來提高機器人的任務理解和執行能力,RT-Trajectory將機器人手臂的夾持器動作,轉化成為二維軌跡草圖,以RGB圖像形式展示,替機器人提供實際的動作提示,進而改善其學習和控制策略。

在未曾出現於訓練資料中的41項任務進行測試,RT-Trajectory控制的機器人手臂表現,較最先進的模型提高超過一倍,達到63%的任務成功率,相較之下,RT-2模型僅為29%。這個成果顯示RT-Trajectory在提高機器人對新任務的適應性和效率上有極大的潛力,而且RT-Trajectory也可根據人類的示範或是手繪草圖創建動作軌跡,並適用於多種機器人平臺上。

DeepMind將會綜合運用AutoRT、SARA-RT和RT-Trajectory新技術,創建更加能幹有用的機器人。