產經情報

MIT以AI即時產生3D全像投影圖像,可改善VR與3D列印應用

日期:2021-04-08

MIT研究人員以深度學習技術,開發了全新3D全像投影(3D Holography)運算方法,只需要使用不到1 MB的記憶體,就能在智慧型手機和筆記型電腦,以數毫秒時間製作出全像投影圖像。這個新方法能用來改進3D全像投影,在虛擬實境、顯微成像和3D列印的應用。
研究人員提到,之所以目前虛擬實境頭戴裝置尚未取代電視或是電腦,成為主要的影片觀看裝置,重要的原因之一,就是虛擬實境容易讓用戶感到不適,透過觀看2D顯示器,以產生錯覺的方式,讓用戶以為自己正在觀看3D內容,會使得眼睛疲勞或是頭暈,而3D全像投影可能是更好的解決方法。
全像投影圖像可以良好地呈現現實世界,根據觀看者的位置變化觀看視角,並且可讓眼睛調整焦深,對焦在前景或是背景上。在傳統上,生成全像投影圖像需要超級電腦進行物理模擬運算,不僅耗時,而且產生的效果也無法非常真實,而現在MIT研究人員採用深度學習技術,能以毫秒級的時間完成運算,因此全像投影應用,也就能擴展到筆記型電腦和智慧型手機等裝置。
使用相機拍攝的照片,會對每個光波的亮度進行編碼,因此可以忠實地呈現場景顏色,但是最終只會產生2D的圖像,而全像投影圖像不僅編碼每個光波的亮度,同時還會編碼光波相位(Phase),這樣的組合可以更真實地描述場景的視差和深度。
早期的全像投影是以光學的方式紀錄,必須要使用雷射光掃描,並且分離雷射光束,使一半的光束照亮物體,一半的光束用作光波相位參照,以產生全像投影特殊的深度感,但用這種方法產生的圖像是靜態的,無法捕捉動作,而且也難以複製和共享。
而由電腦生成的全像投影圖像,透過模擬光學配置,來改善傳統方法的缺點,但是因為場景中每個點都有不同的深度,因此無法對所有的點都應用相同的操作,這樣的限制增加了運算複雜度,超級計算機叢集可能要花費數秒甚至數分鐘,才能算出單張全像投影圖,而且現有演算法,無法以逼真的精度計算遮蔽效果(Occlusion),因此也就限制了結果的真實度。
MIT研究人員透過讓模型自學物理計算,來提高電腦產生全像投影圖的速度。研究人員設計了卷積神經網路,並且自定義了圖像資料集,其中包含4,000組電腦生成的照片和全像投影圖像配對,照片中每個畫素都包含顏色和深度資訊,並且和對應的全像投影圖像配對,同時使用了一組新的物理運算來處理遮蔽問題。
透過從每個圖像配對中學習,張量網路調整自身計算參數,逐漸強化創建全像投影圖像的能力,經最佳化的網路,其運算速度比物理模擬快了2個數量級,在數毫秒的時間,就可以從電腦生成或是LiDAR感測器所獲得具有深度資訊的圖像,創建出全像投影圖像,由於壓縮的張量網路只要617 KB的記憶體,在目前智慧型手機動輒內建數十甚至數百GB的記憶體,其使用的資源可說是非常低。
研究人員提到,即時3D全像投影圖像可以強化虛擬實境和3D列印等應用,不只可以提供觀看者虛擬實境體驗,但是又能消除當前頭戴裝置所帶來的疲勞感,在3D列印方面,則能加速3D列印的精確度和速度。