產經情報

字級設定：
大
中
小
收藏
.
.

MIT以AI即時產生3D全像投影圖像，可改善VR與3D列印應用

日期：2021-04-08

MIT研究人員以深度學習技術，開發了全新3D全像投影（3D Holography）運算方法，只需要使用不到1 MB的記憶體，就能在智慧型手機和筆記型電腦，以數毫秒時間製作出全像投影圖像。這個新方法能用來改進3D全像投影，在虛擬實境、顯微成像和3D列印的應用。
研究人員提到，之所以目前虛擬實境頭戴裝置尚未取代電視或是電腦，成為主要的影片觀看裝置，重要的原因之一，就是虛擬實境容易讓用戶感到不適，透過觀看2D顯示器，以產生錯覺的方式，讓用戶以為自己正在觀看3D內容，會使得眼睛疲勞或是頭暈，而3D全像投影可能是更好的解決方法。
全像投影圖像可以良好地呈現現實世界，根據觀看者的位置變化觀看視角，並且可讓眼睛調整焦深，對焦在前景或是背景上。在傳統上，生成全像投影圖像需要超級電腦進行物理模擬運算，不僅耗時，而且產生的效果也無法非常真實，而現在MIT研究人員採用深度學習技術，能以毫秒級的時間完成運算，因此全像投影應用，也就能擴展到筆記型電腦和智慧型手機等裝置。
使用相機拍攝的照片，會對每個光波的亮度進行編碼，因此可以忠實地呈現場景顏色，但是最終只會產生2D的圖像，而全像投影圖像不僅編碼每個光波的亮度，同時還會編碼光波相位（Phase），這樣的組合可以更真實地描述場景的視差和深度。
早期的全像投影是以光學的方式紀錄，必須要使用雷射光掃描，並且分離雷射光束，使一半的光束照亮物體，一半的光束用作光波相位參照，以產生全像投影特殊的深度感，但用這種方法產生的圖像是靜態的，無法捕捉動作，而且也難以複製和共享。
而由電腦生成的全像投影圖像，透過模擬光學配置，來改善傳統方法的缺點，但是因為場景中每個點都有不同的深度，因此無法對所有的點都應用相同的操作，這樣的限制增加了運算複雜度，超級計算機叢集可能要花費數秒甚至數分鐘，才能算出單張全像投影圖，而且現有演算法，無法以逼真的精度計算遮蔽效果（Occlusion），因此也就限制了結果的真實度。
MIT研究人員透過讓模型自學物理計算，來提高電腦產生全像投影圖的速度。研究人員設計了卷積神經網路，並且自定義了圖像資料集，其中包含4,000組電腦生成的照片和全像投影圖像配對，照片中每個畫素都包含顏色和深度資訊，並且和對應的全像投影圖像配對，同時使用了一組新的物理運算來處理遮蔽問題。
透過從每個圖像配對中學習，張量網路調整自身計算參數，逐漸強化創建全像投影圖像的能力，經最佳化的網路，其運算速度比物理模擬快了2個數量級，在數毫秒的時間，就可以從電腦生成或是LiDAR感測器所獲得具有深度資訊的圖像，創建出全像投影圖像，由於壓縮的張量網路只要617 KB的記憶體，在目前智慧型手機動輒內建數十甚至數百GB的記憶體，其使用的資源可說是非常低。
研究人員提到，即時3D全像投影圖像可以強化虛擬實境和3D列印等應用，不只可以提供觀看者虛擬實境體驗，但是又能消除當前頭戴裝置所帶來的疲勞感，在3D列印方面，則能加速3D列印的精確度和速度。