產經情報

字級設定：
大
中
小
收藏
.
.

吳恩達：繼文字後，AI影像革命即將來臨

日期：2023-12-20

知名電腦科學家吳恩達(Andrew Ng)在近期「AI硬體高峰會」(AI Hardware Summit)的主題演講中宣稱：「我們在文字上見證的AI革命，很快也會發生在影像領域。」

吳恩達在會中展示了一個他稱之為「視覺提示」(visual prompting)的技術。他操作Landing.ai的使用者介面，透過滑鼠在影像中塗鴉，標示出要人工智慧(AI)辨識的物件。他在很短的時間內成功指示AI辨識一隻狗，以及計算培養皿影像中的細胞數量。

「在[computer vision conference] CVPR上，空氣裡似乎瀰漫一種有大事要發生的氣息，就像3年前NLP大會上的那種氛圍。」吳恩達告訴觀眾：「不論是文字相關的大型語言模型(LLM)或是視覺模型，都透過大型的Transformer網路實現了顯著的進展。這些模型的訓練越來越多採用未標籤的資料進行訓練，且模型規模的擴大也有助於提升[視覺]模型的泛化能力。」

吳恩達在演講結束後告訴《EE Times》，隨著大型Transformer網路在視覺領域逐漸普及，我們會看到類似於LLM的趨勢以大型視覺模型(LVM)的形式出現在視覺領域。

他談到：「是的，我們看到大家很期待LVM，但LVM的技術目前尚未成熟。」

生成和理解文字詞元(token)比較容易，部分原因是文字是線性的(一個詞元接著一個詞元)，要在注意力機制下理解影像相對較為複雜。影像也可以將區塊視為詞元，但這些區域應該如何排序？哪些區塊應該隱藏，哪些區塊應該預測？而面對連續的影片又多了另一層複雜性，該如何處理？

吳恩達說：「在文字領域，我們有編碼器(encoder)和解碼器(decoder)的架構，但最終多數人決定聚焦在只有解碼器的架構。有很多這方面的問題需要決策，[LVM]目前還在決策的初期階段。」

詳細內文請參考網址...