產經情報

吳恩達:繼文字後,AI影像革命即將來臨

日期:2023-12-20

知名電腦科學家吳恩達(Andrew Ng)在近期「AI硬體高峰會」(AI Hardware Summit)的主題演講中宣稱:「我們在文字上見證的AI革命,很快也會發生在影像領域。」

吳恩達在會中展示了一個他稱之為「視覺提示」(visual prompting)的技術。他操作Landing.ai的使用者介面,透過滑鼠在影像中塗鴉,標示出要人工智慧(AI)辨識的物件。他在很短的時間內成功指示AI辨識一隻狗,以及計算培養皿影像中的細胞數量。

「在[computer vision conference] CVPR上,空氣裡似乎瀰漫一種有大事要發生的氣息,就像3年前NLP大會上的那種氛圍。」吳恩達告訴觀眾:「不論是文字相關的大型語言模型(LLM)或是視覺模型,都透過大型的Transformer網路實現了顯著的進展。這些模型的訓練越來越多採用未標籤的資料進行訓練,且模型規模的擴大也有助於提升[視覺]模型的泛化能力。」

吳恩達在演講結束後告訴《EE Times》,隨著大型Transformer網路在視覺領域逐漸普及,我們會看到類似於LLM的趨勢以大型視覺模型(LVM)的形式出現在視覺領域。

他談到:「是的,我們看到大家很期待LVM,但LVM的技術目前尚未成熟。」

生成和理解文字詞元(token)比較容易,部分原因是文字是線性的(一個詞元接著一個詞元),要在注意力機制下理解影像相對較為複雜。影像也可以將區塊視為詞元,但這些區域應該如何排序?哪些區塊應該隱藏,哪些區塊應該預測?而面對連續的影片又多了另一層複雜性,該如何處理?

吳恩達說:「在文字領域,我們有編碼器(encoder)和解碼器(decoder)的架構,但最終多數人決定聚焦在只有解碼器的架構。有很多這方面的問題需要決策,[LVM]目前還在決策的初期階段。」


詳細內文請參考網址...