產經情報 - AOIEA 自動光學檢測設備聯盟

top

產經情報

首頁 > 產經情報

字級設定：
大
中
小
收藏
.
.

AI趨勢周報第239期：微軟終於開源影片生成模型DragNUWA 1.5了

日期：2024-01-16

去年8月，微軟團隊發表影片生成模型DragNUWA論文，近來，他們不只開源1.0版，還釋出了1.5版的模型權重和範例。進一步來說，影片生成一直有2大限制，首先是只單用文字、圖像或軌跡作為生成依據，難以實現顆粒度更細緻的控制，再來是基於軌跡的生成方法還不成熟，大多是在簡單的資料集上實驗。這2點，限制了模型處理開放領域圖像和複雜曲線軌跡的能力。

因此，微軟在去年提出DragNUWA，是一款以開放領域、擴散模型為基礎的影片生成模型，結合了文字、圖像和軌跡3種資訊，可從語義、空間和時間等角度來實現更細緻、可控性更高的影片生成。DragNUWA包括3個元素：軌跡採樣器（TS），可用來實現任意軌跡的開放領域控制；多規模融合（MF），可用來控制不同顆粒度的軌跡；自適應訓練（AT）策略，可用來生成軌跡一致的影片。在今年1月8日新添的DragNUWA 1.5版中，團隊以Stable Video Diffusion模型為骨幹，能根據特定路徑，來將輸入的圖像進行動畫處理。

經測試，微軟團隊認為，DragNUWA可根據不同的軌跡拖移，產出準確的鏡頭移動和物件移動。就Demo來看，只要輸入文字指令和想移動物件方向的箭頭，如「一艘船航行在湖面上」搭配船隻往前和湖水往後的箭頭，就能讓一張靜態的船隻圖片，轉為動態向前的航行影片。

詳細內文請參考網址...

新聞來源：iThome ( 作者 : 王若樸 )

參考網址：AI趨勢周報第239期：微軟終於開源影片生成模型DragNUWA 1.5了