產經情報

僅用影片就能生成配樂!Google DeepMind 亮相新 AI 技術「V2A 」

日期:2024-06-20

將影片和音訊配對並不新,但 DeepMind 強調 V2A 技術的獨特之處在於,能理解影片的原始像素,並自動將生成的聲音和影片同步,因此可以選擇不輸入文字指令。

Google DeepMind 亮相一個新影像配樂生成 AI 技術「V2A 」(video-to-audio),讓使用者透過文字指令和影片,生成與影片相匹配的戲劇配樂、逼真音效或對話。

此工具目前尚未普遍開放,因為仍需要接受「嚴格的安全評估和測試」。當它可用時,其輸出內容將加上 Google 的 SynthID 浮水印,標記出 AI 生成的。

DeepMind 表示影片生成模型的發展速度很快,但目前許多系統只能生成無聲的內容,無法生成和影片同步的音訊,他們希望透過 V2A 技術將電影生成變為現實,也將工具定位為處理歷史畫面的工具。

將影片和音訊配對並不新,但 DeepMind 強調 V2A 技術的獨特之處在於,可以理解影片的原始像素,並自動將生成的聲音與影片同步,因此可以選擇不輸入文字指令。

Google DeepMind 也給出了幾段示範影片,其中包括用「汽車打滑、油門聲、天使電子音樂」等文字指令描述聲音,可從以下片段看到音效如何與影片內容相匹配。
該工具還可以為影片生成數量「無限」的配樂,讓用戶能夠使用無窮無盡的配樂選項。V2A 可加以和 DeepMind 的 AI 影片生成工具 Veo 配對來運用。

V2A 是透過影片、音訊和註釋來訓練 AI 工具,包括「對聲音的詳細描述、口語對話逐字稿」,這讓影片-音訊生成器能將音訊與視覺場景相配對。

DeepMind 目前正在嘗試提升嘴唇動作和對話同步的能力,另外 DeepMind 也強調,影片品質很重要,任何顆粒狀或失真的內容,都可能導致聲音品質明顯下降。