產經情報

字級設定：
大
中
小
收藏
.
.

僅用影片就能生成配樂！Google DeepMind 亮相新 AI 技術「V2A 」

日期：2024-06-20

將影片和音訊配對並不新，但 DeepMind 強調 V2A 技術的獨特之處在於，能理解影片的原始像素，並自動將生成的聲音和影片同步，因此可以選擇不輸入文字指令。

Google DeepMind 亮相一個新影像配樂生成 AI 技術「V2A 」（video-to-audio），讓使用者透過文字指令和影片，生成與影片相匹配的戲劇配樂、逼真音效或對話。

此工具目前尚未普遍開放，因為仍需要接受「嚴格的安全評估和測試」。當它可用時，其輸出內容將加上 Google 的 SynthID 浮水印，標記出 AI 生成的。

DeepMind 表示影片生成模型的發展速度很快，但目前許多系統只能生成無聲的內容，無法生成和影片同步的音訊，他們希望透過 V2A 技術將電影生成變為現實，也將工具定位為處理歷史畫面的工具。

將影片和音訊配對並不新，但 DeepMind 強調 V2A 技術的獨特之處在於，可以理解影片的原始像素，並自動將生成的聲音與影片同步，因此可以選擇不輸入文字指令。

Google DeepMind 也給出了幾段示範影片，其中包括用「汽車打滑、油門聲、天使電子音樂」等文字指令描述聲音，可從以下片段看到音效如何與影片內容相匹配。
該工具還可以為影片生成數量「無限」的配樂，讓用戶能夠使用無窮無盡的配樂選項。V2A 可加以和 DeepMind 的 AI 影片生成工具 Veo 配對來運用。

V2A 是透過影片、音訊和註釋來訓練 AI 工具，包括「對聲音的詳細描述、口語對話逐字稿」，這讓影片-音訊生成器能將音訊與視覺場景相配對。

DeepMind 目前正在嘗試提升嘴唇動作和對話同步的能力，另外 DeepMind 也強調，影片品質很重要，任何顆粒狀或失真的內容，都可能導致聲音品質明顯下降。