產經情報

從通訊設備到保險業都在用的「保密」AI 創新推手:合成資料

日期:2022-12-21

成功部署任何 AI 應用之前,企業組織需要先取得大量資料,用以訓練演算模型,然而取得合適且充足的機器學習數據並不容易,因此成本合理且有效的「合成資料」(synthetic data)越來越受到業界重視和採用。

什麼是合成資料?

合成資料指的是透過電腦模擬或演算法,人為產生的加註資訊;換言之,合成資料是數位世界的生成物,而非取自真實世界的數據蒐集或量測。

AI 實務領域中,用合成資料來建立精確人工智慧模型的比例愈來愈高,尤其當既有資料集在品質、數量或多樣性方面有所不足時,就會選用合成資料來填補訓練數據的缺口。

儘管此資料類型是「合成的」,它在演算或統計上,仍舊足以反映真實世界的數據,相關研究也證明在 AI 模型訓練歷程中,比起代表實際物體、事件或群體的數據,合成資料可能表現一樣好,甚至可能更好。

日前 Gartner 發表了一份相關報告,預測到了 2030 年,合成資料將成為絕大多數的 AI 模型訓練基礎,數據來源可能是演算法規則、統計模型、電腦模擬等方式;報告更直接指出,未來「倘若沒有合成資料參與,將無法打造出高品質、高價值的 AI 模型」。


詳細內文請參考網址