什麼是合成資料?
合成資料指的是透過電腦模擬或演算法,人為產生的加註資訊;換言之,合成資料是數位世界的生成物,而非取自真實世界的數據蒐集或量測。
AI 實務領域中,用合成資料來建立精確人工智慧模型的比例愈來愈高,尤其當既有資料集在品質、數量或多樣性方面有所不足時,就會選用合成資料來填補訓練數據的缺口。
儘管此資料類型是「合成的」,它在演算或統計上,仍舊足以反映真實世界的數據,相關研究也證明在 AI 模型訓練歷程中,比起代表實際物體、事件或群體的數據,合成資料可能表現一樣好,甚至可能更好。
日前 Gartner 發表了一份相關報告,預測到了 2030 年,合成資料將成為絕大多數的 AI 模型訓練基礎,數據來源可能是演算法規則、統計模型、電腦模擬等方式;報告更直接指出,未來「倘若沒有合成資料參與,將無法打造出高品質、高價值的 AI 模型」。
詳細內文請參考網址