產經情報

解決 AI 模型開發的數據困境,MLCommons 打造全球共享資料庫!

日期:2021-08-05

隨著企業生產的數位轉型加速,如果想要建立一套機器學習模型,需要先透過大量的數據來讓 AI 學習。基礎數據的取得是個難題,但 MLCommons 能帶來解決方案。MLCommons 是一個將全球企業、組織、學界聯合起來的非營利組織,期望透過將各界資料匯集、建立可以用於 AI 數據訓練的公共資料庫,以加速整個機器學習產業的發展。

MLCommons 透過數據整合,加速 AI 的模型開發

MLCommons 旨在幫助 AI 與機器學習模型的進一步發展,透過提供數據資料庫、模型、準則與指標的方式,幫助電腦視覺、自然語言過程、語音辨識等機器學習應用,藉由數據的整合增加應用場域,並凝聚共同的力量來加速開發過程。

MLCommons 的前身是 MLPerf。MLPerf 是一間成立於 2018 年的產業基準組織,集結了英特爾、NVIDIA、Facebook AI、Google、亞馬遜、阿里巴巴和百度、微軟、哈佛大學、史丹佛大學等產、學機構的參與,制定了機器學習性能的通用標準測試工具,用於幫助加速開發、創造更多樣的 AI 產品。

如今 MLPerf 已擴大發展成 MLCommons,除了立基 MLPerf 已建立的標準化度量外,也希望能透過建立全球共享的數據資料庫,幫助 AI 模型的發展與實際應用。

MLCommons 的總裁 Peter Mattson 透露,MLCommons 的任務即在幫助加速機器學習流程的創新,增加機器學習可以為社會帶來的正面影響,凝聚全球的跨產業夥伴與學界的力量,讓所有開發的技術都可以相互受惠。

案例:推出全球最大語音文本資料庫,打破主流語言限制

例如,MLCommons 於 2020 年底推出了語音文本資料庫 People’s Speech,蒐集超過 8 萬多小時的語音文本,提供更先進的語音技術,並拓展到更多種語言,打破過往語音資料都集中在主要語言上的狀況。這個資料庫將提供服務給使用各種語言的人口,也被認為是目前世界上最大的語音文本資料庫。

除了提供了資料庫之外,MLCommons 也希望透過另一項 MLCube 計畫,提供一套讓機器學習模型可以互相通用、共享與相容的標準,供全球研究及開發人員可以無縫的共享機器學習模型,透過將數據依賴關係(Data Dependencies)、輸入、輸出的格式等標準化,凝聚大眾的力量來加速模型的驗證與開發過程。

對 Google、Facebook 等科技巨頭而言,收集海量數據並不是難事;但對小規模的 AI 新創來說,數據量與品質往往是發展的限制。MLCommons 藉由提供公共資料庫的方式,讓資源不多的企業也能取得數據訓練 AI,開發自己的服務,提供科技市場不同的可能性。