產經情報

字級設定：
大
中
小
收藏
.

解決 AI 模型開發的數據困境，MLCommons 打造全球共享資料庫！

日期：2021-08-05

隨著企業生產的數位轉型加速，如果想要建立一套機器學習模型，需要先透過大量的數據來讓 AI 學習。基礎數據的取得是個難題，但 MLCommons 能帶來解決方案。MLCommons 是一個將全球企業、組織、學界聯合起來的非營利組織，期望透過將各界資料匯集、建立可以用於 AI 數據訓練的公共資料庫，以加速整個機器學習產業的發展。

MLCommons 透過數據整合，加速 AI 的模型開發

MLCommons 旨在幫助 AI 與機器學習模型的進一步發展，透過提供數據資料庫、模型、準則與指標的方式，幫助電腦視覺、自然語言過程、語音辨識等機器學習應用，藉由數據的整合增加應用場域，並凝聚共同的力量來加速開發過程。

MLCommons 的前身是 MLPerf。MLPerf 是一間成立於 2018 年的產業基準組織，集結了英特爾、NVIDIA、Facebook AI、Google、亞馬遜、阿里巴巴和百度、微軟、哈佛大學、史丹佛大學等產、學機構的參與，制定了機器學習性能的通用標準測試工具，用於幫助加速開發、創造更多樣的 AI 產品。

如今 MLPerf 已擴大發展成 MLCommons，除了立基 MLPerf 已建立的標準化度量外，也希望能透過建立全球共享的數據資料庫，幫助 AI 模型的發展與實際應用。

MLCommons 的總裁 Peter Mattson 透露，MLCommons 的任務即在幫助加速機器學習流程的創新，增加機器學習可以為社會帶來的正面影響，凝聚全球的跨產業夥伴與學界的力量，讓所有開發的技術都可以相互受惠。

案例：推出全球最大語音文本資料庫，打破主流語言限制

例如，MLCommons 於 2020 年底推出了語音文本資料庫 People’s Speech，蒐集超過 8 萬多小時的語音文本，提供更先進的語音技術，並拓展到更多種語言，打破過往語音資料都集中在主要語言上的狀況。這個資料庫將提供服務給使用各種語言的人口，也被認為是目前世界上最大的語音文本資料庫。

除了提供了資料庫之外，MLCommons 也希望透過另一項 MLCube 計畫，提供一套讓機器學習模型可以互相通用、共享與相容的標準，供全球研究及開發人員可以無縫的共享機器學習模型，透過將數據依賴關係（Data Dependencies）、輸入、輸出的格式等標準化，凝聚大眾的力量來加速模型的驗證與開發過程。

對 Google、Facebook 等科技巨頭而言，收集海量數據並不是難事；但對小規模的 AI 新創來說，數據量與品質往往是發展的限制。MLCommons 藉由提供公共資料庫的方式，讓資源不多的企業也能取得數據訓練 AI，開發自己的服務，提供科技市場不同的可能性。