產經情報

微軟更新DeepSpeed可高效訓練數兆參數AI模型

日期:2020-09-20

微軟更新了之前釋出的開源深度學習訓練最佳化函式庫DeepSpeed,該函式庫現在能夠使用新方法,訓練擁有數兆參數的機器學習模型,官方提到,DeepSpeed使用了被稱為3D平行技術的新方法,可以自動適應工作負載的需求,在平衡擴展效率的情況下,支援超大型模型。

在今年2月的時候,微軟釋出了DeepSpeed函式庫,並且介紹了該函式庫使用記憶體最佳化技術ZeRO,大幅改進大型模型訓練的規模、速度、成本和可用性,微軟使用DeepSpeed來訓練圖靈自然語言生成模型(Turing-NLG),當時發布的Turing-NLG,具有170億個參數和最高的準確性,為當時最大的語言模型。微軟在5月的時候,又發布了ZeRO-2技術,這項改進把模型訓練的參數規模,拉高到2,000億個,而且還能以極快的速度訓練語言模型BERT。

而現在,微軟又往前推進DeepSpeed的發展,添加了4項新技術,使得運算、記憶體以及通訊整體效率變得更好。這次的更新,包括微軟利用3D平行化技術,讓DeepSpeed能夠支援數十億到數兆參數的模型訓練,3D的意思也就是結合3種平行化方法,包括ZeRO資料平行化、工作管線平行化以及張量分割模型平行化。

詳細內文請參考網址