產經情報

性能提升!Google 實現兩種新型強化學習演算法

日期:2021-05-12

來自 Google Research 的研究人員,證明可以使用圖表示(graph representation)和 AutoML 的優化技術,來學習新的、可解析和可推廣的 RL 演算法!

他們發現的其中兩種演算法可以推廣到更複雜的環境中,比如具有視覺觀察的 Atari 遊戲。
這一成就使得 RL 演算法越來越優秀!


本文列點如下:
透過將損失函數表示為計算圖,來元學習 RL 演算法
用基於進化的元學習方法來優化 RL 演算法
兩種表現出良好泛化性能的演算法


本次實驗中的群體(population)規模約為 300 個智慧體,研究人員觀察到在 2 到 5 萬個突變後,發現候選損失函數的進化需要大約 3 天的訓練。為了進一步控制訓練成本,他們在初始群體中植入了人類設計的 RL 演算法,eg. DQN(深度 Q 學習演算法)。

詳細內文請參考網址