來自 Google Research 的研究人員,證明可以使用圖表示(graph representation)和 AutoML 的優化技術,來學習新的、可解析和可推廣的 RL 演算法!
他們發現的其中兩種演算法可以推廣到更複雜的環境中,比如具有視覺觀察的 Atari 遊戲。
這一成就使得 RL 演算法越來越優秀!
本文列點如下:
透過將損失函數表示為計算圖,來元學習 RL 演算法
用基於進化的元學習方法來優化 RL 演算法
兩種表現出良好泛化性能的演算法
本次實驗中的群體(population)規模約為 300 個智慧體,研究人員觀察到在 2 到 5 萬個突變後,發現候選損失函數的進化需要大約 3 天的訓練。為了進一步控制訓練成本,他們在初始群體中植入了人類設計的 RL 演算法,eg. DQN(深度 Q 學習演算法)。