產經情報 - AOIEA 自動光學檢測設備聯盟

top

產經情報

首頁 > 產經情報

字級設定：
大
中
小
收藏
.
.

性能提升！Google 實現兩種新型強化學習演算法

日期：2021-05-12

來自 Google Research 的研究人員，證明可以使用圖表示（graph representation）和 AutoML 的優化技術，來學習新的、可解析和可推廣的 RL 演算法！

他們發現的其中兩種演算法可以推廣到更複雜的環境中，比如具有視覺觀察的 Atari 遊戲。
這一成就使得 RL 演算法越來越優秀！

本文列點如下:
透過將損失函數表示為計算圖，來元學習 RL 演算法
用基於進化的元學習方法來優化 RL 演算法
兩種表現出良好泛化性能的演算法

本次實驗中的群體（population）規模約為 300 個智慧體，研究人員觀察到在 2 到 5 萬個突變後，發現候選損失函數的進化需要大約 3 天的訓練。為了進一步控制訓練成本，他們在初始群體中植入了人類設計的 RL 演算法，eg. DQN（深度 Q 學習演算法）。

詳細內文請參考網址

新聞來源：Tech Orange (文章出處: AI 新媒體量子位)

參考網址：性能提升！Google 實現兩種新型強化學習演算法