深度強化學習已經廣泛應用于工業制造、仿真模擬、機器人控制、優化與調度、游戲博弈等領域。其中,用于視覺控制的深度強化學習旨在學習給定觀察圖像的最優策略,實現了對機器人的行為控制。但受自身學習能力的制約,在處理高維狀態與動作空間下的控制問題時,存在樣本利用率低以及算法不易收斂等缺陷,嚴重限制了深度強化學習方法對機器人運動的控制能力。

隨著Transformer在學習視覺和語言表示方面取得了巨大的成功,將Transformer引入視覺控制模型中成為研究人員的一種新選擇。在視覺控制中,學習可在不同控制任務間遷移的可遷移狀態表示,對于提升樣本利用率具有重要意義。然而,將Transformer移植到采樣高效的視覺控制仍然有很大的難度。

為此,香港大學穆堯博士等人提出了一種新穎的控制Transformer框架CtrlFormer。CtrlFormer在不同控制任務之間聯合學習視覺令牌和策略令牌之間的自注意力機制,可以在不發生災難性遺忘的情況下學習和遷移多任務表示。此外,還設計了一個對比強化學習范式來訓練CtrlFormer,使其能夠達到較高的樣本效率。

在DMControl基準測試中,最近的先進方法在使用100k樣本遷移學習后在“Cartpole”任務中產生零分而失敗,而CtrlFormer可以在僅使用100k樣本的情況下獲得769±34的最先進的分數,同時保持之前任務的性能。

8月31日晚7點,「AI新青年講座」第152講邀請到香港大學在讀博士穆堯參與,主講《深度強化學習的多任務遷移及其在機器人上的應用》。

第152講

主題

深度強化學習的多任務遷移及其在機器人上的應用

提綱

1、視覺控制在機器人中的應用與挑戰
2. 基于CtrlFormer的深度強化學習多任務遷移
3、對比強化學習訓練框架
4、機器人控制任務中的視覺泛化性

講者介紹

穆堯,香港大學在讀博士,師從羅平老師,現主要研究方向包括強化學習、機器人控制和表示學習, 在 NeurIPS、ICML、CVPR、IJCAI等頂級會議發表論文5篇,曾獲ICCAS 2020最優學生論文獎,IV2021最優學生論文提名獎。

課程信息

直播時間:8月31日19:00
直播地點:智東西公開課知識店鋪