「AI新青年講座」將邀請世界頂尖AI研究機構和大學的科研新青年,主講他們在計算機視覺、機器學習等人工智能領域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。

有興趣分享學術成果的朋友,可以與智東西公開課教研團隊進行郵件(class@jmfly.net)聯系。

機械臂強化學習近年來發展迅速,從運動規劃、抓取放置到零件裝配,都涌現了大量研究成果。盡管存在數據效率、交互安全、sim2real?gap 等多方面的問題,強化學習以其智能決策的特點在機械臂領域依然大有應用前景。

機械臂強化學習的任務中,獎勵函數起著至關重要的作用。為了達到所需的策略,設計合適的獎勵函數通常需要大量的領域專業知識以及反復試驗。來自加州大學伯克利分校的吳崢博士等人,為了最大限度地減少為接觸豐富的操作任務設計獎勵函數所涉及的工作量,提出了一種能夠從機器人的高維觀察(如圖像和觸覺反饋)中提取密集獎勵函數的方法DREM(Dense Rewards for Multimodal Observations)。

與最先進的高維獎勵學習方法相比,DREM不利用對抗性訓練,因此不容易出現相關的訓練不穩定性。相反,DREM通過以自我監督的方式估計任務進度來學習獎勵。最后,通過7自由度機械臂在釘孔和USB插入兩個接觸豐富的操作任務上的實現,證明了其有效性和效率。實驗結果也表明,與基線相比,用學習獎勵函數訓練的策略具有更好的性能和更快的收斂速度。

7月1日早10點,「AI新青年講座」第132講,加州大學伯克利分校在讀博士吳崢將主講《基于密集獎勵的強化學習及在機械臂操作上的應用》。

講者
 吳崢,加州大學伯克利分校在讀博士;本科畢業于上海交通大學;目前主要研究方向為基于機器學習的工業裝配任務,曾在ICRA, IROS, ICLR, Science Robotics等會議期刊上發表論文。

第132講
主 題
《基于密集獎勵的強化學習及在機械臂操作上的應用》

提 綱
1、機械臂接觸豐富操作任務的介紹
2、傳統強化學習獎勵學習方法的局限性
3、基于任務進度從多模態輸入中學習獎勵的方法
4、在機械臂操作任務上的應用

直 播 信 息
直播時間:7月1日10:00
直播地點:智東西公開課知識店鋪

成果
DREM:《Learning Dense Rewards for Contact-Rich Manipulation Tasks》
論文鏈接://arxiv.org/pdf/2011.08458.pdf