「AI新青年講座」將邀請世界頂尖AI研究機構和大學的科研新青年,主講他們在計算機視覺、機器學習等人工智能領域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。
「AI新青年講座」目前已完結120講,錯過往期講座直播的朋友,可以點擊文章底部“閱讀原文”進行回看!
有興趣分享學術成果的朋友,可以與智東西公開課教研團隊進行郵件(class@jmfly.net)聯系。
相較圖像而言,視頻具有更豐富的信息,雖然給視覺理解任務帶來了更多的可能性,但也帶來了更大的挑戰。為了更好地對視頻中的內容進行理解,高效地對視頻幀之間的時空信息進行建模是關鍵。
其實自從P3D和R(2+1)D分別在17年的ICCV和18年CVPR上被提出之后,很大一部分工作的時序理解都是通過在時間軸上的1D conv完成的,包括它的復雜度是O(C^2xKxTHW)。這種基于像素點的操作,會在純2D conv的基礎上帶來不可忽視的計算開銷。舉例來說,對于K=3的2D和1D conv,1D conv會在2D conv的基礎上將計算量提高33%。
新加坡國立大學高級機器人研究中心的在讀博士黃子淵在達摩院實習期間,與達摩院的同事們以及NTU S-Lab的老師們,提出了一種時間自適應卷積TAdaConv。在不修改網絡其他結構的情況下,使用TAdaConv代替網絡中的2D卷積,可以帶來顯著的提升。
TAdaConv通過動態地對視頻中每一幀的卷積核權重進行自適應調整,對空間卷積賦予時序建模能力,從而在幾乎沒有額外計算開銷的情況下有效提升現有模型的時序推理能力。相比常用的時間卷積操作而言,TAdaConv更為高效,同時還能大大提升模型容量。在TAdaConv的基礎上,黃博還構建TAda2D和TAdaConvNeXt視頻分類模型,并在Kinetics-400、Something-Something-V2以及Epic-Kitchens-100視頻分類任務上達到了極具競爭力的性能。
TAdaConv論文已被ICLR 2022接收,相應的PyTorch代碼和模型也已經作為視頻理解框架EssentialMC2的一部分進行開源,并在達摩院的多個視頻理解業務中成功應用。
6月1日,「AI新青年講座」第121講邀請到TAdaConv一作、新加坡國立大學高級機器人研究中心在讀博士黃子淵參與,主講《TAdaConv:邁向高效的卷積視頻理解》。
講者
黃子淵,新加坡國立大學高級機器人研究中心在讀博士;導師為Marcelo Ang;主要研究興趣是視頻理解,包括視頻動作理解、視頻表征學習、多模態學習、以及基于視頻的環境理解等;曾在阿里巴巴達摩院實習,并獲得阿里巴巴優秀科學研習生榮譽。在達摩院實習期間,其研究成果集成于達摩院自研的視頻理解算法模型EMC2。
第121講
主 題
《TAdaConv:邁向高效的卷積視頻理解》
提 綱
1、視頻理解任務中的時序建模問題
2、增強時序建模的時序自適應卷積TAdaConv
3、高效的視頻分類模型TAda2D和TAdaConvNeXt
4、在視頻環境感知模型中的拓展與應用
直 播 信 息
直播時間:6月1日19:00
直播地點:智東西公開課知識店鋪
成果
TAda:《TAda! Temporally-Adaptive Convolutions for Video Understanding》
論文鏈接://arxiv.org/pdf/2110.06178.pdf
項目主頁://tadaconv-iclr2022.github.io/
開源地址://github.com/alibaba/EssentialMC2