還記得去年的「騰訊優圖專場」嗎?智東西公開課邀請到瑋劍、太平和棟豪三位騰訊優圖實驗室的算法大牛,分別圍繞3D人臉重建、人臉安全和時序動作分析等技術領域進行了直播講解。三講觀看人次累計超過9000人次。

今年7月,智東西公開課教研團隊全新策劃「大廠講壇」,將邀請國內科技/互聯網大廠開設專區,圍繞最新研究成果、核心技術、業務創新,持續帶來多場直播講解。騰訊優圖實驗室專區則是此次「大廠講壇」的第一個系列性講解,由AI技術教研組出品。目前,騰訊優圖實驗室專區進展喜人,已經確定下來六講,將圍繞優圖實驗室在弱監督目標定位、圖文多模態、TNN、高效模型、3D人臉、人臉隱私訓練及開源項目Tface這六個領域的重要研究成果進行講解和交流。

7月19日晚7點,騰訊優圖實驗室高級研究員興甲老師將以《弱監督目標定位的研究及應用》為題,率先帶來「大廠講壇」騰訊優圖實驗室專區第1講的直播講解。

基于全監督的目標檢測方法需要耗費較大的標注成本,對于任務更新以及遷移極其不友好。而近年來相關研究者試圖從弱監督學習方面突破標注數據的限制,為目標檢測尋找一種更加高效、低廉的解決框架。

但自2014年MIT提出的類別響應圖CAM,大多數的弱監督目標檢測方法均從空間正則約束方面著手,雖然也提出了一系列方法提高網絡的響應區域,使其能夠覆蓋目標的更多區域,但是這些工作均忽略了目標的結構信息,導致定位的準確度較低。

而在本次的課程中,興甲老師首先會對弱監督目標定位在近幾年已有的工作進行簡單的介紹總結,包括CAM、ACoL,、DANet,、Rethinking CAM等10篇工作,之后詳解優圖實驗室在弱監督目標定位方面的工作,包括:

(1)發表在CVPR 2021的工作:保持目標的結構是提高目標定位精度的關鍵。首先設計了受限激活模塊緩解模型的結構信息彌失的問題,之后重新定義了高階相似性的概念并基于此提出了自相關圖生成模塊用以挖掘目標結構信息,顯著提高了目標定位精度。

(2)投稿到ICCV 2021的工作:基于Transformer的弱監督目標定位方法。挖掘目標的結構信息,關鍵在于提取長距離的特征相似性。相比卷積網絡有限的感受野,Transformer網絡中Self-attention機制保證網絡具有全局感受野,并且因此可以獲取長距離特征依賴。基于此,提出了一種基于Transformer的弱監督目標定位方法,通過耦合類別感知圖與類別不可知的注意圖,得到最終的定位結果,在各個數據集上也取得了很好的效果。

最后,興甲老師也將講解一下弱監督目標定位在圖像內容審核上的簡單應用,主要包括基于混合監督的目標檢測方法,以及基于全局+局部特征的圖像檢索應用等。

興甲目前是騰訊優圖實驗室高級研究員,主要研究領域為目標檢測與圖像檢索,包括通用目標檢測、旋轉目標檢測、弱監督/半監督目標檢測以及圖像檢索等,負責圖像內容審核領域的版權logo識別、同圖檢索等相關任務。他曾在CVPR、TIP、TVCG等國際頂級會議、期刊發表論文6篇,帶隊獲得了ECCV2018 MVD 實例分割比賽冠軍。

我們的課程將在智東西公開課知識店鋪上以視頻直播的形式進行,包含主講和問答兩個環節。主講環節40分鐘,問答環節20分鐘,每個環節主講老師都將通過視頻直播的形式進行實時講解與解答。

其他更多「大廠講壇」騰訊優圖實驗室專區的課程信息我們也將陸續揭曉,大家敬請期待!