今年7月,智東西公開課教研團隊全新策劃「大廠講壇」,將邀請國內科技/互聯網大廠開設專區,圍繞最新研究成果、核心技術、業務創新,持續帶來多場直播講解。騰訊優圖實驗室專區則是此次「大廠講壇」的第一個系列性講解,目前已經確定下來六講,將圍繞優圖實驗室在弱監督目標定位、圖文多模態、TNN、高效模型、3D人臉、人臉隱私訓練及開源項目Tface這六個領域的重要研究成果進行講解和交流。

在7月19日騰訊優圖實驗室專區第一講中,優圖實驗室研究員興甲以《弱監督目標定位的研究及應用》為題,率先為我們講解了優圖實驗室在弱監督目標定位方面的工作,包括了一篇發表在CVPR2021的工作:保持目標的結構是提高目標定位精度的關鍵,以及一篇投稿到ICCV2021的工作:基于Transformer的弱監督目標定位方法。(錯過直播的朋友可以點擊文章底部的“閱讀原文”進行觀看)

8月16日晚7點,騰訊優圖實驗室專區繼續,將由優圖實驗室研究員志文參與到第2講中的直播講解中,主題為《多模態圖文內容的識別與定位》。

深度學習在視覺領域上已經有了許多成功的應用。例如,人臉識別、物體分類與檢測等。這些應用都是基于視覺領域這一單一模態進行的,然而我們的現實世界由多種模態的組合進行描述的,不僅視覺,還包含著聽覺、語言文字等模態。僅僅通過單一模態,可能無法對事物類型進行合理判斷。因此,越來越多的研究開始從多模態方面開展。

在本次課程中,志文老師首先會對今年的多模態方向內容進行簡單介紹,包括多模態早期各類多模態融合方法,以及最近基于Transformer結構的多模態預訓練模型,包括VL-Bert、Oscar等。

而后將詳解優圖在內容安全領域的一系列落地應用。比如在內容安全領域,有許多內容無法通過圖像這一單一模態進行合理識別。早期的多模態研究思路,依靠研究如何進行更好的模型融合,實現1+1>2的效果。但是這種方式強烈依賴于數據量,且兩種模態的特征難以對齊,無法實現合理的語義融合,使得模型可能出現1+1<2的結果。

因此,優圖實驗室的志文等人研究采用基于預訓練方式的模型訓練形式,即先利用大量無標注數據集進行模型預訓練,而后利用預訓練模型微調少量有標注圖文數據。為了保證預訓練模型速度他們又采用了相似度度量損失函數,最終實現在使用較少標注數據量下,獲取較為有效的結果。同時,為了保證模型的效率,他們還采用了剪枝、蒸餾等各類方法,極大提升了模型速度。

最后,在多模態領域,除了多模態識別,志文老師也將深度講解他們在圖像描述及定位(Grounded Image Caption)的一些前沿工作。圖像描述及定位指除為圖像生成語句描述外,額外預測描述中包含的名詞對應的目標在圖像中的位置。而已有的工作主要通過正則化技術依靠注意力機制在生成圖像描述的同時預測名詞對應的目標的位置,但目前任務存在局部定位以及語音混淆的問題。

針對以上問題,志文老師等人提出一種弱監督圖像描述及定位方法,并分別提出了兩個對應模塊:
(1)針對局部定位的問題,設計分布注意力聚合模塊,挑選多個語義相同但位置不完全重合的目標之后進行聚合,從而得到更加完整的目標位置;
 (2)針對語義混淆問題,提出跨層語義對齊模塊,解決由于序列預測導致中間語義不明確,進而導致定位錯誤的問題。同時該工作目前已經中稿MM2021。

志文目前是騰訊優圖實驗室研究員,主要研究方向為內容安全審核領域識別檢測算法,包括單一以及多模態內容識別、實體檢測等。他負責內容審核領域中色情、違規等內容審核以及政治實體檢測等相關任務,也曾在CVPR、MM、MICCAI等期刊發表相關研究成果。

直播課介紹

課 程 主 題

《多模態圖文內容的識別與定位》

課 程 提 綱

1、多模態融合的研究進展
2、基于Transformer的多模態預訓練模型
3、采取預訓練方式的多模態內容安全識別
4、弱監督圖像描述及定位的最新研究

講 師 介 紹

志文,騰訊優圖實驗室研究員;主要研究方向為內容安全審核領域識別檢測算法,包括單一以及多模態內容識別、實體檢測等;負責內容審核領域中色情、違規等內容審核以及政治實體檢測等相關任務;曾在CVPR、MM、MICCAI等期刊發表相關研究成果。

直 播 信 息

直播時間:8月16日19:00
直播地點:智東西公開課知識店鋪