「AI新青年講座」將邀請世界頂尖AI研究機構和大學的科研新青年,主講他們在計算機視覺、機器學習等人工智能領域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。

有興趣分享學術成果的朋友,可以與智東西公開課教研團隊進行郵件(class@jmfly.net)聯系。

近年來,計算機視覺領域的新型架構層出不窮,包括視覺 Transformer、MLP 等。它們在很多任務上都取得了超越 CNN 的性能,受到廣泛關注。其中,視覺 MLP 具有極其簡單的架構,僅由多層感知器(MLP)堆疊而成。與 CNN 和 Transformer 相比,這些簡潔的 MLP 架構引入了更少的歸納偏置,具有更強的泛化性能。

然而,現有視覺 MLP 架構的性能依然弱于 CNN 和 Transformer。受量子力學中波粒二象性的啟發,來自華為諾亞方舟實驗室、北京大學、悉尼大學的研究者提出了一種新型視覺 MLP 架構——Wave-MLP。

波粒二象性是量子力學中的一個基本屬性,指的是所有的個體(比如電子、光子、原子等)都可以同時使用粒子的術語和波的術語來描述。一個波通常包括幅值和相位兩個屬性,幅值表示一個波可能達到的最大強度,相位指示著當前處在一個周期的哪個位置。將一個經典意義上的粒子用波(比如,德布羅意波)的形式來表示,可以更完備地描述微觀粒子的運動狀態。

Wave-MLP受量子力學中波粒二象性的啟發,將 MLP 中每個圖像塊 (Token) 表示成波函數的形式。相比現有的視覺 Transformer 和 MLP 架構,Wave-MLP 有著明顯的性能優勢。在 ImageNet,Wave-MLP-S 模型上以 4.5G FLOPs 實現了 82.6% 的 top-1 準確率,比相似計算代價的 Swin-T 高 1.3 個點。此外,Wave-MLP 也可以推廣到目標檢測和語義分割等下游任務,展現出強大的泛化性能。

6月7日,「AI新青年講座」第122講邀請到Wave-MLP一作、北京大學智能學院在讀博士唐業輝參與,主講《量子啟發的新型視覺主干模型WaveMLP》。

講者
 唐業輝,北京大學智能學院在讀博士,主要研究方向是面向計算機視覺的主干模型設計及高效部署;在NeurIPS、CVPR、ICCV等頂級會議上發表多篇論文。

第122講

主 題
《量子啟發的新型視覺主干模型WaveMLP》

提 綱
1、視覺領域的新型架構研究
2、基于多層感知器的簡潔型視覺MLP架構
3、受量子力學啟發的新型視覺MLP架構WaveMLP
4、拓展:極簡的視覺主干模型

直 播 信 息
直播時間:6月7日19:00
直播地點:智東西公開課知識店鋪

成果
WaveMLP:《An Image Patch is a Wave: Quantum Inspired Vision MLP》
論文鏈接://arxiv.org/abs/2111.12294.pdf
PyTorch 代碼://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch
 MindSpore 代碼://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp