智東西(公眾號:zhidxcom)
編譯 | Glu
編輯 | 李水青

智東西7月7日報道,在7月6日舉行的2023世界人工智能大會(WAIC)開幕式上,人工智能專家、香港中文大學教授、商湯科技創始人兼執行董事湯曉鷗發表了主題為《你好,上海》的演講。

這個主題由電影《你好,李煥英》延伸而來。他解釋說,從1994年的2500萬元到2021年的54億元票房,是中國原創電影人創造的奇跡;而現在,中國科技原創者也逐漸看到了曙光。

▲人工智能專家、香港中文大學教授、商湯科技創始人兼執行董事湯曉鷗

接著,他分享了他的三名學生王曉剛、何愷明、林達華在深度學習領域追夢的故事:王曉剛讓機器的人臉識別首次超越了人類眼睛;何愷明開發了計算機視覺領域的流行架構——深度殘差網絡(ResNets),解決了深度網絡梯度傳遞的問題,成為GPT等大模型系列的基礎;林達華主導發起了國際上最具影響力的視覺算法開源項目OpenMMLab。

商湯湯曉鷗:我的三個學生,如何影響AI世界

▲Yann LeCun、Geoffrey Hinton、Yoshua Bengio ,圖源網絡

湯曉鷗認為,2018年,深度學習領域的三位研究員Yoshua Bengio、Geoffrey Hintion、Yann LeCun被授予計算機界最負盛名的“圖靈獎”,打開了深度學習的大門。但開啟這扇大門的第一聲門鈴,是由學者鄧力、Hintion按響的,他們2011年在語音識別中引入DNN(深度神經網絡),從而取得了深度學習語音識別領域劃時代的突破;2012年,他們在計算機視覺識別領域中同樣取得了劃時代的突破。

“那么,2011年到2013年深度學習剛起步的時候,我們做了什么呢?”湯曉鷗引出了他的第一個學生,商湯集團聯合創始人、執行董事兼首席科學家王曉剛的故事。

一、王曉剛:讓機器人臉識別超過人眼,曾打敗谷歌

王曉剛本科是中國科學技術大學(簡稱:中科大)少年班,并且是中科大最好班級之一00班的第一名,碩士期間就讀于湯曉鷗實驗室,并在2009年博士畢業后,再次回到了該實驗室。

商湯湯曉鷗:我的三個學生,如何影響AI世界

▲ 商湯集團聯合創始人、執行董事兼首席科學家王曉剛,圖源網絡

湯曉鷗說:“2011年到2013年的國際計算機視覺與模式識別會議(CVPR)和國際計算機視覺大會(ICCV)這兩個計算機視覺最重要的會議上,全球共有29篇文章以深度學習為主題,其中有14篇出自我們實驗室。我們有18項工作是在全世界第一次將深度學習用到視覺問題上,包括人臉識別、人臉檢測、人臉重建、物體檢測、人體姿態、圖像超分、三維形狀識別等計算機視覺最核心的問題。在深度學習的大門上,我們按了18次門鈴。”

湯曉鷗還介紹道,王曉剛研發了DeepID人臉識別技術,讓機器做的人臉識別首次超過人類的眼睛,這比Facebook(現Meta公司)做的還早。此外,王曉剛2015年帶隊打敗了谷歌,取得了中國學者史上的第一個大規模視覺識別挑戰賽ImageNet世界冠軍。

二、何愷明:GPT類大模型都在用他的網絡結構

第二個學生是何愷明。何愷明是2003年廣東高考狀元,本科就讀于清華物理系,碩士、博士期間師從湯曉鷗。

商湯湯曉鷗:我的三個學生,如何影響AI世界

▲ Facebook AI Lab研究員何愷明,圖源網絡

湯曉鷗說,何愷明讀碩士期間就發了第一篇文章,并取得了2009年的CVPR最佳論文,這是CVPR整個25年歷史上第一篇出自亞洲的最佳論文。當時湯曉鷗和何愷明開玩笑:“你一出手就到了巔峰,從此以后,你的學術生涯就只能往下走了。”但后來,他去微軟和Facebook工作后一路走高。

2011年,何愷明加入微軟亞洲研究院(MSRA),繼續研究計算機視覺和深度學習。在2015年之前,深度學習最多只能訓練到20多層,他在網絡的每一層引入了一個直聯通道,從而解決了深度網絡梯度傳遞的問題,獲得了2016年的最佳論文。此后,學界可以訓練超過百層的深度學習。在大模型時代,以Transformer為核心的大模型,包括GPT系列,也是普遍采用了這個結構,以支撐上百層的堆疊模型。

湯曉鷗笑說:“何愷明把網絡做深了,谷歌把網絡的入口拉大了,又深又大,才成就了今天的大模型。”

何愷明2016年加入Facebook AI Research(FAIR),在這期間,他首次提出了一個真正高性能的物體檢測和算法框架MaskR-CNN,并獲得了ICCV?2017年最佳論文。

湯曉鷗稱,何愷明是世界上唯一一個在畢業不到十年內,三次以第一作者的身份獲得CVPR、ICCV最佳論文的人。他首次把基于源碼的自編碼思想用于視覺領域的非監督學習,開啟了計算機視覺領域自監督學習大門,并被推廣到三維、音頻甚至是AI領域。

湯曉鷗還透露,何愷明即將會有一個“比較震撼的動作”。

三、林達華:主導OpenMMLab,開發書生系列大模型

第三個學生是林達華,他本科就讀于中國科大,碩士在香港中文大學,博士是MIT(麻省理工大學)。他2010年在MIT讀博士期間,獲得機器學習的最高獎——NIPS(神經信息處理系統大會)最佳學生論文,2014年回到湯曉鷗的實驗室做教授。

商湯湯曉鷗:我的三個學生,如何影響AI世界

▲香港中文大學教授林達華,圖源網絡

湯曉鷗稱:“林達華的第一項工作成果是OpenMMLab,2018年從一個小團隊開始,在沒有推廣投入的情況下,以口口相傳的形式成為國際上最具影響力的視覺算法開源體系,在GitHub上累積了8萬多個星標,目前用戶遍及全球140多個國家和地區,60%用戶來自海外。”

湯曉鷗還介紹了林達華的其他兩項工作成果,即將正式發布的千億參數、8K的多語種大語言模型“書生·浦語”,和2000億參數、覆蓋100平方公里的城市級實景三維大模型LandMark。

四、AI大樹“結果”:全華團隊首次獲CVPR最佳論文

對于三名學生在人工智能領域的成果,湯曉鷗評價:“王曉剛在深度學習興起的最初幾年,灑下了很多原創的種子;何愷明將深度學習的根基打得非常牢、非常深;林達華通過開發和大模型讓它枝繁葉茂。”

他還說:“讓我非常欣慰的是,這顆大樹已經開始開花結果。就在兩周前,我們的自動駕駛大模型從9155篇文章中脫穎而出,獲得了CVPR?2023年的最佳論文獎。”湯曉鷗援引谷歌學術統計,稱這是改革開放40多年來第一篇全部由中國學者完成的國際計算機視覺三大頂會的最佳論文,論文的牽頭作者是王曉剛帶出來的博士。此外,OpenMMLab是林達華帶出來的博士陳愷做出來的。

當年湯曉鷗實驗室的另一篇“超過人眼的人臉識別技術”論文的作者陸超超,也從劍橋大學博士畢業回到了上海,正在和中國唯一的圖靈獎獲得者姚期智先生在上海的期智研究院合作,從事AI基礎理論研究。湯曉鷗不禁感慨道:“人工智能領域,新一代的學生已經在上海成功起步!”

在演講的最后,湯曉鷗再一次感謝上海,感謝合作過的學生與老師,并援引了于謙在電影《好老師》的一句臺詞:“我不是在最好的時光遇見了你們,而是遇見了你們才有了這段最好的時光。”

作為一個在上海工作的東北人,湯曉鷗帶有東北人自帶的幽默感,他最后感嘆到,自己每天晚上睡覺前,都是一邊聽著于謙老師的相聲,一邊在想:“機器怎么可能超過這樣有趣的靈魂?我不信。”

結語:中國AI高峰背后,幾代人砥礪前行

在2023 WAIC上,湯曉鷗分享了自己的三名學生在大模型領域做出的原創貢獻,包括王曉剛讓機器的人臉識別能力超過人眼;何愷明開發深度殘差網絡,把網絡做深,助力今天的大模型;林達華開發書生系列千億級參數大模型。通過梳理這三名學者的研究成果,也向我們展示了中國的深度學習研究從起步、成長到進一步枝繁葉茂的過程。

現在,人工智能已經成為國家發展重點戰略,今年的CVPR最佳論文更是由全中國學者所完成的。這不僅僅是一批人的成就,更展現了一代代中國人工智能學者薪火相傳、勇攀高峰的過程。