「大廠講壇」是智東西公開課教研團隊全新策劃推出的系列直播課,將邀請國內科技/互聯網大廠開設專區,圍繞其最新研究成果、核心技術、業務創新等,持續帶來多場直播講解。商湯專區是「大廠講壇」的第二個專區,特邀商湯科技工具鏈團隊的三位研究員,深度講解其如何在模型量化領域從算法創新和工具沉淀兩個維度助力SenseCore AI大裝置,降低量化模型的生產成本,打造具有極致部署效率和規模化落地能力的量化模型生產體系,并分享該體系中的核心算法原理以及工具使用介紹,希望推動整個領域和社區的共同發展。

在8月23日的商湯專區第一講中,商湯科技高級研究員龔睿昊圍繞主題《離線量化算法研究》,對DFQ、Adaround等經典離線量化算法,以及商湯最新提出的基于塊重建的量化算法Brecq進行了深度講解。

在深度學習的各個垂直領域中,模型量化對高效推理部署是至關重要的。對于提升量化模型精度的方法,其中上限最高的就是量化感知訓練。量化感知訓練在訓練的過程中,通過網絡模擬量化的效果進行參數更新和優化,量化的效果最好,可以讓網絡參數能更好地適應量化帶來的信息損失。

量化感知訓練由于數據的量化,與正常的訓練過程在層的使用和訓練的策略上有些不同:

1)網絡參數的量化,BN層統計的均值和方差會有抖動,造成訓練的不穩定。所以一般是先進行正常的訓練,得到模型后凍結BN進行finetune,或者在一定的epoch后凍結BN進行訓練;

2)移動端網絡經常使用RELU6代替RELU限制激活值來提升模型的準確率,但這種方式在量化感知訓練中行不通。量化感知訓練過程中需要讓網絡自行確定激活值的范圍后才能得到更好的結果;

3)在量化感知訓練中要小心使用指數滑動平均(EMA)的參數更新策略。反向傳播使用的是量化后的權重,量化使得權重的震蕩變大,使用EMA會導致訓練的不穩定。

近年來在量化感知訓練中也有了很多代表性的工作,然而也有部分工作只能夠在紙面上達到宣稱的精度/速度而無法落地。9月9日晚7點,「大廠講壇」商湯專區第2講,智東西公開課特邀商湯科技工具鏈團隊見習研究員李雨杭,為大家全面解析《可部署的量化感知訓練算法研究》。

李雨杭目前是商湯科技見習研究員,也是耶魯大學準博士一年級新生。他主要的研究方向為模型量化與部署,包括量化感知訓練和后訓練量化以及量化框架的開發設計,致力于解決神經網絡在部署過程中低速推理的問題,曾在ICLR、AAAI、CVPR、IEEE VR、ICCV、ICML、 NeurIPS等會議上發表論文共計10篇。

在本次課程中,李博將首先會介紹一些量化感知訓練里的基礎設置,例如Fold BN如何選擇,量化操作如何計算梯度等等,接著會分析一下過去幾年中比較有代表性的量化感知訓練方法,以及它們中新穎的觀點,最后會指出大多數量化感知訓練只能夠在紙面上達到宣稱的精度/速度而無法落地的問題,并深度講解商湯科技面向可部署的量化感知訓練算法和工具。

本次課程我們組建了相應的技術討論群。加入討論群,除了可以免費收看直播進行學習之外,還能與講師,以及更多研究人員和開發者認識和交流。

直播課介紹

課 程 主 題

《可部署的量化感知訓練算法研究》

課 程 提 綱

1、模型量化中的量化感知訓練
2、經典的量化感知訓練算法及局限性
3、面向可部署的量化感知算法和工具

講 師 介 紹

李雨杭,商湯科技見習研究員,現為耶魯大學準博士一年級新生;期間主要的研究方向為模型量化與部署,包括量化感知訓練和后訓練量化以及量化框架的開發設計,致力于解決神經網絡在部署過程中低速推理的問題;曾在ICLR,AAAI,CVPR,IEEE VR,ICCV,ICML, NeurIPS會議上發表論文共計10篇。

直 播 信 息

直播時間:9月9日19:00
直播地點:智東西公開課知識店鋪