「機器學習前沿講座」,是智東西公開課針對機器學習領域推出的一檔講座,聚焦于機器學習前沿領域研究成果與進展。目前第一季已經完結15講,第二季正在進行,我們將持續邀請研究者、專家與資深開發者,為大家帶來直播講解。

帶噪學習是指在訓練數據的真實標簽發生了標記錯誤情況下,如何讓模型在訓練時對錯誤標簽魯棒。這個領域已經發展了很多年,在深度學習的背景下,新的方法不斷出現。常見的帶噪學習算法有很多,有的是基于自步學習的策略在訓練時動態剔除噪音樣本(MentorNet,?co-teaching,?co-teaching+?… ),有的是設計一個loss function,讓loss本身對標簽數據魯棒(MAE,?GCE,?L_dmi…)。

基于loss的方法更容易提供理論的最優性保證,比如可以證明在給定噪音標簽分布下,designed loss在噪音分布下優化的結果等價于cross entropy在干凈數據下優化的結果。在建模label noise時,大多數網絡采用的都是random noise (symmetric or asymmetric),然而實際上在真實世界的數據集中,存在更多的是instance-dependent (feature-dependent) label noise,即特征相關的噪音標簽。比如標注人員容易把狼標記為狼狗,但是不會輕易把狼標記成桌子。如何讓模型對instance-dependent label noise 魯棒不僅在技術上存在著比較多的難題,在理論上也不好建模(和instance-independent相比)。

ICLR2021,加州大學圣克魯茲分校在讀博士朱兆偉等人在論文《Learning with Instance-Dependent Label Noise: A Sample Sieve Approach》中提出了一個instance-dependent label noise的解決方案,它可以提供最優性的保證。自步學習+雙網絡互相學習(co-teaching)的策略對處理instance-dependent label noise的效果并不好,所以他們對loss進行了改進,加入了一個regularizer,這個regularizer起到一個推動器的作用,可以更好地將噪音樣本和干凈樣本在loss層面上分開從而篩選出干凈樣本。同時自步學習往往被批評需要pre-defined threshold來判斷樣本的type (noise or not), 他們針對這個問題又提出一個自適應的動態閾值來保證篩選出干凈樣本純度的理論最優。

2月23日上午10點,智東西公開課邀請到朱兆偉博士參與到「機器學習前沿講座第二季」第3講,帶來主題為《基于樣本篩選的帶噪學習研究》的直播講解。在本次的講解中,朱博將從標簽噪聲對模型訓練的影響和帶噪學習的定義及現有的一些方法出發,深度講解他們在ICLR2021中提出的基于置信度的正則項設計和CORES方法。對帶噪學習和弱監督感興趣的朋友可以關注學習呀。

朱兆偉是加州大學圣克魯茲分校在讀博士,研究興趣集中在弱監督學習、聯邦學習等領域相關的理論,比如,訓練標簽帶有人為標注噪聲時如何設計損失函數去抵消噪聲影響,如何處理聯邦學習中低質量、有系統誤差的本地訓練集。他目前在ICLR,ACM Sigmetrics等會議和IEEE TWC,IEEE TPDS等期刊上發表多篇一作論文。

直播課介紹

課程主題

《基于樣本篩選的帶噪學習研究》

課程提綱

1、標簽噪聲對模型訓練的影響
2、帶噪學習研究方法
3、基于置信度的正則項設計
4、CORES:基于置信正則項的動態樣本篩選

講師介紹

朱兆偉,加州大學圣克魯茲分校在讀博士,研究興趣集中在弱監督學習、聯邦學習等領域相關的理論,比如,訓練標簽帶有人為標注噪聲時如何設計損失函數去抵消噪聲影響,如何處理聯邦學習中低質量、有系統誤差的本地訓練集;目前在ICLR,ACM Sigmetrics等會議和IEEE TWC,IEEE TPDS等期刊上發表多篇一作論文。

直播信息

直播時間:2月23日10:00
直播地點:智東西公開課小程序

加入討論群

加入討論群,除了可以免費收看直播之外,還能認識講師,與更多朋友一起學習,并進行深度討論。
 添加小助手曼曼(zhidxclass006)即可申請,備注“姓名-公司/學校/單位-職位/專業”的朋友將會優先審核通過哦~