智東西(公眾號:zhidxcom)
編 | 王穎
智東西5月7日消息,ICLR在其官網公布了ICLR大會2019的兩篇最佳論文,這兩篇論文在ICLR大會共收到的大約1600份論文中脫穎而出,它們分別是,加拿大蒙特利爾算法學習研究院MILA發表的NLP深度學習模型論文和麻省理工學院計算機科學與AI實驗室CSAIL發表的神經網絡壓縮技術論文。
CSAIL的研究論文“彩票假設:尋找稀疏、可訓練的神經網絡”清楚的向我們展示了深度神經網絡如何以更小的規模、更快的速度創建模型。

這篇論文的研究成果計劃在5月6日~9日新奧爾良舉行的國際學習代表大會ICLR上展示。
研究論文表明,深度神經網絡能夠將訓練網絡的參數個數減少90%以上,降低存儲要求,提高推理的計算性能。雖然網絡規模大幅減小,但它們能夠被訓練做出同樣精確的預測,在某些情況下甚至比原始網絡更快。
那么到底什么是深度神經網絡?這種網絡構建的模型又能起到什么作用呢?接下來,請通過下文了解深度神經網絡。
一、什么是深度神經網絡?
深度神經網絡,以生物神經元為模型的數學函數層,是一種多功能的AI體系結構,能夠執行從自然語言處理到計算機視覺的各種任務。
深度神經網絡通常非常大,需要相應的大型語料庫,即使是最昂貴的專用硬件,對它們進行訓練也可能需要數天時間。
如果初始網絡不需要那么大,為什么不能在一開始就創建一個大小合適的網絡呢?針對這個疑問,論文合著者Jonathan Frankle博士表示,通過神經網絡,可以隨機初始化這個大型網絡結構,并在進行大量數據進行訓練之后開始工作。
Jonathan Frankle說:“這種大型結構就像買了一堆彩票,即使只有很少的幾張彩票能讓你變得富有,但我們仍然需要一種技術,在沒有看到中獎號碼的情況下找到獲獎者。”
二、深度神經網絡如縮小規模?

研究人員縮小神經網絡規模的方法包括消除這些功能(或神經元)之間不必要的連接,以使其適應功能較低的設備,這一過程通常稱為剪枝。(他們特別選擇了具有最低“權重”的連接,這表明它們是最不重要的。)
接下來,他們在不對連接進行剪枝的情況下訓練網絡并重置權重,在修剪其他連接后,他們確定了有多少連接可以被刪除而不影響模型的預測能力。
雖然剪枝后的系數架構會使訓練過程變得更難,但這也帶來一個好處,通過訓練難度的增加提高性能。
Michael?Carbin和Jonathan Frankle在論文中表示,標準的剪枝技術可以自然地揭示子網絡的初始化使它們能夠有效地訓練。
在一系列條件限制下,通過不同的網絡重復這一修剪過程數萬次之后,他們報告稱,他們發現的AI模型的規模不到完全連接的父網絡的10%至20%。
三、沒有最好只有更好的深度神經網絡
論文合著者兼助理教授Michael Carbin表示,重新設置一個表現良好的網絡通常會帶來更好的結果,這表明無論我們第一次做什么,都不是最佳選擇,這些模型還有改進的空間,可以學習如何改進自己。
Michael?Carbin和Jonathan Frankle指出,他們在較小的數據集上進行以視覺為中心的分類任務,把探索為什么某些子網絡特別擅長學習和快速識別這些子網絡的方法留給了未來的工作。
他們認為,深層神經網絡的研究結果可能對遷移學習產生影響,遷移學習是一種為一項任務訓練的網絡適應另一項任務的技術。
結語:深度神經網絡已與現代應用深度融合
深度神經網絡能夠提取更多的數據特征,獲取更好的學習效果。目前,深度神經網絡已經成為許多AI應用的基礎,這項技術已經應用于語音識別、圖像識別、自然語言處理等領域。
借助AI模型解決復雜問題是現在研究領域的重點工作內容,深度神經網絡能夠大幅縮小這些模型的規模,將為AI技術帶來更方便、更快速的精準運算。
論文鏈接://arxiv.org/abs/1803.03635
原文來自:VentureBeat