智東西(公眾號:zhidxcom)
編譯 |? 香草
編輯 |??李水青

智東西8月24日消息,8月23日,IBM研究中心發布了一款新型模擬AI芯片,在語音識別和轉錄等自然語言處理AI任務上,其能源效率較傳統芯片提升約14倍,相關論文已刊發于國際頂刊Nature。

據介紹,這款芯片的設計靈感來源于人腦,可以在14nm芯片上集成3500萬PCM(相變存儲器)。IBM研發團隊在此芯片上進行了語音識別和轉錄實驗,在保障準確率的前提下,速度和能效均有很大提升。

一、利用PCM存儲數據,模擬芯片解決AI技術高能耗問題

AI相關技術在飛速發展的同時,也面臨著能源消耗的問題。為了提升能源效率,IBM來自世界各地實驗室的研究人員共同研發了這款模擬AI芯片。據稱,在兩個AI推理實驗中,該芯片都像同類數字芯片一樣可靠地執行任務,但其完成任務的速度更快,能耗更低。

IBM稱,其研究人員一直都在深耕模擬AI芯片領域。2021年,其團隊就發布了一款名為Fusion的模擬芯片,利用PCM設備的存儲能力和物理屬性,更高效地實現人工神經網絡。

傳統計算機基于馮·諾依曼結構——一種將程序指令存儲器和數據存儲器合并在一起的電腦設計概念結構,每次計算都將數據從DRAM(動態隨機存取存儲器 )內存傳輸到CPU,導致工作速度受到實際限制,永遠無法實現CPU的真正計算能力,這被稱為“馮·諾依曼瓶頸”。

IBM模擬AI芯片登Nature:能效提升14倍,語音識別速度提升7倍

▲當每次計算將數據從DRAM內存傳輸到CPU時,傳統計算機就會出現瓶頸(圖源:IBM官網)

利用PCM設備的物理特性,模擬芯片可以克服馮·諾依曼瓶頸,在存儲數據的同一位置執行計算。由于沒有數據移動,它可以在很短的時間內執行任務,并且消耗的能源更少。

IBM模擬AI芯片登Nature:能效提升14倍,語音識別速度提升7倍

▲模擬芯片通過在存儲數據的地方執行計算來克服瓶頸(圖源:IBM官網)

例如,將64位數據從DRAM移動到CPU會消耗1-2nJ(納焦)能量,而在PCM設備上執行只需消耗1-100fJ(飛焦),是前者的1萬至200萬分之一。當擴展到數十億次操作時,所節省的能源是巨大的。此外,當設備不活動時,PCM不會消耗電力,即使斷電,數據也將保留10年。

二、采用全新設計方式,14nm芯片可編碼3500萬個PCM

雖然IBM早在兩年前便已研發出了模擬芯片,并嘗試將其用于提升AI計算性能,但Fusion芯片一次只能訪問一個PCM設備,對速度和能效的提升并不顯著。

IBM本次發布的這款芯片采用了新的設計方式,利用34個大型PCM陣列,結合了數模轉換輸入、模擬外圍電路、模數轉換輸出和大規模并行二維網格路由。每個14nm芯片上可編碼3500萬個PCM,在每權重對應2-PCMs的方案中,可容納1700萬個參數。將這些芯片組合在一起,便能夠像數字芯片一樣有效地處理真實AI用例的實驗。

IBM模擬AI芯片登Nature:能效提升14倍,語音識別速度提升7倍

▲IBM模擬AI芯片的顯微照片(圖源:論文插圖)

上圖中,圖a顯示了芯片的顯微照片,突出顯示了34個PCM陣列模塊的2D網格,每個模塊都有自己的512×2048 PCM交叉陣列。PCM器件集成在14nm前端電路上方的后端布線中(圖b),可通過電脈沖調整窄底電極上晶體相(高導電性)和非晶相(高電阻性)材料的相對體積來編碼模擬電導狀態。對PCM器件進行編程時采用并行編程方案(圖c),這樣同一行中的所有512個權值都會同時更新。

該研發團隊采用的方法是優化主導深度學習計算的MAC(乘積累加運算)。通過讀取電阻式NVM(非易失性存儲器)設備陣列的行,然后沿列收集電流,團隊證明可以在存儲器內執行MAC,無需在芯片的存儲器和計算區域之間或跨芯片移動權重。

三、精確度不減,語音識別速度提升7倍、大模型運行能效提升14倍

為了驗證芯片的有效性,該團隊設計了兩個實驗對其進行測試。他們從MLPerf中選擇了兩個神經網絡模型,分別是語音喚醒和語音轉文本模型。MLPerf是由斯坦福、哈佛等頂尖學術機構發起成立的,權威性最大、影響力最廣的國際AI性能基準測試。

第一個實驗圍繞關鍵詞語音檢測展開。該團隊提出了一種卷積神經網絡架構,并在包含12個關鍵字的谷歌語音命令數據集上進行訓練。團隊采用了架構更簡單的FC(全連接)網絡結構,最終達到了86.14%的識別精度,且提交速度比MLPerf目前最佳情況快7倍。該模型使用硬件感知訓練在GPU上進行訓練,然后部署在團隊的模擬AI芯片上。

IBM模擬AI芯片登Nature:能效提升14倍,語音識別速度提升7倍

▲端到端語音喚醒任務相關圖表(圖源:論文插圖)

第二個實驗圍繞語音轉文本展開,規模更大。團隊使用5個模擬AI芯片組合在一起,運行RNN-T(循環神經網絡轉換器)模型,以逐個字母地轉錄語音內容。該系統包含5個芯片上1.4億個PCM設備的4500萬個權重,能夠采集人們說話的音頻并以非常接近數字硬件設置的精度進行轉錄。該實驗最終達到9.258%的單詞錯誤率,能量效率達6.704TOPS/W(萬億次操作每秒/瓦),比MLPerf目前最佳能效提高了14倍。

IBM模擬AI芯片登Nature:能效提升14倍,語音識別速度提升7倍

▲模擬AI芯片在RNN-T模型上表現出的性能相關圖表(圖源:論文插圖)

與第一個實驗不同,這個實驗并不完全是端到端的,這意味著它確實需要一些片外數字計算。IBM稱,這里涉及的額外計算很少,如果在芯片上實現,最終的能效仍然高于當今市場上的產品。

結語:模擬AI芯片能否成為下一個趨勢

繼2021年推出第一款模擬芯片Fusion后,IBM于近日發布了專攻AI的模擬芯片,速度、能效均比傳統數字芯片大幅提升,準確率也保持高水準。

傳統芯片受制于“馮·諾依曼瓶頸”,而模擬芯片可以打破這一桎梏,為AI技術帶來新的生命力。未來,模擬芯片市場能否得到進一步發展,我們會持續關注。

來源:Nature、IBM官網