芯東西(公眾號:aichip001)
編譯 |? 程茜
編輯 | Panken

芯東西10月17日消息,10月13日,北京大學AI研究院孫仲研究員團隊及合作者的新研究成果,登上國際頂級學術期刊Nature子刊Nature Electronics。

該團隊成功研制出基于阻變存儲器的高精度、可擴展模擬矩陣計算芯片,將傳統模擬計算的精度提升了五個數量級,首次將模擬計算的精度提升至24位定點精度,可與數字計算媲美。

論文提到,相關性能評估表明,該芯片在求解大規模多輸入多輸出(MIMO)信號檢測等關鍵科學問題時,在相同的精度下,該模擬計算方法可以提供比最先進的GPU高1000倍的吞吐量和100倍的能效

孫仲認為,這項進展能在未來的6G通信領域讓基站實時、低能耗處理海量天線信號,提升網絡容量和能效;在AI領域其有望加速大模型訓練中計算密集的二階優化算法從而提升訓練效率,此外其低功耗特性也可支持復雜信號處理和AI訓推一體在終端設備上的直接運行,推動邊緣計算發展。

這一成果標志著我國突破模擬計算世紀難題,在后摩爾時代計算范式變革中取得重大突破,為應對AI與6G通信等領域的算力挑戰開辟了全新路徑。

論文的題目為《基于阻變存儲器芯片的高精度、可擴展模擬矩陣方程求解技術(Precise and scalable analogue matrix equation solving using resistive random-access memory chips)。該研究由北京大學AI研究院通用AI芯片研究中心主導,并聯合集成電路學院研究團隊完成,孫仲課題組在項目攻關中發揮了核心作用,是此項成果的主要貢獻者。

算力達GPU千倍!北大芯片突破登Nature子刊

▲Nature Electronics論文發布主頁

論文地址://www.nature.com/articles/s41928-025-01477-0

一、讓模擬計算兼顧高精度、可擴展性是世紀難題

在傳統器件尺寸縮放逼近物理極限、傳統馮·諾依曼架構面臨“內存墻”瓶頸的雙重背景下,高復雜度計算給傳統數字計算機帶來了嚴峻挑戰。

模擬計算具備通過物理定律直接實現高并行、低延時、低功耗的先天優勢,但此前傳統模擬計算因受限于低精度、難擴展等缺點使其逐漸被數字計算所取代。

當下,孫仲認為:“如何讓模擬計算兼具高精度與可擴展性,從而在現代計算任務中發揮其先天優勢,一直是困擾全球科學界的‘世紀難題’。

解決這一難題的可行路徑是基于阻變存儲器陣列的模擬矩陣計算技術(AMC),基于“陣列-運算放大器”閉環反饋原理設計的矩陣求逆電路,能夠實現矩陣求逆的一步式求解。其可以通過在阻變存儲器陣列和運算放大器(OPA)等傳統模擬元件之間建立閉環反饋,所得電路可以一步解決矩陣反轉(INV)。

算力達GPU千倍!北大芯片突破登Nature子刊

▲模擬矩陣計算電路求解矩陣方程

但這類電路的低精度特性、電路的硬連接結構仍是挑戰。

此外,在模擬矩陣乘法計算中,比特切片、模擬補償可用于精確執行矩陣向量乘法,但使用此類技術求解矩陣方程具有挑戰性,矩陣方程求解過程缺乏有效的分配律與分塊矩陣方法支撐,這使得使得解決模擬INV的精度和可擴展性問題具有挑戰性。

論文提到,其中一種解決方案是采用模擬-數字混合設計。以前的方法將基于MVM的低精度迭代模擬求解器結合在迭代細化算法中,浮點數字計算機用于執行高精度MVM(HP-MVM)運算,收斂到準確的結果。

但這種方案會削弱模擬計算在降低復雜性方面的優勢,并且需模擬-數字轉換,導致矩陣方程求解性能只能逐步提高。模擬INV僅限于具有無源電阻隨機存取存儲器(RRAM)陣列的小規模電路,這不利于晶圓代工制造,并且缺乏可靠的多級存儲器特性。

二、提出高精度、可拓展全模擬矩陣方程求解器,首次將模擬計算精度提升至24位定點精度

在此基礎上,北京大學AI研究院孫仲研究員團隊提出了一種基于阻變存儲器陣列的高精度、可拓展的全模擬矩陣方程求解器

該方案使用一種迭代算法,結合了模擬低精度矩陣求逆(LP-INV)和模擬高精度矩陣向量乘法(HP-MVM)運算,通過將這些芯片與分塊矩陣算法相結合,首次將模擬計算的精度提升至24位定點精度。模擬INV通過在每次迭代中提供近似正確的結果來減少迭代次數,高精度模擬MVM則通過比特切片實現。

此外,模擬低精度矩陣求逆和模擬高精度矩陣-向量乘法運算兩個電路的阻變存儲器陣列在40nm CMOS工藝平臺制造,可實現3比特電導態編程。

算力達GPU千倍!北大芯片突破登Nature子刊

▲高精度全模擬矩陣計算求解矩陣方程

研究團隊還在硬件中驗證了BlockAMC方法,該方法使用塊矩陣求解大規模矩陣方程,并使用它來求解中等規模16×16矩陣方程。

具有模擬矩陣運算的HP-INV方案,由LP-INV和HP-MVM作的迭代組成,兩者均由AMC電路實現。HP-INV方法可以擴展到求解實值和復值矩陣方程,這些矩陣方程經常出現在科學計算中的微分方程和無線通信中的信號處理等應用中。

研究人員評估了導線電阻對HP-INV收斂率的潛在影響,與基于RRAM的MVM應用相比,在片上構建大規模INV電路更具挑戰。盡管如此,32×32至64×64的陣列已經可以在吞吐量和能效方面提供顯著增益,盡管它比典型的基于RRAM的MVM電路小得多。

目前其對于LP-INV的演示仍然僅限于8×8個陣列,擴展到更大的32×32實現將需要專用的芯片設計和流片驗證。

研究團隊認為,對于此類設計,將中等規模的LP-INV與HP-MVM集成在單個芯片上將特別有價值,并且應該成為未來研究的主要焦點。

三、計算吞吐量、能效是GPU的千倍、百倍,可應用于大規模輸入輸出

該方案實現了計算精度提升,通過與塊矩陣算法相結合,研究團隊在實驗上成功實現了16×16矩陣的24比特定點數精度求逆,也就是矩陣方程求解經過10次迭代后,相對誤差可低至10??量級

算力達GPU千倍!北大芯片突破登Nature子刊

▲基于塊矩陣方法求解高精度、可拓展矩陣方程的實驗結果

在計算性能方面,北京大學AI研究院公眾號提到,其測試結果表明,在求解32×32矩陣求逆問題時,其算力已超越高端GPU的單核性能;當問題規模擴大至128×128時,計算吞吐量更達到頂級數字處理器的1000倍以上

能效比方面,其在相同精度下能效比傳統數字處理器提升超100倍。

在應用驗證層面,大規模多輸入多輸出(MIMO)技術有望在5G-A和6G時代大幅提高無線通信系統的服務質量,但在大規模MIMO中,基站(BS)的天線數量遠大于用戶設備的天線數量。

模擬求解器可應用于大規模MIMO系統的檢測過程,與采用256-QAM調制的128×8系統的數字求解器相比,僅在三個迭代周期內就顯示出相同的誤碼率性能

算力達GPU千倍!北大芯片突破登Nature子刊

▲高精度矩陣方程求解在大規模多輸入多輸出(MIMO)迫零檢測信號處理過程中的應用

綜合基準測試結果證實,在保持相當計算精度的前提下,該模擬計算方法可實現領先的處理速度和能效。

算力達GPU千倍!北大芯片突破登Nature子刊

結語:為算力提升探索出一條極具潛力的路徑

這篇論文提出的基于阻變存儲器陣列的高精度、可拓展的全模擬矩陣方程求解器,為應對AI與6G通信等領域的算力挑戰開辟了全新路徑。

孫仲認為,這項突破的意義遠不止于一篇頂刊論文,它的應用前景廣闊,可賦能多元計算場景,有望重塑算力格局,“這項工作的最大價值在于,它用事實證明,模擬計算能以極高效率和精度解決現代科學和工程中的核心計算問題。可以說,我們為算力提升探索出一條極具潛力的路徑,有望打破數字計算的長期壟斷,開啟一個算力無處不在且綠色高效的新時代。”