芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西3月13日報道,被業界譽為“芯片設計國際奧林匹克會議”的國際固態電路大會(ISSCC 2023)近日在美國舊金山舉行。今年恰逢ISSCC 70周年大慶,這也是自2020年疫情以來首次全線下模式召開的芯片設計領域的國際盛會,來自全球產學界的數千名領域專家齊聚。

ISSCC始于1953年,是全球學術界和工業界公認的集成電路設計領域最高級別會議,通常是各個時期國際上最頂尖固態電路技術最先發表之地。世界上第一個集成模擬放大器芯片、第一個8位微處理器芯片、第一個32位微處理器芯片、第一個1Gb內存DRAM芯片、第一個多核處理器芯片等里程碑式發明均是在ISSCC首次披露。

在2023年ISSCC共錄用的198同行評審論文中,中國大陸及港澳地區貢獻了59篇,排名世界第一,中國臺灣地區貢獻了23篇。其中清華大學為第一署名單位的論文共入圍13,北京大學有6論文獲收錄。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一▲中國機構獲ISSCC收錄文章趨勢(圖源:清華大學電子工程系)

本屆大會上,北京大學集成電路學院/集成電路高精尖創新中心共有6篇高水平論文入選,研究成果覆蓋了存算一體AI芯片、模擬與數字混合芯片、時鐘芯片、高速互連芯片等領域,涉及ISSCC大會全部12大領域中的4個領域,論文數在國際高校里排名第5,在國際高校和企業里排名第9,這也是北京大學連續4在ISSCC大會上發表論文。?

清華大學電子工程系共有5篇高水平論文入選,研究成果涵蓋了近似數字存內計算電路、面向自動駕駛等領域的3D點云處理器、超低功耗模數轉換電路、寬帶太赫茲倍頻芯片、面向神經接口的超低功耗高吞吐率發射機設計

本文將這11篇論文分為存算一體/近存計算芯片、3D點云處理器芯片、面向物聯網IoT應用的芯片、模數轉換芯片、通信芯片五大類。

具體介紹如下:

一、存算一體/近存計算:減少功耗開銷,大幅提高能效

1、存算一體AI芯片:高能效、高算力、高通用性

以《面向邊緣AI處理的基于差值求和方式的21.38TOPS/W的SRAM存內計算芯片》(A 22nm Delta-Sigma Computing-In-Memory (ΔΣCIM) SRAM Macro with Near-Zero-Mean Outputs and LSB-First ADCs Achieving 21.38 TOPS/W for 8b-MAC Edge AI Processing)為題的論文發表于ISSCC 2023,文章共同第一作者是北京大學集成電路學院博士生陳沛毓、北京大學集成電路學院博士生武蒙,通訊作者是馬宇飛研究員和葉樂教授。

面向邊緣AI場景,針對傳統存內計算芯片冗余數據處理產生功耗浪費的問題,課題組提出了基于差值求和計算方式的模擬存內計算拓撲,利用邊緣AI場景中輸入特征值逐漸且偶然變化的特點,自適應的消除冗余數據處理產生的功耗,顯著提升了神經網絡計算能效。該創新通過處理輸入變化量而非輸入絕對值的方式,最大限度消除了不變數據處理所浪費的功耗,提升了計算效率。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一▲(a)差值求和存內計算芯片數據流與架構圖(圖源:北京大學集成電路學院)

北京大學黃如院士-葉樂教授團隊,提出了差值輸入技術和差值矩陣乘法技術,通過將輸入特征值由絕對量變為變化量的方式,降低了存內計算陣列計算功耗,并實現自適應的輸出分布集中;此外,還提出了低位優先模數轉換器,通過減少較小數據模數轉化次數的方式,在不損失計算精度的情況下,顯著降低了模擬存內計算中的模數轉換功耗。

基于上述創新技術,該課題組研制了差值求和模擬存內計算芯片,在8-bit輸入/8-bit權重/全精度輸出的情況下,實現了21.38TOPS/W的峰值能效,1.44TOPS/mm2的峰值單位面積算力;在綜合評估指標(=能量效率×面積效率)下,達到了26.72TOPS/W×TOPS/mm2,是世界最好的存內計算芯片的1.25

該創新具有高能效、高算力、高通用性三大特性,可應用于邊緣端AI計算場景,如圖像識別、語音識別、安防監控等。該創新有望與圖像傳感器相結合,實現針對邊緣端AI的感存算一體高效智能處理。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一

▲(b)存內計算芯片顯微照片(圖源:北京大學集成電路學院)

2、近似數字存內計算芯片:同工藝下能效提升3倍以上

清華大學劉勇攀、賈弘洋、楊華中教授等發表題為《用于神經網絡推斷的28nm 38~102TOPS/W 8-b無乘近似數字SRAM存內計算宏》(A 28-nm 38-to-102-TOPS/W 8-b Multiply-less Approximate Digital SRAM Compute-In-Memory Macro for Neural-Network Inference)的論文。

數字存內計算技術相比于模擬存內計算具有高精度、易集成的特點,但其能量效率和面積效率受數字乘累加電路限制難以進一步提升。針對該關鍵問題,研究團隊設計并流片驗證了一款基于SRAM的高能效近似數字存內計算芯片

該芯片采用加法網絡近似傳統卷積網絡,通過L1距離代替乘法運算,大幅削減了數字電路開銷,同時采用預計算重塑數據流,將絕對值計算進一步簡化為比較操作。此外,設計的高密度動態邏輯比較器通過電路級的可約束近似計算進一步提升能效和面積效率。

基于以上創新點設計的存內計算芯片采用28nm工藝制造,峰值8比特計算能量效率達到102TOPS/W,相比于相同工藝下數字存內計算工作能效提升3倍以上,展示了近似數字存內計算電路的性能優勢。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一▲存內計算核心芯片及硬件指標(圖源:清華大學電子工程系)

二、3D點云處理器芯片:支持實現4類稀疏卷積,能效提升2倍以上

清華大學劉勇攀、楊華中教授等發表題為《用于大規模化點云網絡的28nm 2D/3D統一稀疏卷積加速器和塊級近鄰搜索》(A 28nm 2D/3D Unified Sparse Convolution Accelerator with Block-Wise Neighbor Searcher for Large-Scaled Voxel-Based Point Cloud Network)的論文。

相比2D視覺信息,3D點云數據可以提供豐富的幾何、形狀和深度信息,使得深度3D點云模型在自動駕駛、智能機器人等領域得到廣泛應用。

然而3D點云數據具備稀疏、非規則的分布特性,帶來隨機數據存取訪問、2D/3D多樣稀疏卷積計算、非均衡計算核心調度等硬件難題,限制其面向實際應用落地。

為提升點云模型的硬件運行效率,研究團隊設計并發布了2D/3D融合的稀疏點云加速器芯片。團隊基于分塊存儲管理機制實現無序稀疏數據的連續、高效傳輸,設計2D/3D多稀疏度可重構卷積計算電路實現4類稀疏卷積的高效支持,提出多核心混合調度優化策略解決稀疏計算存在的負載不均衡、數據復用效率低的問題。

該芯片是首款支持大規模化點云模型端到端運行的智能芯片,在臺積電28nm工藝下成功流片,峰值處理能效達到4.68TOPS/W,相比2022年文獻中的相關工作能效提升2倍以上

同時,團隊將該芯片與激光雷達集成實現了可演示實時系統,并在ISSCC Demo環節中進行展出,顯示出其對點云模型強大的實時推理能力。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一▲點云加速器芯片及硬件指標(圖源:清華大學電子工程系)

三、面向物聯網IoT應用的芯片:創高能效、低功耗世界記錄

1、高能效電容型感知芯片:突破高精度電容傳感器的能效世界紀錄

北京大學集成電路學院博士生高繼航作為論文第一作者、沈林曉研究員和葉樂教授作為通訊作者的論文《基于采樣熱噪聲消除和非完全建立相關電平抬升技術的7.9fJ/Conversion-Step,37.12aFrms噪聲的流水線逐次逼近型寄存器架構電容-數字轉換器芯片》(A 7.9 fJ/Conversion-Step and 37.12 aFrms Pipelined-SAR Capacitance-to-Digital Converter with kT/C noise cancellation and Incomplete-Settling based Correlated Level Shifting),發表于今年ISSCC的模擬傳感器前端領域分會場。

該工作面向物聯網傳感器應用,針對不斷上升的高速高精度電容數字轉換器需求,實現了一款高性能電容傳感器,解決了傳統高精度電容傳感器的架構不利于高速轉換的問題,突破了傳統電容采樣過程中采樣熱噪聲造成的性能瓶頸。

針對以上問題,北京大學黃如院士-葉樂教授團隊,從架構電路兩個層面提出解決方案。

架構層面,本工作創新性地將流水線型逐次逼近型寄存器轉換架構引入電容傳感器領域,突破傳統架構面臨的轉換精度、能效和轉換速度之間的折衷關系。

電路層面,該工作首次提出了可應用于電容傳感中的kT/C采樣噪聲消除技術,解決了小電容傳感中的精度上限問題,突破了采樣熱噪聲的精度瓶頸。

此外,該工作還首次提出了基于不完全建立的相關電平抬升技術,縮短了傳統增益提升技術的粗放大階段,減少了額外功耗,并將等效開環增益大幅提升,提供了極高的增益穩定性,提高了級間放大器的能量效率和精度。

基于上述架構和電路層面的創新,課題組研制了一款基于22nm CMOS工藝的緊湊型高能效電容傳感器芯片該電路在22nm工藝下實現了對0-5.16pF電容值測量,精度達37.12aF,在所有高精度(1fFrms噪聲水平)電容傳感器中具有最高能效(7.9fJ/conv.-step,且達到了71.3dB的信噪比,相較現有工作將能效提升了1

該電路具有高能效、高精度、小面積、高轉換速度等特點,可廣泛應用于面向電容傳感的各類物聯網傳感器和前端應用中,并且為電容傳感芯片的小型化提供了全新的解決方案。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一▲(a)電容傳感器架構圖和創新技術(b)電容傳感器芯片顯微照片和性能對比圖(圖源:北京大學集成電路學院)

2、極低功耗振蕩器芯片:創功耗最低的世界紀錄

該工作以《A 150kHz-BW 15-ENOB Incremental Zoom ADC with Skipped Sampling and Single Buffer Embedded Noise-Shaping SAR Quantizer》為題,發表于今年ISSCC,文章的第一作者是北京大學集成電路學院博士生王宗楠,文章的通訊作者是唐希源研究員。

北京大學集成電路學院博士后張奕涵作為第一作者、葉樂教授作為通訊作者,發表了題為《一款22nm CMOS工藝下利用基于Gm-C的電流注入控制電路實現的0.954nW 32kHz晶體振蕩器》(A 0.954nW 32kHz Crystal Oscillator in 22nm CMOS with Gm-C-Based Current Injection Control)的論文。

該工作面向智能物聯網AIoT芯片應用,針對需要周期喚醒的AIoT芯片,設計并實現了一款超低功耗晶體振蕩器電路,并實現了綜合條件下國際領先的低功耗與計時精度。

北京大學黃如院士-葉樂教授團隊提出了基于Gm-C的電流注入時間控制電路與振幅檢測電路:該技術創新性地利用了Gm-C這一基礎模擬電路模塊,解決了電荷注入式晶體振蕩器的電流注入時間與大小控制的挑戰,使得基于此技術的32kHz實時時鐘(RTC)電路能夠在實現高精度計時的同時,在應用環境溫度范圍內僅消耗最多不到2nW的功耗;與此同時,由于模擬電路功耗主要取決于其偏置電流,在內置電流源的情況下,該電路較已發表的同類工作相比,實現了功耗對溫度最低的敏感性。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一
▲(a)電流注入型晶振結構與電路圖(圖源:北京大學集成電路學院)

基于上述創新理念與技術,課題組研制了一款基于22nm CMOS工藝的超低功耗32kHz晶體振蕩器芯片。該電路在使用ECS-2X6X音叉型32kHz晶體下,在25?C室溫下的平均功耗僅為0.954nW,取得了已發表過的基于32kHz電流注入晶體振蕩器中功耗最低的世界紀錄。其在80?C下的功耗僅為1.90nW,為低功耗晶體振蕩器中的世界紀錄

該晶體振蕩器在長時工作下表現出了低至6ppb的Allan誤差(Allan Deviation),取得了單電源晶體振蕩器電路的長時穩定性世界紀錄。該電路可廣泛應用于面向環境應用的IoT芯片中,作為其中低功耗高精度實時時鐘模塊的核心。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一

▲(b)晶振芯片顯微照片(圖源:北京大學集成電路學院)

四、模數轉換:最高輸入帶寬,最低系統功耗

1、高能效模數轉換器芯片:最高輸入帶寬,領先能效水平

北京大學集成電路學院博士生王宗楠作為第一作者、唐希源研究員作為通訊作者的論文“A 150kHz-BW 15-ENOB Incremental Zoom ADC with Skipped Sampling and Single Buffer Embedded Noise-Shaping SAR Quantizer”發表于今年ISSCC。

面向語音識別、智慧醫療等多種物聯網應用,針對其對中等帶寬信號實現高精度、高能效采集的需求,本工作實現了一種在性能上國際領先且易于驅動和系統集成的增量型縮放式模數轉換器,相比于其他同類型的縮放式模數轉換器設計取得了最高的帶寬和最低的驅動需求。

本工作在縮放式模數轉換器的架構和電路方面提出了新的設計方法:在架構方面,首次采用噪聲整形逐次逼近型量化器進行縮放式模數轉換器中的細量化,并提出了一次采樣多次量化的量化方法,大幅降低了對采樣電路的要求,提升了系統的帶寬;在電路方面,提出了一種新型的環路濾波器電路設計方法,該方法僅需要一個動態緩沖器即可實現高階、高魯棒性的環路濾波器,顯著降低了系統硬件開銷和功耗。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一

▲(a)縮放式模數轉換器電路及原理圖(圖源:北京大學集成電路學院)

基于上述創新技術,課題組研制了一款基于28nm CMOS工藝的增量型縮放式模數轉換器芯片

該款芯片一次模數轉換僅需要8次采樣,在低頻2.5kHz和中頻20kHz的輸入信號下分別達到了92.5dB92.2dB的信噪失真比,系統功耗為160μW,在同類的縮放式模數轉換器中具有最高的輸入帶寬(150kHz,且易于驅動,單次轉換所需的輸入驅動開銷最小,整個系統達到了國際領先的模數轉換器能效水平(182.2dB FoM

該電路可廣泛應用于多種物聯網應用場景,并且為如縮放式模數轉換器的多步模數轉換器提供了新的實現和量化方法。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一

▲(b)縮放式模數轉換器芯片顯微照片(圖源:北京大學集成電路學院)

2、超低功耗模數轉換芯片:相同指標下功耗最低的ADC

清華大學揭路教授和孫楠教授等發表了題為“A 10mW 10-ENOB 1GS/s Ring-Amp-Based Pipelined TI-SAR ADC with Split MDAC and Switched Reference Decoupling Capacitor”的論文。

下一代無線通信系統(如WiFi-7)向著更高帶寬與更高階調制進展,對高速(>1GS/s)中高精度(>12比特)模數轉換器(ADC)有著迫切需求,且ADC功耗往往成為系統的功耗瓶頸。

針對高速高精度ADC的低功耗設計挑戰,研究團隊采用了流水線與時間交織融合的架構,在避免了時間交織復雜校準的同時大幅降低了功耗;針對高速余差放大器設計問題,通過分裂電容的方式解決了低電源電壓下高速環形放大器的PVT穩定性問題。

基于該架構設計的12比特ADC采用28nm工藝實現,在1GS/s采樣率下包含基準緩沖器的總功耗僅為10mW,并達到63dB的SNDR,是目前相同指標下功耗最低的ADC。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一▲顯微照片(上)及與世界先進水平能效的對比(下)(圖源:清華大學電子工程系)

五、通信芯片:高速率、高可靠、高能效

1、超高速發送機芯片:提供高速率、高可靠的數據傳輸

該工作以“A 128Gb/s PAM-4 Transmitter with Programmable-Width Pulse Generator and Pattern-Dependent Pre-Emphasis in 28nm CMOS”為題發表,第一作者是北京大學集成電路學院博士生盛凱,通訊作者是蓋偉新教授。?

不斷增長的通信需求持續推動有線通信鏈路向更高的數據速率演進,目前超高速有線收發機的數據速率已達到100+Gb/s量級。為了提高頻譜利用率,四電平脈沖幅度調制(PAM-4)在超高速鏈路中被廣泛采用。然而PAM-4調制方式面臨眼寬、眼高減小的挑戰。

北京大學蓋偉新教授團隊從電路設計和均衡機制方面入手,提出了可編程寬度的脈沖發生器,依靠脈沖寬度調節驅動器增益,從而實現最快信號翻轉速度,減小信號邊沿在碼元寬度中占據的比例,改善眼寬;提出了基于碼型的預加重均衡機制,通過檢測電路對待發送的信號碼型實時監測,在特定信號處以注入電流的方式加強信號,消除碼間干擾的同時避免輸出擺幅衰減。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一▲(a)發送機架構圖(圖源:北京大學集成電路學院)

基于上述創新設計,課題組研制了一款基于28nm CMOS工藝的超高速有線發送機芯片,并對芯片進行了性能測試與匯報。該發送機芯片實現了高達128Gb/s PAM-4的數據速率,并且取得了1.4pJ/b的能量效率;提出的可編程寬度脈沖發生器實現了13%的眼寬增長,且沒有額外的功耗代價;相比傳統前饋均衡,基于碼型的預加重均衡機制使得眼圖張開面積提高了約25%。該電路可廣泛應用于數據中心、高性能計算等高通信需求的場景,為其提供高速率、高可靠的數據傳輸。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一

▲(b)發送機芯片顯微照片(圖源:北京大學集成電路學院)

2、超低功耗Gbps發射機芯片:實現首個高速無晶振的IR-UWB發射機

清華大學張沕琳副教授等發表題為“A 1.8Gb/s, 2.3pJ/bit, Crystal-Less IR-UWB transmitter for neural implants”的論文。

近年來腦機接口前沿領域涌現了一批千通道以上的高密度電極,與這些電極搭配的無線傳輸技術需要滿足高速率(>1Gbps),低功耗(<10mW),小體積和經皮傳輸四大條件。

針對這些挑戰,研究團隊首先設計了D16PPM-PWM-DBPSK的IR-UWB混合調制方式,讓單個IR-UWB脈沖可以調制6bit信息,成倍減少相同數據率下的發射脈沖數量;同時采用差分編碼的方式,降低了調制解調對晶振和PLL提供的高精度時鐘的需求,適用于體積受限的無晶振場景。

為了降低功耗,研究團隊提出了基于多相環路振蕩器的數字邊沿組合發射機架構,通過高效率的脈沖生成模塊,脈沖整形模塊和PA模塊,實現了所提出的混合調制方式。

基于該架構的40nm發射機,在達到1.8Gbps的吞吐率的同時,功耗僅4.09mW,能量效率達到了2.3pJ/bit,實現了相關工作中最高的傳輸速度最優的能量效率,也是首個高速無晶振的IR-UWB發射機

最后,這一發射機在體外經皮傳輸實驗中實現了20cm的經皮傳輸距離。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一▲芯片圖片及性能對比(圖源:清華大學電子工程系)

3、超高速接收機前饋均衡器芯片:適用于數據中心、Chiplet

該工作以《一款28nm工藝下,基于延遲線技術并支持低頻均衡的0.43pJ/b,200Gb/s,5抽頭接收機前饋均衡器》(A 0.43pJ/b 200Gb/s 5-Tap Delay-Line-Based Receiver FFE with Low-Frequency Equalization in 28nm CMOS)為題,發表于今年ISSCC先進有線互連技術分會場,文章的第一作者為北京大學集成電路學院博士生葉秉奕,文章的通訊作者為蓋偉新教授。

該工作面向超高速串行傳輸應用,針對傳統判決反饋均衡器時序難以滿足、前饋均衡器采樣保持功耗較大的問題,設計并實現了一款超高速接收機前饋均衡器芯片,傳輸速率、均衡能力與能效比均為同類芯片最優水平

北京大學蓋偉新-何燕冬教授團隊提出了基于延遲線與分布式抽頭的前饋均衡技術:該技術利用無源延遲線在超高速場景下損耗小的天然優勢,解決了對模擬信號延時的功耗與噪聲較大的問題,在實現200Gb/s超高速率均衡的同時,利用分布式結構降低了抽頭負載電容引入的信號反射;此外,通過在抽頭放大器中采用源極RC退化技術,賦予前饋均衡器靈活的低頻均衡能力,避免僅靠增加抽頭數量來消除長尾碼間干擾,大幅降低了電路功耗。

基于上述創新技術,課題組研制了一款基于延遲線的200Gb/s接收機前饋均衡器芯片

該芯片實現了對200Gb/s數據的均衡,可提供高達17.2dB的均衡能力,且能效比僅0.43pJ/b,均為接收機連續時間前饋均衡器的最優水平。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一

▲(a)接收機前饋均衡器架構圖(圖源:北京大學集成電路學院)

該均衡器芯片具有高帶寬、低功耗、低噪聲的優勢,可廣泛用于數據中心、Chiplet等串行數據傳輸應用中,為未來短距200Gb/s接收機提供了全新的低功耗解決方案。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一

▲(b)均衡器芯片顯微照片(圖源:北京大學集成電路學院)

4、寬帶太赫茲倍頻芯片:提高工作帶寬、輸出功率和基波抑制水平

清華大學陳文華教授團隊發表了題為“A 200-to-350GHz SiGe BiCMOS Frequency Doubler with Slotline-Based Mode-Decoupling Harmonic Tuning Technique Achieving 1.1-to-4.7dBm Output Power”的論文。

硅基寬帶太赫茲信號產生是實現低成本、高集成度的高精度雷達和高分辨率成像等系統的重要途徑。針對傳統硅基太赫茲振蕩器和倍頻器所面臨的帶寬受限和輸出功率不足問題,團隊提出了基于槽線的諧波調諧技術,通過槽線變壓器結構為推-推式二倍頻器(push-push frequency doubler)在超寬帶范圍內實現了高平衡度的基波輸入和最佳二次諧波調諧,有效地提高了倍頻器的工作帶寬、輸出功率和基波抑制水平。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一▲寬帶太赫茲倍頻芯片(圖源:清華大學電子工程系)

所提出的寬帶二倍頻器基于0.13μm SiGe BiCMOS工藝成功流片,在200至350GHz頻帶內實現了最高4.7dBm的輸出功率和最大37dBc基波抑制水平,功率波動僅為3.6dB,其各項性能指標在超寬帶范圍內達到甚至超過了相似頻段的窄帶太赫茲倍頻芯片。

清華13篇、北大6篇!ISSCC 2023論文收錄量,中國第一▲寬帶太赫茲倍頻芯片指標(圖源:清華大學電子工程系)

來源:北京大學集成電路學院、清華大學電子工程系