芯東西(公眾號:aichip001)
編輯 | 全球AI芯片峰會
9月17日,2025全球AI芯片峰會在上海舉行,在峰會主論壇上,奎芯科技聯合創始?兼副總裁唐睿以(yi)《Chiplet,AI算力的基(ji)石》為主題發表演講。
當前AI革命與過往互聯網產業發展不同,利潤高度向硬件環節傾斜。唐睿稱,隨著模型尺寸不斷變大、算力需求飆升,科技(ji)企業的(de)CAPEX(資本性支(zhi)出)大幅增長且逐漸取代OPEX(運營性支(zhi)出)成為主流趨勢,這(zhe)是因為AI整體(ti)的性能與(yu)互聯帶(dai)寬、內存容量深度(du)綁(bang)定。
同時,當下芯片設計周期遠(yuan)跟不上AI算力(li)或(huo)者模型發展的需求(qiu),在唐睿看來,基于Chiplet的設計能加快芯片研發迭代。2021年-2030年處理器預計研發項目數量年化(hua)增(zeng)長約9%,但基于Chiplet的設計年化(hua)增(zeng)長率(lv)高達44%,預計2030年占(zhan)比超一(yi)半。

基于這一現狀,奎芯打造了基于UCle標準接(jie)口IP的國產化(hua)完(wan)整(zheng)解決方案,研發了(le)兩(liang)代(dai)(dai)(dai)(dai)UCle IP,第(di)一代(dai)(dai)(dai)(dai)為16GT/s,第(di)二代(dai)(dai)(dai)(dai)為32GT/s,且在標準封裝實現。這(zhe)些IP具(ju)有(you)高性能(neng)、低功耗(hao)、靈活性等優(you)勢,能(neng)為芯(xin)片快(kuai)速迭代(dai)(dai)(dai)(dai)提供(gong)支持。
以下為唐睿的演講實錄:
ChatGPT爆發到(dao)現在(zai)只有不到(dao)三(san)年(nian)時(shi)間,芯片(pian)設計周(zhou)期(qi)一般至少兩到(dao)三(san)年(nian),所以芯片(pian)設計的周(zhou)期(qi)遠遠跟不上AI算力(li)或(huo)者(zhe)AI模(mo)型發展(zhan)的需求。
怎么才能加快芯片的研發速度、提升芯片研發的周期?Chiplet是長(chang)期的趨勢,還可以增加下游(you)芯片(pian)設計公司的迭代(dai)速度。
一、硬件公司獲得大部分利潤,科技公司資本性支出大漲
首先介(jie)紹一下AI產(chan)業的發展(zhan)趨勢。
目前的(de)模型智能化程度越(yue)來越(yue)高(gao),下圖是AI基準(zhun)測試提供(gong)商Artificial Analysis所給出(chu)的(de)最新(xin)模型智能水平綜(zong)合排名。
該排名綜合了十項測試標準,包括數學基準測試AIME以及推理能力的Benchmark等。排名第一的GPT-5發布于今年8月,排名第二的Grok 4發布于今年7月,以及國產通義千問、DeepSeek-V3.1等模型也發布不久,這說明模型的性(xing)能更新日新月異(yi)。

在整個AI產業中(zhong),哪些(xie)公司或者(zhe)哪些(xie)相關的(de)產業在掙錢?
AI革命和此前互聯網產業革命略有不同。因為目前仍是硬件公司(si)獲得大部分利(li)潤,一些分(fen)析師預(yu)計今(jin)(jin)年英偉達的數據中(zhong)心營收會達到1800億美元(折(zhe)合人(ren)民(min)幣約(yue)1.3萬億元);博(bo)通最新(xin)的第三(san)季度(du)財報顯(xian)示,其數據中(zhong)心相關的AI硬件(jian)營收是52億美元(折(zhe)合人(ren)民(min)幣約(yue)370億元);臺(tai)積電(dian)今(jin)(jin)年第二(er)季度(du)的HPC營收也超過180億美元(折(zhe)合人(ren)民(min)幣約(yue)1279億元),占總(zong)營收的80%。
而最(zui)上層(ceng)的(de)應用層(ceng),如OpenAI、Anthropic的(de)ARR(年度經常(chang)性收(shou)入)并不是很高。今(jin)年7月,OpenAI最(zui)新ARR數(shu)據是120億美(mei)元(折合人(ren)民幣約(yue)853億元)左右,Anthropic大(da)概在50億美(mei)元(折合人(ren)民幣約(yue)355億元)左右。
其余數據(ju)中心相關公(gong)司獲取了大部分的行業利潤和營(ying)收,包(bao)括(kuo)EDA和IP公(gong)司。

為(wei)了實現AGI,五大科(ke)技(ji)巨頭的(de)資(zi)本支出非常驚(jing)人。
到(dao)(dao)今(jin)年第二(er)季度(du),五大科(ke)技公司的CAPEX(資本(ben)性支出)已經飆升(sheng)到(dao)(dao)970億(yi)(yi)美(mei)(mei)元(yuan)一個季度(du)。除了這五大科(ke)技公司,剛(gang)剛(gang)上市的CoreWave今(jin)年預(yu)計CAPEX達到(dao)(dao)230億(yi)(yi)美(mei)(mei)元(yuan),此(ci)外(wai)甲骨文(wen)在最新財報會(hui)議中透(tou)露,預(yu)計2026年的資本(ben)支出達到(dao)(dao)350億(yi)(yi)美(mei)(mei)元(yuan)震(zhen)驚業界,這主要是因為OpenAI與(yu)其簽訂合同(tong),預(yu)計2030年甲骨文(wen)云營收達到(dao)(dao)1440億(yi)(yi)美(mei)(mei)元(yuan)。
這個趨勢印證了一個變化,這些公司的財報顯示,公司OPEX(經營性支出)在這幾年幾乎沒有增加,甚至還有略微下降,這可能與公司裁員有關,也說明CAPEX取代OPEX的(de)現(xian)象已經在發生。

到2025年6月,美(mei)國數據中心的支出已經接近于(yu)辦公(gong)室建(jian)設支出,大(da)概都在(zai)400億美(mei)元左(zuo)右,這也進一(yi)步(bu)驗(yan)證了大(da)公(gong)司CAPEX超過OPEX的趨勢。
為什么需要這么大的CAPEX?因為模型尺寸不斷變大,雖然閉源模型的尺寸可能不完全透明和公開,但開源模型尺寸非常驚人,如Kimi K2的總參數規模達到1萬億。這樣的(de)模型(xing)尺(chi)寸就意味著需要(yao)龐(pang)大的(de)算力(li)資源去支撐模型(xing)訓(xun)練,整(zheng)體(ti)算力(li)需求每年以4倍的(de)速度增長。
除了算(suan)力,模型(xing)訓(xun)練(lian)和(he)推理對內存(cun)、互聯帶寬的需求也在(zai)不斷提(ti)升。
目前AI整體(ti)的性能還是被互(hu)聯帶寬(kuan)以及內存容量所(suo)綁定(ding)。
下(xia)面是(shi)一張比較老(lao)生常談的圖,20年間芯片(pian)算力提升(sheng)了6萬倍(bei),但是(shi)內(nei)存帶寬只(zhi)增(zeng)(zeng)加(jia)了100倍(bei)、互聯帶寬只(zhi)增(zeng)(zeng)加(jia)了30倍(bei)。

這背后的(de)原因是,算(suan)(suan)力(li)與(yu)芯片面(mian)積成(cheng)正比(bi)(bi),IO的(de)帶寬(kuan)或接觸內(nei)存(cun)的(de)Beachfront與(yu)芯片周(zhou)長(chang)成(cheng)正比(bi)(bi),帶寬(kuan)會隨(sui)著芯片周(zhou)長(chang)線(xian)性增(zeng)(zeng)加,但算(suan)(suan)力(li)可以(yi)隨(sui)周(zhou)長(chang)增(zeng)(zeng)長(chang)呈幾(ji)何平方增(zeng)(zeng)加,因此帶寬(kuan)永遠跟不上算(suan)(suan)力(li)的(de)增(zeng)(zeng)長(chang)。
二、基于UCle標準接口IP,打造國產化完整解決方案
下面介(jie)紹一下奎(kui)芯(xin)的(de)IP和(he)Chiplet產業。
最新的主流AI芯片(pian)非常重視互聯帶寬和內(nei)存(cun)容量,包括英偉達的GB300、AMD的MI355X都(dou)采用了最新的HBM3E內(nei)存(cun)。NVLink的帶寬已(yi)經高達大概3.6TB/s,Infinity Fabric接近(jin)于1TB互聯帶寬。

整個數(shu)據(ju)(ju)中心中,CPU之(zhi)間或XPU之(zhi)間的(de)互(hu)聯、XPU和Switch之(zhi)間的(de)互(hu)聯以及整個數(shu)據(ju)(ju)中心的(de)Scale-Out和Scale-Up,都離不開互(hu)聯IP的(de)支撐。
目前芯(xin)片(pian)設(she)計逐步(bu)走向Chiplet化(hua)(hua),Marvell的數(shu)(shu)據顯示,近十年整體芯(xin)片(pian)的數(shu)(shu)量(liang)(liang)年化(hua)(hua)增長(chang)約為9%左右,但是基于Chiplet設(she)計的芯(xin)片(pian)數(shu)(shu)量(liang)(liang)年化(hua)(hua)增長(chang)為44%。2021年,Chiplet base的設(she)計只占(zhan)很小(xiao)部分,預計到2030年占(zhan)比將(jiang)超過一半。
Open Chiplet Architecture(芯粒架構(gou)開放標準)的(de)構(gou)想是(shi),未(wei)來會有CPU Chiplet、Memory Chiplet、Base Chiplet、AI Chiplet,構(gou)成各家合作共贏的(de)生態(tai),這些Chiplet都可以通過UCIe的(de)IP進(jin)行連(lian)接。

下(xia)圖是一(yi)個典型的(de)(de)基于(yu)Chiplet設計的(de)(de)芯片(pian),這是AMD最新GPU,有8個計算Die、8個HBM3E及(ji)兩塊很大(da)的(de)(de)IO Die。

奎芯在UCIe IP以及Chiplet相關領域的布局:
首先奎芯研(yan)發了UCIe IP,因(yin)為UCIe IP是連(lian)接Chiplet Die的(de)基礎,所有的(de)Chiplet小芯片都(dou)可以(yi)通過UCIe IP去進(jin)行(xing)互聯(lian)。奎芯UCIe IP具備高性能、低(di)功耗、國產化以(yi)及(ji)靈活性等優勢。
目(mu)前,奎芯(xin)已經研發了兩代(dai)IP,第(di)一代(dai)速度為(wei)16Gbps,第(di)二(er)代(dai)為(wei)32Gbps。第(di)二(er)代(dai)的32Gbps基于標準封(feng)裝(zhuang)實現,這在國(guo)內相當領先且功耗相對比較低,基本上(shang)可(ke)以控制在1.0 pJ/bit。

兩塊(kuai)IP已(yi)經進行(xing)了測試(shi),最新的32Gbps測試(shi)板采用(yong)5顆Die共封設(she)計,包含1顆Single Die,10mm、25mm Die-to-Dia互連(lian)。25mm的UCIe IP測試(shi)的眼(yan)圖結果,奎(kui)芯實現了72小時無誤碼率(lv),眼(yan)的寬(kuan)度達到0.75UI。

奎(kui)芯的UCIe IP以及Chiplet已經有客(ke)戶(hu)(hu)。下圖是其(qi)HPC領域客(ke)戶(hu)(hu),結合奎(kui)芯的IO Die,可以幫助客(ke)戶(hu)(hu)實現HBM內存和(he)SoC之間的解耦。一個(ge)IO Die、SoC上,都對(dui)應集(ji)成了16個(ge)標準封裝的UCIe IP模組,單(dan)向速率可以完全匹(pi)配或(huo)超過(guo)HBM3的帶(dai)寬要求(qiu)。該企業(ye)在整個(ge)芯片設計中,采用(yong)了奎(kui)芯8對(dui)UCIe IP。

下面是(shi)奎芯ML100 IO Die的(de)設計,這是(shi)其整(zheng)體交(jiao)付給客戶Chiplet Base Design的(de)一部分。
奎(kui)芯采用HBM顆粒和IO Die在interposer(中介層(ceng))上實現共封,但(dan)是IO Die UCIe和SoC內(nei)UCIe是通過Substrate進行互(hu)連(lian)。

這有如下幾點(dian)好處(chu):第(di)一是可(ke)以解耦HBM,降低SoC的(de)(de)溫度對(dui)HBM性能(neng)的(de)(de)影響;第(di)二(er)是IO Die模(mo)組涵(han)蓋了(le)HBM顆(ke)粒(li),可(ke)以實現(xian)單(dan)(dan)獨封裝交付,良率可(ke)控;第(di)三是因(yin)為(wei)排除了(le)緊(jin)耦合,單(dan)(dan)位SoC的(de)(de)邊長可(ke)以連接的(de)(de)HBM顆(ke)粒(li)數量(liang)稍(shao)多,可(ke)進行靈活(huo)配置(zhi),同時因(yin)為(wei)Interposer只用(yong)于IO Die和(he)HBM3顆(ke)粒(li)之間互聯,使得(de)整體Interposer面積縮(suo)小;第(di)四是國(guo)產(chan)化(hua)供(gong)(gong)應(ying)鏈的(de)(de)解決方(fang)案,保證了(le)供(gong)(gong)應(ying)鏈的(de)(de)靈活(huo)性。
下圖(tu)右邊可(ke)以看到Interposer的尺(chi)寸以及用了多少Metal,最后(hou)匹(pi)配整體速率(lv),與UCIe IP結合實現相對完美的速率(lv)匹(pi)配。這是奎(kui)芯基于UCIe的互連擴(kuo)展方案示意圖(tu)。

之前很多嘉賓談到了分離Prefill(預填充)和Decode(解(jie)碼(ma))這兩塊的(de)(de)計算,在芯(xin)片設計領域也要考慮Prefill和Decode的(de)(de)計算分離。用(yong)IO Die去連接不(bu)同的(de)(de)內存是經濟實惠的(de)(de)方案,那Prefill采用(yong)GDDR和LPDDR就夠了。
基于(yu)奎芯的整體解決(jue)方案,企(qi)業只(zhi)需要在SoC端(duan)或者計(ji)算芯片上放置(zhi)(zhi)其UCIe IP就可以,在IO Die上,可以基于(yu)企(qi)業所需要的內存,在UCIe到(dao)HBM的IO Die以及(ji)UCIe到(dao)LPDDR的IO Die之(zhi)間做切換(huan),方便于(yu)企(qi)業后面(mian)(mian)接外置(zhi)(zhi)內存進行(xing)直接切換(huan),在SoC上不(bu)用(yong)放置(zhi)(zhi)不(bu)同的PHY,可以節省SoC面(mian)(mian)積,同時也可以把SoC的面(mian)(mian)積更多(duo)利用(yong)來仿真計(ji)算單元(yuan)。
奎芯也在規劃研發(fa)UCIe到(dao)SerDes的(de)Chiplet,以及UCIe到(dao)Optical Chiplet的(de)解決(jue)方案。
三、解讀四大長期趨勢,建立AI硬件基礎服務設施平臺公司
最后介紹關于奎(kui)芯的(de)未(wei)來(lai)產品規劃(hua)以及愿景。
奎芯看到五到十(shi)年的長期趨勢包(bao)括:
CPO在(zai)逐(zhu)步取(qu)代LPO和NPO;CPO從(cong)Switch端轉(zhuan)向XPU之間互(hu)(hu)聯(lian)、XPU和內(nei)存之間互(hu)(hu)聯(lian);基于HBM4各大內(nei)存廠家都(dou)提出(chu)了(le)Base Die的概念(nian),可能不(bu)需要Phy;國內(nei)有很多(duo)Emerging 3D內(nei)存技術(shu)、Flash技術(shu),都(dou)會對Base Die提出(chu)更高要求。
奎芯正在(zai)與海(hai)外客戶研討基(ji)于Optical Chiplet的內存(cun)以及互聯擴展方(fang)案(an),包括(kuo)用Optical部分解決現在(zai)的連線瓶頸(jing),最后(hou)連接到SoC端或者是(shi)AI計(ji)算端,仍采用UCIe IP,但是(shi)在(zai)內存(cun)端可以做自由切換。

這一方案(an)脫離了合封限(xian)制,用GDDR可能是更(geng)經(jing)濟(ji)有效的(de)方案(an),甚至可以用LP/GDDR來做內(nei)存,只要在帶寬(kuan)上滿(man)足對Prefill或者Decode不同(tong)階段(duan)的(de)內(nei)存需(xu)求。
XPU之間如(ru)果(guo)通過Optical互(hu)聯,可以(yi)提(ti)升帶寬瓶頸,真正(zheng)意義上突破了(le)周長受限模式。
奎芯也在與國內內存(cun)廠商研討基(ji)于(yu)新(xin)型內存(cun)定制(zhi)Base Die的(de)方案(an),還是(shi)通過UCIe IP連接芯片。
其帶寬稍(shao)微低于HBM,但大(da)大(da)節省了成(cheng)本,同時(shi)這(zhe)種方案采用標準(zhun)封裝(zhuang),省掉了Interposer的設計和(he)制造成(cheng)本,整體(ti)上(shang)可以降低整體(ti)AI系統成(cheng)本。再加上(shang)方案采用國內(nei)3D堆(dui)疊的DRAM,成(cheng)本明顯低于標準(zhun)HBM,供應鏈相對(dui)可控。

其(qi)它海(hai)外內存大(da)廠還(huan)在(zai)積極推進HBM4 Base Die的研發,這一塊奎(kui)芯也在(zai)于海(hai)外大(da)廠共同(tong)探討合作,這里面(mian)的細節與Base Die的設計有異曲同(tong)工的相似之處。
最后是奎芯的愿景和使命。
奎芯是以互聯IP起家的公(gong)司,未(wei)來希望憑(ping)借豐富的IP組合,建立領(ling)(ling)先(xian)的AI硬(ying)件基(ji)礎服務設(she)施平(ping)臺公(gong)司,來引領(ling)(ling)AI和Chiplet領(ling)(ling)域(yu)的創新。
客戶只要提供自(zi)(zi)(zi)己(ji)與(yu)自(zi)(zi)(zi)己(ji)算(suan)法強(qiang)相關的(de)核(he)心(xin)計(ji)算(suan)Die,其它(ta)的(de)非(fei)核(he)心(xin)的(de)Die,像IO Die也(ye)好,基本的(de)計(ji)算(suan)Die也(ye)好,以及2.5D封(feng)裝設計(ji)也(ye)好,都可以交給(gei)奎芯去做(zuo)。這樣的(de)商業模式,特別適合現在大(da)模型的(de)快(kuai)速(su)(su)(su)迭代(dai)速(su)(su)(su)度,以及比較感興趣自(zi)(zi)(zi)己(ji)核(he)心(xin)算(suan)法迭代(dai)的(de)大(da)模型公(gong)司或(huo)者(zhe)互聯網公(gong)司做(zuo)一些更快(kuai)速(su)(su)(su)的(de)芯片的(de)迭代(dai)。
謝謝大家!
以上是唐睿演講內容的完整整理。