智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影

隨著大模型的快速演進和模型參數規模的快速增長,AI算力需求正呈現爆發式態勢。然而,支撐芯片發展的摩爾定律已逼近物理極限,晶體管微縮帶來的成本呈指數級上升,性能提升幅度卻逐年收窄。

這一根本性矛盾促使業界亟需探索一種能繼續擴展AI基礎設施的解決方案。超節點技術應運而生,通過數十張乃至數百張加速卡的高帶寬互連,將相對獨立的計算資源整合為統一的超級計算單元,突破了傳統架構在規模擴展上的瓶頸。

不過,在國內環境中,由于高端算力的缺乏,國產超節點方案往往需要整合更大規模的集群,這對互連技術提出了更高的要求。在帶寬、能耗、傳輸距離上較傳統電互連方案更具優勢的光學方案的應用,有望逐步成為推動超節點性能提升的關鍵驅動力。

就在昨天,國內光電混合算力獨角獸曦智科技在世界人工智能大會(WAIC)上發布了國內首個光互連光交換GPU超節點光躍LightSphere X,并聯合壁仞科技、中興通訊首次進行示范應用,即將于上海儀電國產超節點算力集群落地。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

憑借全球首創的分布式光交換技術,光躍LightSphere X獲得世界人工智能大會的最高獎項,2025 SAIL獎,并成為SAIL四大評價維度(Superior, Application, Innovation, Leading)中“Innovation”(創新)維度的標桿案例。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

近日,智東西與曦智科技創始人兼CEO沈亦晨博士、曦智科技聯合創始人兼CTO孟懷宇博士以及曦智科技互連產品線副總裁朱劍進行了近2個小時的深入溝通,他們向智東西等媒體剖析了光躍LightSphere X背后的技術創新與曦智科技對光電混合算力行業的長期展望。

一、超節點互連技術路徑分野,國產方案如何突圍

當下,海外的超節點方案基本由英偉達主導,使用電交換構建單柜達72卡的大規模超節點,也就是所謂的GB200 NVL72。

該解決方案依賴于一個在國內看來幾乎有些“奢侈”的前提——每張GB200的算力數倍于國產卡。若要實現同等效果,國產超節點可能需要進行成百上千卡的互連,在現有條件下,基本難以在單機柜內實現。

即便從理論上可行,單機柜內構建如此密集的電互連方案本身也面臨極高的技術挑戰和投入成本,對于目前國內的產業基礎來說,依然是一項極具挑戰性的任務。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

因此,國產解決方案更可行的路徑或許是通過增加機柜數量,先確保計算卡的總量,再通過高效互連技術組成超節點。

沈亦晨博士稱,在多機柜場景下,傳統的銅導線連接距離一旦超過1-1.5米,就無法滿足超節點對帶寬和延時的嚴苛要求,光互連幾乎成為必選項。

谷歌曾在其TPU光互連超節點方案采用集中式光交換,實現GPU集群間的跨機柜通信。不過,該方案專為TPU定制,硬件成本高昂,對全棧軟件能力要求較高,目前除了谷歌外尚未有其他廠商采用。

前段時間帶火超節點概念的華為昇騰CloudMatrix 384超節點,也使用了光互連網絡,配備近7000個光模塊,讓數百塊GPU能實現高效協同。

此外,要打造高效的超節點方案,交換也是極為關鍵的一環。

沈亦晨博士介紹,在模型訓練過程中,不同階段GPU間的通信拓撲存在動態變化。英偉達采用NVSwitch電交換芯片集中調度NVLink信號,類似交通信號燈統一分配各GPU間的通信路徑。

然而,國內GPU廠商普遍缺乏同類高性能電交換芯片,現有解決方案在性能上仍與英偉達存在顯著差距。此外,國內GPU廠商的互連接口協議也各不相同,傳統交換機無法做到統一調度。

面臨種種挑戰,國產超節點方案究竟應該如何破局?作為國內乃至全球領先的光電混合算力提供商,曦智科技依托其在光子計算和光子網絡的技術積累,交出國內首個光互連光交換GPU超節點解決方案光躍LightSphere X。

二、首創分布式光交換芯片,相關成果獲頂會認證

光躍LightSphere X的核心技術,是曦智科技全球首創的基于硅光子技術的分布式光交換dOCS(distributed Optical Circuit Switch)芯片。

若把傳統集中式的交換芯片比為中央物流中心,將每張計算卡比為一個車間,分布式光交換技術所進行的調整,就是取消了中央物流中心,轉而在每個車間旁邊設置小型物料中轉站,使物料傳輸路徑更短、更直接。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

得益于這一架構,光躍LightSphere X可靈活配置超節點的規模,并可靈活切換GPU間互連拓撲結構,以適應不同模型負載對通信模式的差異化需求。

在大規模訓練、推理場景中,上述解決方案在GPU冗余率上展現出明顯優勢。傳統超節點必須整體運作,單卡故障會導致整個節點下線,冗余成本高;而分布式光交換讓超節點支持動態重組——當檢測到異常時,系統可自動移除故障節點,接入備份服務器重新組網。

這種“卡級冗余”相比傳統“節點級冗余”大幅降低備用資源需求,將冗余比例從整節點壓縮到單卡級別,冗余率僅為英偉達、谷歌等方案的1/10。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

光躍LightSphere X解決方案在商用光電轉換模組的基礎上,增加了用于光交換功能的芯片,以較低的成本實現了分布式的光交換。分布式設計方案幾乎可以無限擴展,突破了傳統交換芯片對連接數量的限制。

在本屆WAIC期間發布的光躍LightSphere X獲得了SAIL獎(WAIC最高獎項),也成為該獎項創新維度的標桿案例。而dOCS相關方案則收錄于國際通信網絡旗艦會議SIGCOMM 2025。

除了技術方面的突破之外,光躍LightSphere X還對國產算力生態起到了一定的推動作用。

當下,國產GPU類型、架構龐雜,協議各有區別,難以形成協同效應。而光交換本身不依賴于特定的數據傳輸協議,這意味著它能無縫兼容不同廠商使用的互連協議。這有效緩解了開放生態中缺乏高效Scale-Up交換芯片的現狀,推動了基于光交換的Scale-Up技術路徑。

此外,dOCS芯片基于硅光技術,其設計與制造不依賴于先進半導體工藝節點,這對提升算力基礎設施供應鏈的安全性與韌性也有較大意義。

三、硅光技術迎來歷史機遇期,5年內硅光芯片占比或將達30%

光躍LightSphere X是曦智科技在AI算力需求大爆發的當下,對光電混合算力的最新探索,這離不開曦智成立8年多來在硅光技術上的長期投入。該公司擁有光子矩陣計算(oMAC)、片上光網絡(oNOC)和片間光網絡(oNET)三大領域的核心技術,并打造了光子計算和光子網絡兩大產品線。

超節點迎最佳拍檔!上海獨角獸首創分布式光交換芯片,成果已獲頂會認證

沈亦晨認為,近兩年,硅光技術在國際上的熱度和重視度不斷攀升,可能已經走到歷史上最好的階段。面臨這一歷史機遇期,曦智從兩年前便開始聚焦產品化、商業化,業務收入在過去3年內快速增長,今年芯片出貨量已經達到數萬顆。

放眼未來,曦智科技的高管們一致認為,隨著算力集群和算力需求越來越大,硅光是必然的解決方案。雖然國際上純電互連仍占主導,但華為這一主流廠商已將光互連引入超節點解決方案,英偉達的下一步也可能是如此。

此外,光互連和光交換技術當前仍屬于系統級方案,通過外接光模組實現,通過不斷迭代,未來光互連和光交換器件有望與主芯片實現共封裝,從而進一步提高帶寬和能效。

沈亦晨預測,未來五年,硅光芯片在智算中心的占比有望提升至30%以上。隨著規模化量產,硅光芯片成本將成倍下降,推動成本降低到應用普及的正向循環。

具體來看,他認為光互連有望率先在未來幾年出現指數級增長;光計算則從大模型推理、AI for Science等追求極致性能的場景切入,逐步擴展通用性。

曦智科技目前擁有一支近250人的團隊,核心成員由來自麻省理工學院的頂尖科學家和擁有豐富半導體行業經驗的業界知名人士組成,在上海、杭州、南京、北京、新加坡等地均設有辦公室及實驗室。

自成立以來,曦智科技在產品進展、技術研發、融資規模等方面均位居全球光電混合賽道前列。孟懷宇博士透露,曦智在光學芯片、模擬芯片、先進封裝技術等方面都擁有前瞻性的技術儲備。

負責互連產品線的朱劍則稱,曦智有很多先進的技術儲備,但該公司會采取較為務實的態度,根據市場的發展階段提供適合的解決方案。

結語:實現從0到千卡突破,光電融合已成行業大勢

光電混合算力作為一項前沿技術,在落地的時候必然面臨客戶原有技術路徑的慣性問題。沈亦晨透露,直到如今,曦智仍需要花精力“教育市場”,逐步說服廠商采用這一技術。

令人慶幸的是,曦智已在光躍LightSphere X方案上實現了從0到千卡突破,將對光互連超節點方案的魯棒性和成本效益驗證起到極大的推動作用。

在智東西與曦智的溝通中,我們清楚地感受到其發展路徑:以光電混合算力技術為支點,逐步撬動算力基礎設施的升級,同時保持對“光替代電”的長期信仰。