芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影
10年、五代NPU、全自主可控,國內最早探索AI推理芯片的企業之一、深圳AI龍頭企業云天勵飛,剛剛披露最新的AI芯片戰略規劃。
芯東西7月28日報道,在世界人工智能大會期間,云天勵飛宣布全面聚焦AI芯片,披露最新AI推理芯片全產品矩陣及未來三年商用路線圖,計劃到2028年將單芯片算力最高擴展至數千TOPS。
通過三代“算力積木”架構,云天勵飛布局三大商用平臺(深界、深擎、深穹),提供從端到云的完整AI推理解決方案,能高效支撐不同尺寸的AI大模型部署需求。
云天勵飛董事長兼CEO陳寧、云天勵飛CTO李愛軍與芯東西進行深入交流,不僅完整回顧芯片研發歷程,還詳細分享了其AI推理芯片的技術實力和研發布局。
其技術優勢可概括為4個關鍵詞:自研指令集架構,“純血”國產工藝,高性價比推理,向后兼容。
一、五代芯片、三大平臺,滿足大模型部署需求
NPU這條路,云天勵飛已經走了10年。
從2015年開始自研芯片至今,云天勵飛結合主流神經網絡算法從CNN向RNN、LSTM、Transformer演進的趨勢,打造相關指令集、專用算子、存算一體架構、低比特混合量化等芯片硬件技術,推出深界、深穹、深擎三大AI推理芯片平臺。

其產品線覆蓋端、邊、云推理。根據云天勵飛披露的路線圖,正在研發的深穹芯片平臺針對萬億參數大模型進行優化,峰值算力將達到512TOPS。
云天勵飛的深界Edge10芯片平臺是一款面向邊緣AI計算場景的基于第一代“算力積木”架構的主控級SoC。它采用自研第四代NPU Nova 400,高效支持Transformer。
目前,深界Edge10已全面適配DeepSeek大模型。相應的DeepSeek推理一體機已落地,跑滿血版DeepSeek V3/R1 671B MoE模型,吞吐量達到500 tokens/s。

其中,深界Edge10C是最小款,采用15 x 15小尺寸封裝,支持2、4、6顆Edge10C芯片的C2C算力級聯,可滿足AIoT場景中視頻高密、7B/14B/32B大語言模型、多模態大模型的推理需求。
半高半長卡可以放6顆Edge10C的C2C算力積木布局,整體功率不到70W,能效優勢突出。
算力更大的Edge10/10max,則能支撐邊緣端設備的多模態大模型落地。
據介紹,Edge10芯片平臺的16TOPS + 64TOPS組合,是當前最貼近CV大模型、視頻文搜大模型、視覺語義搜大模型應用落地的高性價比邊緣端推理芯片。
深穹X6000 Mesh加速卡是一款全高全長雙寬卡,基于深界Edge200打造,支持千億參數大模型推理,最高算力達256TOPS。

采用該加速卡的Qwen、DeepSeek推理一體機已經推出并落地。
二、純血國產工藝+“算力積木”架構,邁向萬億參數大模型推理
云天勵飛是國內最早探索國產先進工藝AI推理芯片的企業之一,坐擁4個“國產工藝首個”:
- 國產工藝首個D2D Chiplet商用芯片設計
- 國產工藝首個C2C Mesh MoE推理架構設計
- 國產工藝首個128T算力的商用AI芯片平臺
- 國產工藝首個集成國產64位大核RISC-V的AI芯片
其深界DeepEdge10芯片平臺已通過廣五所自主可控國產化C級認證,板級方案通過100%國產化率驗證。

云天勵飛自研芯片的獨門秘籍,是其自創的“算力積木”架構。
這是一款基于國產工藝的D2D Chiplet & C2C Mesh大模型推理架構,通過靈活模塊化的設計、高效的算力調度和低延遲的數據傳輸,突破國產工藝代差限制,將算力擴展至能滿足從3B到671B MoE大模型的高效推理需求。
D2D Chiplet實現了單芯片算力增強,C2C Mesh互連則實現片間算力擴展,可滿足千億級大模型部署需求。
李愛軍告訴芯東西,算力積木的方式將4個“積木”互連,跑7B模型的加速時間占比超過90%,損失只有8%。相比國際大廠的封閉專用互連技術,NB-Link基于相對更通用的PCIe接口,能與大多數主流國產CPU芯片實現高效互連互通,使Agent應用擴地更加高效、
第二代“算力積木”架構計劃通過5大創新(新型計算、近存計算、NB-Mesh新型互連、新型封裝、NB-Link通用擴展性),打造新型大模型推理計算平臺,滿足嵌入式物聯網、邊緣端、云推理對邊緣大模型MoE大模型的極致推理效率、能效、性價比的剛性需求。
5大創新具體包括:
(1)新型計算單元:采用第五代NPU Nova500、原生態FP8/FP4、專用大模型算子,計算效率提升5倍,能效比提升3倍,支撐更多計算任務。
(2)近存計算:采用3D內存混合鍵合,縮短計算與存儲之間的距離,降低延遲,內存帶寬提升10倍,訪存能效比提升10倍。
(3)NB-Mesh新型互連:在超節點內實現縱向算力擴展(scale up),采用多維Full Mesh互連、直接內存語義訪問、數據傳輸all reduce,提升芯片間的通訊效率,增強大規模計算的協同能力。
(4)新型封裝:異質多Die封裝WLP/PLP、UCIe D2D Chiplet、晶圓級封裝(多達8個AI Die)、panel級封裝(多達16個AI Die),進一步提升散熱效率,解決高算力芯片的熱管理問題。
(5)NB-Link通用擴展性:采用PCIe通用接口界面、CPU/NPU互連帶寬達到1TB/s,CPU/NPU直接內存訪問,加速AI Agent響應速度。
這些技術進展,為其邁向更高參數規模的大模型推理奠定了堅實的技術基礎。
三、搶占AI推理藍海,云天勵飛的四大技術底氣
云天勵飛在AI推理芯片的技術積淀,主要體現在架構設計、技術積累、軟件適配和互聯互通四個方面。
首先是架構路線的選擇,陳寧相信,NPU才是高性價比AI芯片首選,該架構能提供更高的計算效率,尤其適合處理深度學習算法,可在大規模推理中實現更高的算力密度和更低的能耗。
陳寧告訴芯東西,云天勵飛的核心技術團隊是全球最早研發NPU(并行計算處理器)的團隊之一,有著20多年的NPU研發經驗。
在他看來,除了團隊能力強很重要外,團隊的基因和信念也對研發AI芯片至關重要。云天勵飛率先在國產工藝上實現邊緣AI推理芯片的量產,已形成市場化差異。
在多次技術迭代中,團隊不斷突破現有的技術瓶頸,優化芯片設計,使得云天勵飛的AI推理芯片逐步達到了國內領先水平。
除了硬件性能外,軟件是AI芯片能否大規模落地的關鍵壁壘。
云天勵飛已完成與多個主流推理框架的適配,并與智源研究院、無問芯穹等合作伙伴共同開發異構推理基礎設施,為大規模AI模型的實際應用提供了強有力的支持。
為了支撐更大規模的多卡互連,云天勵飛基于通用PCIe接口研發NB-Link技術,更適配國情,能與大多數國產芯片互連互通。該技術具有較好的擴展性,能夠支持大規模AI推理任務中數據傳輸的高效性。
結語:下一步,推進標準與生態建設
云天勵飛的技術路徑中,自主可控的國產工藝和創新的“算力積木”架構起到了關鍵作用。依托國產工藝的自主研發,云天勵飛不僅提升了產品的國產化率,還突破了現有國產芯片在大算力推理中的制約,為大模型推理提供了更強大的支撐。
隨著芯片技術的不斷進步,國產工藝的不斷完善,其在AI推理芯片領域的技術積累逐漸趨向成熟。
現階段,應對AI推理芯片爆發機遇,國產AI芯片仍需克服生態挑戰,云天勵飛正積極進行AI推理芯片的標準和生態建設,已建議ITU牽頭組織AI推理芯片、算力網絡國際標準,拓寬AI芯片在更多應用場景落地的普適性及商用空間。