智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 心緣

DeepSeek離下一代架構,又近(jin)了一步(bu)!

智東西9月30日報道,昨日,DeepSeek宣布開源DeepSeek-V3.2-Exp實驗版模型。該模型首次引入了DeepSeek Sparse Attention稀疏注意(yi)力機制,并在幾乎不影響模型輸出效果的前提下,大幅度提升了長文本訓練和推理效率,被DeepSeek定義為“邁向新一代架(jia)構的(de)中間(jian)步驟”。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

HuggingFace地(di)址(zhi):

//huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

魔搭社區地址(zhi):

//modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp

這一改進還降低了DeepSeek新模型的服務成本,DeepSeek因此執行了新的價格政策,讓開發者調用DeepSeek API的成本降低(di)50%以上。

降價幅度最大的為輸出token的價格:DeepSeek-V3.2-Exp模型輸出100萬(wan)個token的價格僅為(wei)3元(yuan),為DeepSeek-V3.1系(xi)列模(mo)型的(de)1/4。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

截至9月30日上午6點,華為云、PPIO派歐云、優刻得等云平臺已宣布上線DeepSeek-V3.2-Exp,華為、寒武紀(ji)、海(hai)光信(xin)息等AI芯(xin)片(pian)廠(chang)商已(yi)經宣布適配DeepSeek-V3.2-Exp。

DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的(de)(de)基礎(chu)上(shang)打造(zao)的(de)(de)。在各領域的(de)(de)公開評測集上(shang),兩款模型的(de)(de)表(biao)現基本(ben)一致,不(bu)過,DeepSeek-V3.2-Exp完成任務使用的(de)(de)token量(liang)大幅度減少。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

目前,DeepSeek App、網頁端與小程序(xu)均已同(tong)步上線(xian)了(le)DeepSeek-V3.2-Exp模型(xing)。DeepSeek也臨時保留了(le)DeepSeek-V3.1-Terminus的(de)API接口,方便開發者進行對比驗證。

除模型本體外,DeepSeek還開源了相關技術報告及代碼,并提供TileLang與CUDA雙版本GPU算子,以(yi)便研究者在不同層(ceng)級(ji)進行(xing)實驗和優化。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

技術報(bao)告(gao)地址:

//github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek還補充(chong)道,作(zuo)為一(yi)個實(shi)(shi)驗(yan)性(xing)的版本,DeepSeek-V3.2-Exp雖然(ran)已經(jing)在公開評測(ce)集上得到了有效性(xing)驗(yan)證(zheng),但仍(reng)然(ran)需(xu)要(yao)在用戶(hu)的真實(shi)(shi)使用場景(jing)中進行范圍更(geng)廣、規模更(geng)大的測(ce)試,以(yi)排除在某些(xie)場景(jing)下效果欠佳的可能。

一、華為、海光、寒武紀光速適配,網友直呼第二個DeepSeek時刻要來了

DeepSeek-V3.2-Exp一(yi)經推(tui)出,便(bian)在產(chan)業界與開(kai)發者圈子里引發熱烈反響,不少國(guo)內企業紛紛第一(yi)時間宣布完成DeepSeek-V3.2-Exp的適配和(he)上線。

華為計算公眾號發文宣布,昇騰已快速基于vLLM/SGLang等推理框架完成適配部署,實現DeepSeek-V3.2-Exp Day 0(第(di)零天)支持(chi)(chi),并面(mian)向開(kai)發者開(kai)源(yuan)所有推(tui)(tui)理代碼和算子實現。DeepSeek-V3.2-Exp在(zai)昇騰設備(bei)上128K長序列輸出(chu),能夠保持(chi)(chi)TTFT(首token輸出(chu)耗時(shi))低(di)于(yu)2秒(miao)、TPOT(每token輸出(chu)耗時(shi))低(di)于(yu)30毫秒(miao)的推(tui)(tui)理生成(cheng)速度。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

華(hua)為(wei)云則首發(fa)上線了DeepSeek-V3.2-Exp,還(huan)使(shi)用(yong)CloudMatrix 384超節點為(wei)該模型提供推理(li)服務。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

在DeepSeek發(fa)文宣布DeepSeek-V3.2-Exp模型(xing)開源后的4分鐘,寒武紀(ji)也發(fa)文稱其已同步實現對該模型(xing)的Day 0適(shi)配,并開源大模型(xing)推理引擎vLLM-MLU源代碼。

寒武紀(ji)通過Triton算子(zi)(zi)開發(fa)實現了快速適配,利用BangC融合算子(zi)(zi)開發(fa)實現了性能優化,并基于計(ji)算與通信的并行策(ce)略,達成(cheng)了較高的計(ji)算效率水平。

DeepSeek-V3.2-Exp模型(xing)的尺寸達(da)671GB,僅(jin)下載就可能需要(yao)數小時。這種時隔4分鐘的Day 0適(shi)(shi)配(pei),或許意味著(zhu)寒武紀和DeepSeek兩家企業在(zai)模型(xing)發布前就已經(jing)啟動適(shi)(shi)配(pei)工作。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

據經濟觀察網報道,海(hai)光信息的DCU(深(shen)度計(ji)算(suan)處理器)率先實現了對(dui)DeepSeek-V3.2-Exp的Day 0級高(gao)效適配與(yu)優(you)化,確保大(da)模型(xing)算(suan)力“零等(deng)待(dai)”部署。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

在DeepSeek官宣DeepSeek-V3.2-Exp開源的推文中,有不少網友分享了對模型的使用體驗和感受。有位網友稱,自己在10萬(wan)個token的(de)代碼庫上測試(shi)了DeepSeek-V3.2-Exp,速度提升非常明顯(xian)。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

有網(wang)友(you)感(gan)嘆,DeepSeek API現在幾(ji)乎等同(tong)于免費了。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

更有網友認為,這一模型的推出,或許意(yi)味著(zhu)第二(er)個(ge)DeepSeek時刻即(ji)將(jiang)到來。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

Hugging Face上,DeepSeek-V3.2-Exp的(de)社區(qu)板塊也(ye)有不少討論(lun),不過,關(guan)注度最高(gao)的(de)一(yi)條帖子,是(shi)來自中(zhong)國(guo)網友的(de)“吐槽”:“咱這個(ge)模型是(shi)非得(de)國(guo)慶前更(geng)新嗎?”

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

還(huan)有(you)網友列出(chu)了(le)DeepSeek每次更新模型的(de)(de)時間,幾乎都卡(ka)在節假日的(de)(de)前幾天。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

二、一手體驗DeepSeek-V3.2-Exp,架構創新或許比性能提升更重要

DeepSeek-V3.2-Exp在(zai)使用體驗(yan)上(shang),究竟(jing)與此(ci)前的DeepSeek-V3.1-Terminus有何不(bu)同(tong)?

在編程方面,DeepSeek-V3.2-Exp撰寫的代碼明(ming)顯更為簡(jian)短了,相同的(de)任務(wu)下(xia),其輸出的(de)代碼行(xing)數要(yao)少于DeepSeek-V3.1-Terminus。

不過,這在某種程度(du)上(shang)也影響了(le)模型的(de)性能(neng)。DeepSeek-V3.2-Exp編(bian)寫的(de)小球彈跳(tiao)動畫代碼未能(neng)正常運行,小球直接飛(fei)出(chu)了(le)六邊形的(de)范圍(wei)。DeepSeek-V3.1-Terminus在智東(dong)西此前的(de)測試中完美地完成了(le)這一任(ren)務。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

智東(dong)西還讓DeepSeek-V3.2-Exp完成了(le)一項信(xin)息檢(jian)索任務,要求它推薦幾(ji)種(zhong)(zhong)適合新手在陽臺盆栽的(de)(de)、生長快、果子能直接生吃的(de)(de)植物,并且要保證對小孩(hai)絕(jue)對安(an)全,最好能附上簡單(dan)的(de)(de)播種(zhong)(zhong)技巧。

與(yu)DeepSeek-V3.1-Terminus(左)相比(bi)(bi),DeepSeek-V3.2-Exp(右)的(de)生(sheng)成結果更為簡短(duan),用詞也比(bi)(bi)較“樸素(su)”。并且(qie),DeepSeek-V3.2-Exp推(tui)薦的(de)無花果、百香(xiang)果等(deng)(deng)植物(wu),需要進行扦插、高頻(pin)率養護(hu)等(deng)(deng)操作,并不符合(he)提示詞要求的(de)新手友好。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

▲DeepSeek-V3.1-Terminus(左)與(yu)DeepSeek-V3.2-Exp(右)在信息檢索任務上的表(biao)現(xian)(圖(tu)源(yuan):智東西)

總(zong)體而言,DeepSeek-V3.2-Exp確實(shi)在(zai)推理效率上實(shi)現提(ti)升,但(dan)卻在(zai)能力上做出了一定的讓步。

知乎博主@toyama nao也在測評中發現了類似的問題。他認為,DeepSeek-V3.2-Exp在工作記(ji)憶、計算(suan)精度穩定性等方面存(cun)在明顯短板,還(huan)容易有偷(tou)懶傾向和陷(xian)入死循環的可(ke)能。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

▲知乎博(bo)主@toyama nao對(dui)DeepSeek-V3.2-Exp的評價

這也得到了(le)其他(ta)網友觀點的印證,例如,這位(wei)網友便在(zai)x平臺(tai)發(fa)貼稱,并(bing)(bing)沒(mei)在(zai)這款(kuan)模(mo)型上看(kan)到改進(jin),并(bing)(bing)提出(chu)質疑:我(wo)們為什么(me)要使用能力降級的模(mo)型呢(ni)?

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

作為一款實驗模型,DeepSeek-V3.2-Exp更大的貢獻或許在于理論層面。DeepSeek稱,與DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2-Exp在架構上的唯一修改,就是通過繼續訓練引入了DeepSeek Sparse Attention。

目前的DSA機(ji)(ji)制(zhi)還處在原(yuan)型期,主要由兩個組件(jian)構成(cheng):一(yi)個Lightning Indexer(閃電索引(yin)器)和一(yi)個細(xi)粒度(du)的token選擇機(ji)(ji)制(zhi)。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

▲DeepSeek-V3.2-Exp架構圖

Lightning Indexer能夠快速評估(gu)查(cha)詢token與歷(li)史token的相(xiang)關(guan)(guan)性(xing),從選擇機制(zhi)只挑選最相(xiang)關(guan)(guan)的一部分(fen)上下文進入注意(yi)力計算,這(zhe)讓復雜度從傳統的二次方降到了(le)近似(si)線(xian)性(xing)水(shui)平(ping),大幅降低了(le)訓練和(he)推理的成本(ben)。

在訓練上,DeepSeek-V3.2-Exp采用了“繼續預訓練+后訓練”的方(fang)式。繼續(xu)預(yu)訓練分為兩(liang)個階段:首先在(zai)稠密模(mo)式下(xia)短暫訓練indexer,讓(rang)它的輸(shu)出和標準注意力保(bao)持一致(zhi);隨后引入稀疏(shu)選擇(ze)機制,逐漸讓(rang)模(mo)型適應新的計算(suan)方(fang)式。

完(wan)成預訓(xun)練后(hou)(hou),DeepSeek-V3.2-Exp又通過專家蒸(zheng)餾和混合強化學(xue)習(xi)進(jin)(jin)行后(hou)(hou)訓(xun)練。專家蒸(zheng)餾的思路是針對數學(xue)、編程、推理等(deng)不同領(ling)域訓(xun)練專門的專家模型(xing),然后(hou)(hou)將這些模型(xing)的知識壓(ya)縮進(jin)(jin)通用模型(xing)。

混(hun)合強化學習則將推理(li)、智(zhi)能體能力和人(ren)類對齊訓練統(tong)一在(zai)一個(ge)RL階(jie)段(duan)(duan)中(zhong),避免了傳統(tong)多階(jie)段(duan)(duan)方法容(rong)易出現(xian)的遺忘問題。

技術報告顯示,DeepSeek-V3.2-Exp在大多數(shu)評測(ce)任(ren)務上的(de)表(biao)現與前(qian)代基本持平,個別推理相關(guan)的(de)測(ce)試(shi)分數(shu)略有下降,但主要原因是生成的(de)推理token更少(shao),如果使(shi)用中間(jian)檢查點,差距則會縮(suo)小。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

相比之下,效(xiao)率的(de)提(ti)升尤為顯著。在(zai)H800 GPU的(de)測試(shi)環境中(zhong),長序列推理的(de)開銷(xiao)明(ming)顯降低,證明(ming)DSA在(zai)真實部(bu)署(shu)中(zhong)有很(hen)強的(de)實用性(xing)。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

同時,訓(xun)練曲線與前代模(mo)型保(bao)持相似的穩定性,也表明這種(zhong)架構在收斂性上并沒有額(e)外風險。

DeepSeek新模型開源,新架構亮了!國產AI芯片集體狂歡

結語:DeepSeek邁向新一代架構

正如其(qi)名字內的(de)Exp(實(shi)驗版)所言,DeepSeek-V3.2-Exp的(de)推出,本(ben)身并不是一(yi)次(ci)性能(neng)爆(bao)表的(de)升級,而(er)更像是一(yi)場架構實(shi)驗,展(zhan)示(shi)了一(yi)種在長文(wen)本(ben)處理(li)中兼顧性能(neng)和(he)效率(lv)的(de)新路(lu)徑。

作(zuo)為技術原型,DeepSeek-V3.2-Exp背后的(de)(de)DSA機制或許很快就(jiu)會得到進(jin)一步(bu)完善。隨著(zhu)相關技術的(de)(de)持續(xu)優化和(he)更多企業、研究者參與驗證,DeepSeek有望在(zai)不久的(de)(de)未來(lai)交出更令人驚喜的(de)(de)成果。