智東西(公眾號:zhidxcom)
作者 | 陳駿達
編輯 | 漠影
2025年(nian),以(yi)DeepSeek、QwQ等為代表(biao)的(de)推理大模型火爆全球,并在復雜任務(wu)上展現出強大實力。這也讓不少(shao)企(qi)業考慮,如何(he)能利用此輪推理大模型的(de)技術進步,來優化(hua)自(zi)身的(de)決(jue)策、提升企(qi)業運行效率并促進創新。
然而,傳統的CPU服務器在處理(li)當(dang)前(qian)的AI推理(li)需求時顯得力不從(cong)心,而GPU推理(li)服務器動輒上百萬的高昂成(cheng)本(ben)又將許(xu)多中小企業擋在門外(wai)。
在這(zhe)樣(yang)的(de)背景下,市場亟(ji)需一種既能(neng)控制成本又能(neng)保證性(xing)能(neng)的(de)服務(wu)器(qi)解(jie)決方案,以滿足企業對便捷、高性(xing)價比(bi)AI推理(li)服務(wu)的(de)需求。
隨著AI技術的快(kuai)速發(fa)展(zhan),CPU服務(wu)器也在不斷進化。近日,浪潮(chao)信息發(fa)布的元腦CPU推(tui)理(li)服務(wu)器,能(neng)高效運行DeepSeek-R1 32B和QwQ-32B等適合企(qi)業日常需求的推(tui)理(li)模型(xing),還能(neng)與企(qi)業原有的業務(wu)兼容,具備性價比高、運維簡單等優勢(shi)。
▲元腦CPU推理服務器,基于QwQ-32B模型(xing)生(sheng)成猜數字游戲
在GPU服(fu)務器之(zhi)外,新一代CPU推理(li)服(fu)務器為企業提供了快速(su)、易獲取且低成本的算力供給,正(zheng)成為更(geng)多(duo)企業的理(li)想選擇。
一、跑大模型GPU并非唯一解,CPU推理服務器成中小企業理想新選擇
當談及部署大(da)模(mo)型時,不少企(qi)業(ye)的(de)(de)第一反應都是“買卡”。的(de)(de)確,在大(da)模(mo)型訓練、推(tui)理的(de)(de)場景中,GPU加速卡憑借(jie)強大(da)的(de)(de)浮點運算能力和(he)大(da)規模(mo)并行處理架構,在高吞吐量的(de)(de)AI推(tui)理任務上展現出(chu)明顯優勢。
但GPU并不是唯一解。
CPU更擅長處理(li)(li)復(fu)雜的邏輯(ji)(ji)運(yun)算(suan)和通用計算(suan)任務,雖然在高并(bing)行(xing)計算(suan)任務上(shang)不(bu)如(ru)GPU,但在處理(li)(li)多樣化工作(zuo)負(fu)載(如(ru)數(shu)據庫查詢、業(ye)務邏輯(ji)(ji)處理(li)(li))時性能表現優秀。而且(qie),隨著技術的不(bu)斷迭代,具(ju)備AI計算(suan)能力(li)的CPU服(fu)務器(qi)也(ye)開始在AI推理(li)(li)場景中展現獨到(dao)優勢(shi)。
在大(da)模型(xing)推(tui)理過程中,不少(shao)模型(xing)采用KV Cache(鍵值(zhi)緩存(cun)),用于存(cun)儲(chu)解碼(ma)過程中生成的中間結(jie)果,以減少(shao)重(zhong)復(fu)計算,提(ti)升推(tui)理效率。隨著(zhu)模型(xing)規模的增大(da),KV Cache的存(cun)儲(chu)需求也(ye)隨之增加。
與(yu)GPU服(fu)務(wu)(wu)器(qi)相比,CPU推(tui)理(li)服(fu)務(wu)(wu)器(qi)以更低的硬(ying)件投入,支持更大(da)容量(liang)的系統內存(cun),能(neng)夠輕松存(cun)儲更大(da)規(gui)模(mo)的KV Cache,避免(mian)頻繁的數據交換(huan),從而提升推(tui)理(li)效率。CPU推(tui)理(li)服(fu)務(wu)(wu)器(qi)還可通過多通道內存(cun)系統,進(jin)一步支持大(da)規(gui)模(mo)KV Cache的高(gao)效訪(fang)問。
當(dang)CPU推理服務器(qi)與高效的中等尺(chi)寸推理模型結合后,能夠形成顯著的協同(tong)效應,在保證(zheng)性能的同(tong)時進一步壓(ya)縮成本(ben)。
以業界多款32B推理模(mo)(mo)型為例,這些模(mo)(mo)型通過采用更高效(xiao)的(de)注(zhu)意力機(ji)制、模(mo)(mo)型量化(hua)與壓縮技術以及KV Cache優化(hua),顯著(zhu)降(jiang)低了計(ji)算和存儲需(xu)求。例如(ru),DeepSeek-R1 32B在(zai)(zai)知(zhi)識問答、智(zhi)能寫作和內(nei)容生成等(deng)方面表現(xian)(xian)優異(yi),而QwQ-32B則(ze)在(zai)(zai)數學推理、編(bian)程(cheng)任(ren)務和長文(wen)本處理等(deng)領域展(zhan)現(xian)(xian)出強大的(de)性能。
此外,DeepSeek-R1 32B和QwQ-32B的訓練數據(ju)中(zhong)包含(han)了海(hai)量(liang)的高質(zhi)量(liang)中(zhong)文語料庫(ku),使其(qi)更加適合(he)國內企業(ye)的應用需求。
在企業(ye)知識庫問答、文檔(dang)寫(xie)作、會(hui)議紀要整理(li)等場景中,32B參數級別的(de)模型(xing)往(wang)往(wang)是最佳選擇,既(ji)能提供強大的(de)能力支(zhi)持,又(you)能保持合理(li)的(de)硬件投入,僅(jin)基于CPU推理(li)服務(wu)器,企業(ye)用戶(hu)即可實現本地化部署(shu),滿足對性能、成本和易(yi)用性的(de)多重需(xu)求。
從成本角度(du)來看,相比(bi)(bi)GPU服(fu)務(wu)器(qi)高昂(ang)的(de)(de)硬(ying)件(jian)成本,更嚴格(ge)的(de)(de)電源、散熱和(he)機架空間,CPU服(fu)務(wu)器(qi)對環境的(de)(de)要求(qiu)較為寬松,對于輕量(liang)使用和(he)預算有限的(de)(de)企(qi)業而言(yan),更具性價比(bi)(bi)。
二、軟硬件協同優化成效顯著,解碼速度翻番、效率提升至4倍
浪(lang)潮信息本次推出的元腦CPU推理服(fu)務(wu)器,正是這樣一款支持中(zhong)等尺寸模型(xing)推理,能(neng)為中(zhong)小企業(ye)提供高(gao)效AI推理服(fu)務(wu)的CPU推理服(fu)務(wu)器。

在實(shi)際測(ce)試中,單臺(tai)元腦CPU推(tui)理(li)服務器在使用DeepSeek-R1 32B進行(xing)帶思維鏈深(shen)度思考的短輸入(ru)長輸出的問答(da)場(chang)景(jing)下,解碼性能超過20tokens/s,20個并發用戶(hu)下,總token數達到255.2tokens/s。

▲基于DeepSeek-R1 32B 并發性能測試(shi)數據
在使用(yong)QwQ-32B進行(xing)模型推理時,20個(ge)并發用(yong)戶(hu)數下(xia)總token數達到224.3tokens/s,可以提供流(liu)暢穩定的用(yong)戶(hu)體驗(yan)。

▲基(ji)于QwQ-32B 并發性能(neng)測試數(shu)據
元腦(nao)CPU推理(li)服務器的性能,得益于浪(lang)潮信(xin)息的軟(ruan)硬件協同優化。
算力方(fang)面,元腦CPU推(tui)理(li)服務(wu)(wu)器采用4顆32核心(xin)的(de)(de)英特爾至強處理(li)器6448H,具有AMX(高級矩陣(zhen)擴展)AI加速(su)功能,支(zhi)持張(zhang)量(liang)并行計(ji)算。與傳統(tong)雙路服務(wu)(wu)器方(fang)案的(de)(de)有限內存不(bu)同,元腦CPU推(tui)理(li)服務(wu)(wu)器的(de)(de)多通道內存系統(tong)設計(ji)可支(zhi)持32組DDR5內存。
在(zai)這些硬件(jian)的加持下,元腦CPU推(tui)(tui)(tui)理服務器(qi)單機具備BF16精度AI推(tui)(tui)(tui)理能力、最大(da)16T內存(cun)容量和1.2TB/s內存(cun)帶寬,可以更好滿足模型權重、KV Cache等(deng)計(ji)算(suan)和存(cun)儲需求,快速讀取和存(cun)儲數據,大(da)幅提升大(da)模型推(tui)(tui)(tui)理性能。

▲元腦CPU推(tui)理服務器(qi)NF8260G7配置
在算(suan)法方面,元(yuan)腦CPU推理服務器對業界主流的企業級大模型(xing)推理服務框架vLLM進(jin)行(xing)深度定制優化,通(tong)過張量并行(xing)和(he)內存(cun)綁定技(ji)術,充分釋放服務器CPU算(suan)力和(he)內存(cun)帶寬潛(qian)能,實現多處(chu)理器并行(xing)計(ji)算(suan),效率(lv)最(zui)高提(ti)升(sheng)至(zhi)4倍。

面對(dui)內(nei)存帶(dai)寬(kuan)的挑(tiao)戰(zhan),元腦(nao)CPU推理服務器為進一步提(ti)升(sheng)解碼性(xing)能,采用了AWQ(Activation-aware Weight Quantization激活感知權重量化)技術。
AWQ技術能(neng)(neng)確定模(mo)型中(zhong)對性(xing)能(neng)(neng)影響最(zui)大的(de)(de)(de)少(shao)部分重要權重,并通(tong)過保(bao)護這些權重來(lai)減少(shao)量化帶(dai)來(lai)的(de)(de)(de)誤差(cha)。AWQ還避免了混合精度(du)計算帶(dai)來(lai)的(de)(de)(de)硬件(jian)效率(lv)損失。
采用了AWQ的元(yuan)腦CPU推理服務器在解碼任務中的性能(neng)提升(sheng)了一倍(bei),讓大模(mo)型在保持高性能(neng)的同時,跑得更快、更省資源。

元腦(nao)CPU推理(li)服務器還通(tong)過浪(lang)潮(chao)信息打造的(de)(de)AI Station平(ping)臺(tai),支(zhi)持(chi)用戶靈活選擇適(shi)配的(de)(de)大模型(xing)算法,包括(kuo)DeepSeek全(quan)系模型(xing)、QwQ和Yuan等不同參數量的(de)(de)模型(xing)。
三、更懂中小企業需求,通用性、成本效益突出
在智東西與浪潮信息副總經理(li)趙帥(shuai)的溝通(tong)中,我們了(le)解到,元腦CPU推理(li)服務器僅推出1周,便吸引了(le)多家來自大(da)模型、金(jin)融(rong)、教(jiao)育(yu)等(deng)行業(ye)的客戶咨詢(xun)和測試(shi),這(zhe)款CPU推理(li)服務器精準地填補了(le)中小企業(ye)市場中的一個關鍵空白。
目(mu)前,許多企(qi)(qi)業對將私(si)有數據上(shang)云仍持保留態(tai)度,更傾(qing)向(xiang)于在本地完成AI推(tui)理(li)(li)任務。然而(er),如(ru)果(guo)企(qi)(qi)業選(xuan)擇(ze)使用GPU服(fu)務器(qi)來(lai)部署(shu)高性能(neng)AI模型,往(wang)往(wang)需(xu)要承擔高昂的(de)初(chu)始(shi)投(tou)資成本。對于中(zhong)小企(qi)(qi)業而(er)言,這種(zhong)投(tou)資的(de)性價比并不高——它(ta)們通常(chang)不需(xu)要極致的(de)AI性能(neng)或超(chao)高的(de)并發(fa)處理(li)(li)能(neng)力(li),而(er)是更關(guan)注易(yi)于部署(shu)、易(yi)于管理(li)(li)、易(yi)于使用的(de)入門級AI推(tui)理(li)(li)服(fu)務。
在這(zhe)種情況下,生態更(geng)為成熟、開發工具更(geng)為健全(quan)的(de)CPU推理服(fu)務(wu)器(qi)展現出了顯著的(de)優勢。CPU推理服(fu)務(wu)器(qi)不(bu)僅能夠更(geng)好(hao)地融入(ru)企(qi)業現有的(de)IT基礎設施,還因其通(tong)用性而(er)具備更(geng)高(gao)的(de)靈活性。
與(yu)專用AI硬件(如GPU服務器)不同(tong),CPU推理服務器在AI推理需(xu)求(qiu)空閑期(qi),還可以兼顧企(qi)業的其他通(tong)用計算(suan)需(xu)求(qiu),如數據(ju)庫管(guan)理、ERP系統運行(xing)等,從而最大化硬件資(zi)源(yuan)的利用率。
在部(bu)署便捷(jie)性方面(mian),元(yuan)(yuan)腦CPU推理服務(wu)器(qi)功(gong)耗(hao)2000W左右,降低了對(dui)供電設(she)備的要求(qiu),還使得服務(wu)器(qi)的冷(leng)卻需求(qiu)大(da)幅減少,僅需家用級空調即可(ke)滿足散熱要求(qiu)。這意味(wei)著(zhu)元(yuan)(yuan)腦CPU推理服務(wu)器(qi)能夠輕松(song)適(shi)應大(da)部(bu)分企業自建的小(xiao)型機房環境,無需額外投資高成本的冷(leng)卻設(she)施或對(dui)現(xian)有機房進(jin)行大(da)規模改造。
元腦CPU推理服務(wu)器還具備高(gao)(gao)可(ke)靠性(xing)的(de)特點,平均無故(gu)障時間可(ke)達(da)200000小時,能(neng)夠保障關鍵應用和AI推理任務(wu)的(de)持續穩定運(yun)(yun)行。這一特性(xing)對于企業來說(shuo)尤為(wei)重(zhong)要(yao),尤其是在金融(rong)、醫療、制造等對系統穩定性(xing)要(yao)求極高(gao)(gao)的(de)行業中(zhong),高(gao)(gao)可(ke)靠性(xing)意(yi)味著更低的(de)業務(wu)中(zhong)斷風險和更高(gao)(gao)的(de)運(yun)(yun)營效(xiao)率。
談(tan)及未來,趙帥分(fen)享,浪潮信息還將進(jin)一步提升元腦CPU推(tui)理服務器的能力。依托于融合架構開發(fa)的經驗(yan)積累,他們已在開發(fa)內存資源池化(hua)的新技(ji)術,結合長文本等算法(fa)特征進(jin)行軟(ruan)件優化(hua),更好地(di)支持企業的使(shi)用需求。
結語:CPU推理服務器有望推動AI普惠
隨著AI技術往行業(ye)(ye)深(shen)水區發展(zhan),大模型推理需(xu)求正從大型企業(ye)(ye)逐步(bu)向中小(xiao)企業(ye)(ye)滲透,從少部分企業(ye)(ye)所(suo)享有的(de)“奢(she)侈品”轉化為大部分企業(ye)(ye)的(de)“必需(xu)品”。
在這一進程中(zhong),如元腦CPU推理(li)服務器(qi)這樣的高性價比AI推理(li)解決方案(an),有望成(cheng)為中(zhong)小(xiao)企業實現AI普及化和行業智能(neng)化的重要(yao)工具。