智東西(公眾號:zhidxcom)
作者 | 漠影
編輯 | 三北
隨著“百模大戰”進入小考時刻,已經有國產大模型交高分卷了。
9月1日,網信辦深度合成服務算法備案公告一聲令下,國內頭部大模型紛紛面向全社會開放服務,接受新的考驗。
正值此時,有一個國產開源大模型已經橫掃各大中英文測評榜單,不僅在基座模型測試中碾壓Llama 2等開源大模型,還在垂直行業領域遠超其他開源模型,展現出“黑馬”之勢。
據官方數據顯示,在GitHub、Hugging Face等知名開源社區,這一模型的8月下載超300萬,達到全球同類開源模型最高,可以說成為了全球最受歡迎的GPT-4平替之一。
更值得一提的是,這一模型的研發團隊還率先開放了模型訓練過程,連復旦大學計算科學技術學院教授張奇等都盛贊其“為學術界做出了巨大貢獻”。
9月6日,由搜狗創始人王小川創辦的公司——百川智能——推出Baichuan 2大模型,同時公布了前文提到的最新進展。王小川說:“Llama2開源模型時代已經過去了,我們(開發者)現在可以獲得更友好且能力更強的開源模型。”
國產大模型正在改寫產業的游戲規則。作為首批開放大模型的企業之一,百川智能最新發布的Baichuan 2大模型實測性能如何?300萬/月下載量背后是什么樣的戰略和行動布局?透過百川大模型的200多天實踐,我們能看到國產大模型什么樣的破局邏輯?
9月13日,通過對話百川智能技術聯創陳煒鵬,智東西對此進行了深入探討。
Baichuan 2下載地址://github.com/baichuan-inc/Baichuan2
一、月下載超300萬,測評全面碾壓Llama 2
隨著“百模大戰”進入深水區,當下大模型進行簡單對話已不足為奇,還要追求“文理兼修”。
百川智能于9月6日新推出的Baichuan 2開源模型,不僅文科能力大幅提高,其在數學能力、代碼能力、安全能力、邏輯、語義理解都有明顯的提升。陳煒鵬告訴智東西,無論是在MMLU、CMMLU、BBH等綜合性基準測評中,還是在GSM8k、HumanEval等垂直領域的測評中,抑或是多語言能力測評中,Baichuan 2都遠超同類開源大模型。

▲Baichuan 2相比于一代Baichuan的能力提升
?在所有主流中英文通用榜單上,Baichuan 2全面領先Llama 2,而Baichuan2-13B在測評中秒殺所有同尺寸開源模型。

▲Baichuan 2在通用領域的測評成績
?在垂直行業測評榜單中,Baichuan2-13B在法律、數學、醫療領域的模型效果均優于其他開源模型。

▲Baichuan 2在垂直領域的測評成績
在跨語言能力測評榜單中,Baichuan2-13B在英語、法語、阿拉伯語、俄語中的能力都超過其它開源模型。

▲Baichuan 2在多語言領域的測評成績
IDEA研究院講席科學家張家興參與了百川智能最新的發布會,他在會上的圓桌峰會中稱:“國內做大模型的團隊也很多,能做到Baichuan 2這樣效果的還是很少。”實際上,當下很多大模型測評是圍繞單點維度進行的,甚至大家看到GPT-4在某些榜單中已經排到了10名往后,其實意義不大。而百川大模型公布了全面性的測評結果,相對更具有說服力。
“除了榜單,場景實測更重要。”陳煒鵬告訴智東西,“目前Baichuan在開源社區總下載量已經超過500萬次,月下載量達到300多萬次。”

▲Baichuan大模型在開源社區的下載情況
據悉,已有200+企業申請百川大模型開源商用授權,并已將百川模型投入實際生產場景。申請企業涵蓋互聯網、軟件和信息技術、金融、法律、教育、制造、企業服務等眾多領域,合作伙伴群體仍在持續擴大。
可以看到,不僅全面刷榜權威基準,百川智能開源大模型在各行各業已經加速落地。
二、直擊商業協議“隱痛”,國產大模型要改變游戲規則
陳煒鵬告訴智東西,采用Baichuan 2,開發者不僅能夠得到直接的效果提升,還能夠獲得更多實際的便利。
比如很多開發者為Llama 2的商業協議所困,遷移到Baichuan 2則可以避開不少“隱痛”。
Llama 2的商用協議對中國開發者并不友好。雖然宣稱開源,但其商用協議聲明“僅適用于英文為主的環境”。也就是說,如果你做的模型更多是商用于中文場景,是拿不到開源協議的。

▲Llama 2的商業協議部分內容
對此,Baichuan 2面向中文領域全面開放,且在多語言環境中提供免費服務。陳煒鵬告訴智東西,對于遷移到Baichuan 2的開發者來說,不僅模型效果得以提升,遷移成本也更低。Llama 2等模型所依賴的推理、加速、調優等套件,其中超70%的套件Baichuan 2都同等支持,剩下30%則是不常用的。
直擊商業協議“隱痛”,國產大模型廠商正試圖改變硅谷主導的游戲規則。
王小川在Baichuan 2的發布會上說:“Llama 2開源模型的時代已經過去了。我們現在可以獲得比Llama更友好且能力更強的開源模型,能夠幫助扶持中國整個生態的發展。”
為了構建大模型生態,9月6日,百川智能率先開放了其大模型訓練過程,助力伙伴在理解訓練過程的基礎上做微調和強化;同時其設立了大模型科研基金,通過跟CCF(中國計算機學會)的合作,在今年內會大約投入300~400萬人民幣支持高校項目開發;此外,其還與AWS合作開展了黑客馬拉松活動,面向開發者提供算力支持,以鼓勵其進行大模型應用的開發。
在國內開源社區建設方面,Baichuan大模型不僅在GitHub、Hugging Face等國際開源社區中上線,最新的Baichuan 2也已經上線了國內的魔塔社區、昇思社區等知名AI社區,壯大本土AI大模型開源生態。
三、全球大模型“亂斗”,百川智能200天“蝶變”
當下,全球AI大模型產業正進入“亂斗”階段。
這廂,微軟將與OpenAI的“鐵聯盟”關系擱置一邊,轉而搭上Llama 2等開源模型;那廂,Meta也傳出明年要訓練對標GPT-3.5的閉源大模型,同時Anthropic、A21 Labs等創企也緊鑼密鼓,想要在全行業AI化的浪潮中分一杯羹。
在國內,從自主可控和數字化轉型需求出發,“百模大戰”已經打響近半年。知名行研機構IDC預測,2026年中國AI大模型市場規模將達到211億美元,互聯網大廠、AI創企、傳統行業龍頭企業紛紛加入了大模型角逐,計劃有朝一日做出趕超GPT-4的大模型。
誠然,GPT-4仍然是一堵高墻,但其早已不是業內唯一選擇。國內的開源大模型已經在更多需要私有化部署、輕量化應用和自主可控技術的場景,填補空缺位置。
百川智能正是率先抓住了這樣的市場空缺機遇,在過去的200多天里探索“蝶變”。
按照百川智能創立之初的計劃,其預計在2023年三季度推出500億規模參數的模型,四季度發表對標GPT-3.5的模型,在2024年一季度的時候發布超級應用。
實際上,團隊一方面順利執行原計劃,另一方面開辟了開源路線——在二季度發現中國有開源模型的需求,于是從6月開始以平均每月一次的頻率發布了開源模型,免費開源了7B、13B不同尺寸的大模型。
為什么能夠如此快速反應,且迭代如此之快?
陳煒鵬向智東西道出背后的一個關鍵要點:百川智能將搜索的經驗快速遷移到大模型的研發中。回顧大模型的訓練過程,陳煒鵬解讀道,這就類似一個“造火箭”系統化工程。對于百川智能團隊來說,這與其熟悉的搜索研發模式有相似之處,將復雜的系統做拆解,通過過程評估來推動團隊的協同,顯著提升團隊的效果。
在技術方面,大模型和搜索有很多重合的技術棧,比如在大模型訓練中關鍵的數據環節,團隊基于搜索經驗實現數據精選和處理,數據處理環節實現千億數據的小時級去重,并通過多粒度內容質量打分提升大模型質量。正是基于這種精細構造的數據,百川智能采用了開源最大的2.6T語料訓練7B/13B的模型。在模型研發的過程中,百川也探索了基于自己數據的scaling law(比例定律),實現了實現高效、穩定、可預測。
據悉,團隊在千卡的A800集群里面達到180TFLOPS的訓練性能,使得機器利用率超過50%,在行業中間也處于最高水平之一。而跳出模型訓練本身來說,通過多次迭代并通過開源社區反饋,百川智能不斷提升Baichuan大模型的競爭力,也同時為閉源大模型的開發提供助力。
結語:從閉源到開源,國產AI大模型加速突破
“百模大戰”狂飆200天,目前已進入了階段性“交卷”時刻。國內不僅有大廠的閉源大模型產品面向全社會開放,也有AI創企如百川智能研發的開源大模型獲得了權威測評、開發者社區和行業客戶的多方面認可。
雖然GPT-4依然強勢,但國內開源大模型已經能夠進行部分替代。在私有化部署、輕量化應用及自主可控要求高的場景中,以Baichuan 2為代表的大模型找到市場空缺,快速行動。
與此同時,相比于ChatGPT強調的語言對話能力,國內大模型在數學、邏輯、代碼等領域都在加速突破。這些能力代表著大模型要真正擺脫“幻覺”,從而開拓著更廣闊的潛在市場。