智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣

智東西9月6日報道,今天下午,百川智能發布開源大模型Baichuan2 70億和130億參數規模的兩個版本。

相比于上一代Baichuan模型,Baichuan2在文科理科能力方面得到了全面提升,其中數學能力提升49%,代碼能力提升46%、安全能力提升37%、邏輯推理能力提升25%、語義理解能力提升15%

百川智能又一開源大模型亮相,中英文能力超Llama!開源社區下載量近500萬次

百川智能創始人、CEO王小川透露,在中英文通用榜單、垂直領域、跨語言能力上,Baichuan2相比于ChatGLM2-6B、LlaMA2-7B、LlaMA2-7B等開源模型都取得了較好表現。

同時,Baichuan在開源社區總下載量已經接近500萬次,月下載量達到300多萬次。

王小川透露,此前百川智能計劃今年三季度發布超500億參數規模的模型,四季度發布對標GPT-3.5的模型,明年一季度發布超級應用,百川智能這一計劃的實際執行節奏目前十分順利。

百川智能又一開源大模型亮相,中英文能力超Llama!開源社區下載量近500萬次

王小川提到,Baichuan2的發布意味著Llama作為開源模型的時代已經過去了。此前Llama-2開源大模型使用有兩個限制條件,其一是用戶數超過7億不提供開源支持,第二,僅適用以英文為主的模型環境。

因此,Llama-2在中文領域的使用場景十分受限。他補充說,Baichuan2的發布能幫助開發者獲得一個更加友好、能力更強的模型。

發布會最后,百川智能聯合阿里云、高通、瀚博半導體、火山引擎、寒武紀等共同啟動了“創新、協作、共贏”開源生態合作。

一、中英文全面超越國外開源模型,開源全部參數模型

王小川透露,目前已經有200多家企業申請部署了百川大模型,涵蓋云廠商、科技行業、制造、消費等行業的企業。此次發布的Baichuan2是百川智能的又一個里程碑。

70億參數規模的Baichuan2在中英文主流任務中已經全面超越LlaMA2-13B,王小川解釋道,全面超越指的是,更小參數規模的Baichuan2在性能表現上超過LlaMA2-13B,同等尺寸上,可以吊打一眾開源模型

百川智能又一開源大模型亮相,中英文能力超Llama!開源社區下載量近500萬次

分拆來看,數據方面,Baichuan2的特點是規模大、覆蓋全、質量優。

Baichuan2的數據基于萬億互聯網數據精選,同時篩選了健康、法律等垂直行業的數據,并且構建自世界知識體系之上。在數據處理階段,該模型通過小時級完成千億數據清晰和濾重,打造了超大規模內容聚類系統,并且對篇章、段落、句子質量進行打分做評價,實現多粒度內容質量打分。對于訓練語料,Baichuan2采用了2.6TB的超大規模語料,并支持中、英、西、法等數十種語言。

在訓練方面,Baichuan2采取的是高效、穩定、可預測方式。該模型采用分布式訓練框架和科學可預測的scaling law,使得小模型可以準確預測大模型的效果。

安全價值觀對齊方面,Baichuan2實現了系統性價值觀對齊、多類型價值觀對其、有用性無害性平衡。

具體的評測效果上,王小川稱,中英文通用榜單上,70億和130億參數規模的Baichuan2均取得同尺寸開源模型最優異效果。

70億參數規模的Baichuan2在中英文通用榜單上的中文、英文、代碼方面領先于ChatGLM2-6B、LlaMA2-7B、LlaMA2-7B等開源模型,數學能力上僅次于ChatGLM2-6B。

百川智能又一開源大模型亮相,中英文能力超Llama!開源社區下載量近500萬次

70億參數規模的Baichuan2在中英文、數學、代碼方面都超過了其它開源模型。

百川智能又一開源大模型亮相,中英文能力超Llama!開源社區下載量近500萬次

醫療、法律垂直領域榜單上,Baichuan2兩個參數規模的模型均超過其它開源模型。

百川智能又一開源大模型亮相,中英文能力超Llama!開源社區下載量近500萬次

跨語言能力中,Baichuan2在英語、法語、西班牙語、阿拉伯語、俄語中的能力都超過其它開源模型。

百川智能又一開源大模型亮相,中英文能力超Llama!開源社區下載量近500萬次

總的來看,王小川談道,Baichuan2的文科理科能力均處于開源模型最好水平。包括多輪對話能力、代碼生成的可用率、復雜問題邏輯推理能力、語義理解能力。

在開源生態建設方面,學術和生態支持計劃,百川智能公開了訓練過程中的全部參數模型,以及不同大小的tokens、訓練切片,使得學術界在進行預訓練微調、強化時更容易操作,更容易獲得學術經驗和成果。王小川透露,這也是國內首次開放訓練過程。

百川智能還打造了CCF-百川-大模型科研基金,覆蓋大模型技術和大模型垂直領域及應用方面。百川智能聯合亞馬遜云科技打造AI黑客馬拉松,覆蓋醫療健康和游戲娛樂兩大賽道,為開發者提供算力支持和超20萬元的冠軍獎勵。

二、大模型可解釋、幻覺問題是關鍵,不會與人類完全對齊

中國科學院院士、清華大學人工智能研究院名譽院長、吳文俊人工智能最高成就獎、CCF終身成就獎、國家科技進步獎獲得者張鈸提到,目前,國內已經推出了幾十億到幾百億不同規模的大模型,這些大模型很少定位于助力大模型本身的學術研究上。因此他重點提及了百川智能對于大模型學術研究的助力工作。

張鈸院士談道,這項工作非常重要。原因在于全世界對大模型的工作原理、所產生的現象一頭霧水,所有結論都歸到智能涌現之下,“所謂‘涌現’就是給自己一條退路,解釋不清楚”。因此,他認為只有把這個問題搞清楚,國內才有可能發展出來有中國特色的大模型。

其中包含幾個方面,首先,研究人員必須回答的問題是大模型為什么能產生出來非常連貫、多樣化的人類語言。張鈸院士認為,實現這一結果的措施有三個。

第一是文本的語義表示,文本的詞、句、段落經過抽象后都變成向量,這為構造連續的拓撲空間構造了條件。第二是轉換器,注意力機制可以保證大模型上下文的一致性。第三是下一個詞的預測。

其次,研究人員必須要回答的問題是,為什么大模型會產生幻覺

這與ChatGPT和人類自然語言的生成原理有關,ChatGPT采取的是外部驅動,人類是意圖控制、內部驅動,這導致ChatGPT生成內容的正確性、合理性無法被保證。

因此,ChatGPT沒有對齊之前,會產生大量的不合理、不正確內容,只能通過Alignment(對齊)去解決這一問題。

其中,張鈸院士提到,GPT-3.5到GPT-4的性能實現飛躍,主要原因就是對齊

這之后又會涉及到治理和開發的問題,并且治理會影響生成質量的多樣性,因此如何去平衡這二者的關系也很重要。

最后,張鈸院士談道,他將ChatGPT生成的語言稱作GPT語言,其與人類語言不同,又延伸出一個問題:“我們將來努力的方向是什么?我們是不是想把GPT語言完全對齊到人類自然語言?”

目前而言,這個可能性不大。他解釋說,如果想完全對齊,必須先讓GPT有自我意識,目前科學上沒有條件能實現。

人工智能不是要做一個機器和人類一樣,目前最重要的是研究了解GPT語言,只有徹底了解它,才能更好的發展它、使用它,發展出健康的人工智能產業。

結語:開源大模型生態逐漸完善

作為大模型浪潮下備受矚目的明星企業之一,百川智能自王小川搭建團隊、籌備研發起,已經發布四個大模型:6月發布70億參數規模開源模型Baichuan-7B,7月發布130億參數規模大模型Baichuan-13B,8月發布530億參數規模大模型Baichuan-53B,再到現在的Baichuan2開源大模型,其大模型產品落地、商業化應用之路穩步向前。

正如張鈸院士提到的,可解釋性、幻覺問題是大模型亟需回答的兩大問題。開源大模型對于學術研究推動的意義重大。當下,國內開源開放的大模型生態社區正在逐漸完善,相比于國外開源大模型性能更好、應用更友好的大模型出現,有望加速國內大模型產業的突破。