智東西(公眾號:zhidxcom)
作者 | 香草
編輯 | 漠影
智東西9月25日報道,今天,阿里云舉辦了一場大模型開源發布會,正式發布通義千問140億參數模型Qwen-14B及對話模型Qwen-14B-Chat,開源免費。
繼開源社區口碑之作Qwen-7B之后,Qwen-14B有望成為下一個炸場式的存在。據介紹,Qwen-14B在眾多同尺寸開源模型中突出重圍,在MMLU、C-Eval、GSM8K、MATH、GaoKao-Bench等12個權威測評集上都取得了最優成績,超越所有測評中的SOTA大模型。部分能力相比Llama 2的34B、70B模型也并不遜色。

▲Qwen-14B模型在12個權威榜單上超越SOTA大模型
Qwen-14B在“易用性”方面下了很大功夫。通義千問團隊升級了Qwen模型對接外部系統的能力,開發者可以通過簡單的操作實現復雜的插件調用,也可以基于Qwen系列基座模型快速開發Agent等AI系統,利用Qwen的理解和規劃能力完成復雜的任務。同時,Qwen-7B也實現了全面升級,核心指標最高提升22.5%。

▲阿里云智能CTO周靖人在發布會上發布Qwen-14B
就在上個月,阿里云破天荒地成為國內首個步入大模型開源陣營的大廠。開源通用模型Qwen-7B、對話模型Qwen-7B-Chat等。短短一個多月,Qwen-7B等模型的下載量就突破了100萬,開源社區出現了50多個相關衍生模型,且有多家月活過億的企業向通義千問團隊申請使用。浙江大學等的智海-三樂教育垂直大模型、浙江有鹿機器人的智能清潔機器人等均基于Qwen-7B打造。
開源,顯然不是阿里云一時興趣的決定。阿里云智能CTO周靖人在發布會上表明,阿里云會堅持擁抱開源開放的決心,“讓算力更普惠,讓AI更普及”。
Qwen-14B-Chat體驗地址:
//modelscope.cn/studios/qwen/Qwen-14B-Chat-Demo/summary/
一、“反向推理”沒有難倒Qwen-14B,怎么做到的?
Qwen-14B是一款支持多種語言的高性能開源模型,相比同類模型使用了更多的高質量數據,整體訓練數據超過3萬億Tokens,使得模型具備更強大的推理、認知、規劃和記憶能力,最大支持8k的上下文窗口長度。
與Qwen-7B相比,Qwen-14B模型進一步增強了Agent能力,在使用復雜工具時的可靠性有了顯著提升。例如,Qwen-14B可以熟練地使用Code Interpreter(代碼解釋器)工具執行Python代碼,進行復雜的數學計算、數據分析和數據圖表繪制等工作。此外,Qwen-14B的規劃和記憶能力也得到了提升,在執行多文檔問答和長文寫作等任務時表現更加可靠。
有趣的是,當智東西向Qwen-7B-Chat聊天機器人提出一個涉及到“反向推理”的問題時,Qwen-7B-Chat給出了準確的回答。近日,來自英國前沿AI工作組、Apollo Research、紐約大學、牛津等機構的一項研究表明,大模型在從“A是B”推理出“B是A”的問題上存在困境,在519個關于明星的事實中,預訓練大模型可以在一個方向上復現,但在另一個方向上卻不能。

▲Qwen-7B-Chat聊天機器人對“反向推理”問題的回答
那么,Qwen-14B是如何做到的呢?
首先,在數據集構建方面,通義千問研發團隊使用了3萬億Tokens的大規模預訓練數據集,覆蓋了各個領域和千行百業的知識,包含多個語種的語言、代碼數據等。在此基礎之上,研發團隊做了較為精細的數據處理,包括大規模數據去重、垃圾文本過濾、以及提升高質量數據比例等。
其次,在模型結構方面,通義千問研發團隊做了一系列前期實驗,用來驗證模型結構設計對效果的影響。整體而言,Google的PaLM、Meta的Llama模型中,大多數的技術選擇都是效果較好的,包括SwiGLU的激活函數設計、ROPE的位置編碼等,這些技術在Qwen的結構設計中均得到采用。
通義千問團隊針對詞表做了專門優化,詞表大小超過15萬,具有較好的編碼效率。相比其他Tokenizer(分詞器),能用更少的Token表示更多的信息,通過節省Token的數量來實現更低的成本。
此外,通義千問團隊重點針對長序列數據建模做了優化,采用當前最有效的策略,包括但不限于Dynamic NTK、Log-N Attention Scaling、Window Attention等,并做了一些細節的調整以保證長序列數據上模型表現效果更穩定。目前,Qwen-14B模型能夠適配并取得穩定表現的序列長度達到了8192。
通義千問研發團隊表示,大模型訓練其實沒有太多復雜的技巧,更多的是通過大量嘗試與迭代,找到更好的訓練參數,達到訓練穩定性、訓練效果和訓練效率的最優平衡,包括但不限于優化器的配置、模型并行的配置等。
最后,在外接工具的能力方面,研發團隊主要做了兩方面的優化。一是在微調樣本方面,通過建立更全面的自動評估基準,主動發現了之前Qwen表現不穩定的情況,并針對性地使用Self-Instruct自我指導方法擴充了高質量的微調樣本。二是提升了底座預訓練模型的能力,從而增強了模型的理解和代碼能力。因此,Qwen-14B的表現明顯優于Qwen-7B。
目前,Qwen-14B及對話模型Qwen-14B-Chat已上線魔搭社區,供全社會免費使用。除了從魔搭社區直接下載模型,用戶還可通過阿里云靈積平臺(DashScope)訪問調用Qwen-14B和Qwen-14B-Chat,體驗阿里云提供的包括模型訓練、推理、部署、精調等在內的全方位服務。
二、開發者用腳投票,通義千問跑出落地加速度
8月3日,阿里云開源通義千問70億參數模型Qwen-7B和對話模型Qwen-7B-Chat,兩款模型均開源、免費。在多個權威測評中,通義千問7B模型取得了超越國內外同等尺寸模型的效果。
海量開發者的反饋驗證了Benchmark的測評結論。據介紹,Qwen-7B在魔搭以外的開源社區也廣受歡迎,先后沖上Hugging Face、GitHub等社區的Trending(趨勢)榜單,在英文世界大模型占據統治地位的海外開源社區也刷遍存在感。

▲Qwen-7B沖上GitHub的Trending榜單
開發者用腳投票,一個多月間累計下載了100多萬次Qwen-7B等模型,開源社區先后出現50多款基于Qwen的新模型,通義千問團隊也已收到多家月活超1億的企業申請使用授權。
目前,開源社區多個知名工具和框架都集成了Qwen,如支持用大模型搭建WebUI、API以及微調的工具FastChat,量化模型框架AutoGPTQ,大模型部署和推理框架LMDeploy,大模型微調框架XTuner等等。
還有大量開發者基于Qwen開發了自己的模型和應用,如個人開發者開發的LLaMA-Efficient-Tuning、Firefly和OpenAI.mini等項目,均支持或使用了Qwen模型。

▲量化模型框架AutoGPTQ集成了通義千問Qwen模型
在開源舉措加持下,通義千問大模型跑出了落地應用的加速度,接入通義千問的應用機構涵蓋互聯網和傳統行業、學界和工業界、頭部企業和初創公司等,包括阿里系的淘寶、釘釘、未來精靈(原天貓精靈),三方的浙江大學和高等教育出版社、浙江有鹿機器人科技有限公司等。

▲周靖人在發布會上介紹Qwen-7B的落地情況
阿里云在發布會上展示了多個通義千問應用案例,讓“大模型落地”變得可知可感。比如,浙江大學聯合高等教育出版社和阿里云,基于Qwen-7B訓練了智海-三樂教育垂直大模型,已在阿里云靈積平臺上線服務,開發者僅需一行代碼即可使用。該模型已在全國12所高校應用,可提供智能問答、試題生成、教學評估等能力。
初創企業浙江有鹿機器人科技有限公司,則把Qwen-7B集成到機器人身上,開始面向“具身智能”的新探索。在路面清潔機器人AI130中,有鹿通過集成Qwen-7B,讓機器人能使用自然語言和用戶進行實時交互,理解用戶提出的需求,比如“去清理一下5號樓邊上的可樂瓶”,機器人能自動對用戶的高層指令進行分析和拆解,通過高層的邏輯分析和任務規劃,完成清潔任務。
三、“一花獨放不是春”,全面擁抱開源開放
阿里云稱,百模大戰中,很多人看到“大戰”,而阿里云看到“百模”。
阿里云副總裁、公眾與客戶溝通部總經理張啟對記者說:“一花獨放不是春,百花齊放春滿園。不管是閉源大模型的還是開源大模型,自研大模型還是第三方大模型,大規模參數模型還是小規模參數模型,通用大模型還是行業、企業專屬大模型,阿里云全部歡迎和支持,共同建設一個最大的大模型自由市場。我們希望所有大模型都能跑在阿里云上,跑得更快、更便宜、更安全。也因為此,阿里云率先開源7B、14B模型,并將持續開源開放,為開源社區貢獻力量。”
這解釋了阿里云的另類路線:造生態。回顧大模型興起以來阿里云的種種舉措,從理論到實踐,阿里云都在做同一件事。
2022年,阿里云在業界首提MaaS(Model as a Service,模型即服務)理念,為新一輪AI浪潮下的大模型生態建設提供了理論依據和最佳實踐。MaaS理念的內核,在于提出一種全新的、以AI模型為核心的開發范式。阿里云據此搭建了一套以AI模型為核心的云計算技術和服務架構,并將這套能力向大模型初創企業和開發者全面開放。不到一年時間,大模型行業已是“言必稱MaaS”。

▲周靖人在發布會上介紹阿里云的MaaS理念
2023年7月,阿里云宣布將把促進中國大模型生態的繁榮作為首要目標,向大模型創業公司提供全方位的服務,包括最強大的智能算力和開發工具,并在資金和商業化探索方面提供充分支持。
根據本次發布會分享,提供底層算力服務,阿里云有幾重獨有優勢:
在基礎設施層,阿里云擁有國內最強的智能算力儲備,其靈駿智算集群可支持最大十萬卡GPU規模,承載多個萬億參數大模型同時在線訓練。
在AI平臺層,阿里云機器學習平臺PAI提供AI開發全流程的工程能力,可將大模型訓練時間縮短10倍;一站式模型服務平臺靈積擁有自動化的模型上云統一工具鏈路,支持模型自主接入并自動獲取平臺的強大服務能力。靈積平臺現已托管通義千問、Stable Diffusion、ChatGLM-v2、百川、姜子牙等大模型。
在開發者生態層,阿里云牽頭建設了中國的AI開源第一門戶——魔搭社區ModelScope。魔搭社區秉承“模型即服務”的創新理念,聚集了由30多家頂尖AI機構貢獻的1200多個優質AI模型,并將AI模型變為直接可用的服務,為開發者提供一站式的模型體驗、下載、推理、調優、定制等服務。

▲周靖人在發布會上介紹魔搭社區
魔搭社區的模型貢獻者基本覆蓋國內大模型賽道核心玩家,大模型企業不約而同將魔搭作為自研模型開源首發第一站。9月,百川智能的Baichuan 2系列模型、上海人工智能實驗室的書生·浦語20B模型、智譜AI的MathGLM等模型均在魔搭開源首發。其中,書生·浦語系列模型與魔搭社區達成生態合作,表示將共同推動中國大模型生態建設。
模型供給的豐富,帶來了開發者的匯聚,“找大模型上魔搭”已經成為開發者的共同心智。上線不到一年時間,社區已經聚集230萬AI開發者,模型累計下載量突破8500萬。
在阿里云暢想的“大模型自由市場”中,通義千問只是“百模”之一。而開源開放,正是阿里云知行合一,開展大模型生態建設的“最佳實踐”。
開源生態對促進通用大模型的技術普惠與應用落地至關重要。大模型訓練成本高,絕大部分中小企業和開發者難以承受。大模型開源,能夠將頭部企業的大模型能力以更低成本、更快速度推向中小企業和開發者,加快推進大模型生態建設,孕育大模型應用創新。
從更宏觀的視角看,AI大模型的競爭不僅是公司之間、研究團隊之間的競爭,更是生態與生態之間的競爭。如果說“公共云+AI”的系統能力是大模型競爭的入場券,那技術和產業生態就是全球大模型競爭的主戰場。產業生態是構筑商業閉環和競爭壁壘的關鍵,越早將大模型推向市場,越多吸納用戶的反饋來反哺大模型,越能實現“模型越強、應用越多,應用越多、模型越強”的“飛輪效應”。
最終,受益的是每一個開發者、中小企業,以及整個大模型行業。