▲頭圖由AI生成
智東西(公眾號:zhidxcom)
編輯 | ZeR0
智東西10月30日報道,今日,昆侖萬維正式發布國內首個全面開源百億級大語言模型「天工」Skywork-13B系列,600GB、150B Tokens的高質量中文開源數據集,并全面開放商用。
也就是說,開發者無需額外申請,即可將大模型進行商業用途,而且開源得足夠徹底,沒有對行業、公司規模、用戶等方面的任何限制。
2008年成立、從游戲起家的昆侖萬維,近年已逐漸構建了AGI與AIGC、海外信息分發與元宇宙、投資三大業務板塊,業務覆蓋全球一百多個國家和地區,全球平均月活躍用戶近4億。
昆侖萬維「天工」Skywork-13B系列擁有130億參數,包含Skywork-13B-Base、Skywork-13B-Math兩個大模型,在CEVAL、GSM8K等多個權威評測與基準測試上都展現了同等規模模型的最佳效果,在中文科技、金融、政務等領域表現均高于其他開源模型。
除模型開源外,Skywork-13B系列大模型還將開源600GB、150B Tokens的高質量中文語料數據集Skypile/Chinese-Web-Text-150B,這是目前最大的中文開源數據集之一。
Skywork-13B下載地址:
//modelscope.cn/organization/skywork
//github.com/SkyworkAI/Skywork
一、130億參數、兩大模型、150B中文數據集,全面開放商用!
昆侖萬維「天工」Skywork-13B系列包括兩大模型及150B高質量中文數據集。
其中,Skywork-13B-Base模型是基礎模型,由3.2萬億個多語言高質量數據訓練而成,在CEVAL、CMMLU、MMLU、GSM8K等評測與基準測試上都展現了同等規模模型的最佳效果。
Skywork-13B-Math模型,顧名思義,經過專門的數學能力強化訓練,在GSM8K等數據集上取得了同等規模模型的最佳效果。
Skypile/Chinese-Web-Text-150B數據集,是根據昆侖萬維經過精心過濾的數據處理流程從中文網頁中篩選出的高質量數據。本次開源數據集大小約為600GB,包含約1500億個token,是目前最大的開源中文數據集之一。

除此之外,Skywork-13B系列還公開了模型中使用的評估方法、數據配比研究和訓練基礎設施調優方案等。
為了更加精細化利用數據,Skywork-13B系列采用兩階段訓練方法,第一階段使用通用語料進行模型通用能力學習,第二部分加入STEM(科學,技術,工程,數學)相關數據進一步增強模型的推理能力、數學能力、問題解決能力。
昆侖萬維希望這些開源內容能夠進一步啟發社區對于大型模型預訓練的認知,并推動人工智能通用智能(AGI)的實現。
二、五大特點:評測得分超越Llama 2,無需申請即可商用
昆侖萬維「天工」Skywork-13B系列大模型在CEVAL、GSM8K等多個權威評測與基準測試上都展現了同等規模模型的最佳效果,其中文能力尤為出色,在中文科技、金融、政務等領域表現均高于其他開源模型。
昆侖萬維將該系列大模型的特點總結為五個“最”:
1)最強參數表現:根據截至10月25日的數據,Skywork-13B系列模型在CEVAL、CMMLU、MMLU、GSM8K等權威評估基準中全面超越Llama-2-13B等開源大模型,在同等規模大模型間取得最佳效果。

與Llama-2-13B相比,天工Skywork-13B模型采用相對更加瘦長的網絡結構,層數為52層,同時將FFN Dim和Hidden Dim縮小到12288和4608,從而保證模型參數量和原始Llama-13B模型相當。據昆侖萬維前期實驗對比,相對瘦長的網絡結構在大Batch Size訓練下可以取得更好的泛化效果。

2)最多訓練數據:擁有130億參數、3.2萬億高質量多語言訓練數據,模型的生成能力、創作能力和數學推理能力提升明顯。
3)最強中文語言建模能力:中文語言建模能力、中文文創能力出色,在科技、金融、政務、企業服務、文創、游戲等領域的中文文本創作評測中表現均高于業內其他開源模型。

如圖用領域數據困惑度來衡量語言模型跨領域的語言建模能力。評估一個基礎大模型的重要方式是評估其在各領域上生成文章的概率,困惑度通過評估模型預測下一個詞的平均可選數量來衡量一個語言模型的好壞。困惑度越低,意味著語言模型生成高質量文本內容的能力越強。
4)最大中文開源數據集之一:將配套開源600GB、150B Tokens的高質量中文語料數據集Skypile/Chinese-Web-Text-150B。開發者可以最大程度地借鑒技術報告中大模型預訓練的過程和經驗,深度定制模型參數,有針對性的進行訓練與優化。
5)最有誠意的開源商用:全面開放商用許可,將授權流程做到極簡,取消對行業、公司規模、用戶等方面的限制,用戶在下載模型并同意并遵守《Skywork模型社區許可協議》后,無需再次申請授權,即可將大模型進行商業用途。
目前開源社區中的中文大模型多數并非是完全可商用,用戶通常需要進行復雜的商用授權申請流程,有些情況會對公司規模、所在行業、用戶數等維度有明確規定不給予商業授權。
昆侖萬維希望用戶能夠更便捷地探索Skywork-13B系列大模型技術能力,探索在不同場景下的商業化應用,以幫助更多對中文大模型感興趣的用戶和企業在行業中不斷探索和進步。
三、形成六大AI業務矩陣,以All in AGI與AIGC為戰略重心
昆侖萬維成立于2008年,從游戲起家,2015年在深交所上市,2020年便已開始布局AIGC領域,正全面構建多元化的業務生態。
至今,昆侖萬維已積累近三年的相關工程研發經驗,并建立了行業領先的預訓練數據深度處理能力,在AI領域已形成AI大模型、AI搜索、AI游戲、AI音樂、AI動漫、AI社交六大AI業務矩陣。
All in AGI與AIGC是昆侖萬維的戰略。
據了解,昆侖萬維董事長兼CEO方漢是很早參與到開源生態建設的開源老兵,也是中文Linux開源最早的推動者之一,因此開源精神和AIGC技術發展的結合將會貫穿于昆侖萬維戰略之中。
今年以來,昆侖萬維一路快馬加鞭,釋出從基礎大模型到AIGC產品的一系列進展:
4月17日,昆侖萬維發布自研千億級大語言模型「天工3.5」,并啟動邀請測試。該模型具備文案創作、知識問答、代碼編程、邏輯推演、梳理推算等多元AI生成能力。
5月19日,北京市經濟和信息化局公布第一批《北京市通用人工智能產業創新伙伴計劃成員名單》,昆侖萬維成為第一批模型伙伴和投資伙伴。
8月23日,昆侖萬維發布國內第一款AI搜索產品——天工AI搜索,并開啟內測申請。天工AI搜索通過人性化、智能化的方式全面提升用戶的搜索體驗,并集成AI對話、AI寫作等常用功能,幫助用戶提高中文搜索體驗和工作效率。
9月1日,計算機視覺和機器學習領域的國際頂級專家顏水成教授正式加盟昆侖萬維,與昆侖萬維創始人周亞輝一起出任天工智能聯席CEO,并兼任昆侖萬維2050全球研究院院長,負責前沿技術的研究。
9月5日,昆侖萬維天工大模型在騰訊優圖實驗室聯合廈門大學開展的多模態大語言模型測評MME中,綜合得分排名第一。
9月17日,昆侖萬維通過信通院“可信AI”評估,并被評選為人工智能實驗室副組長單位。
9月25日,昆侖萬維正式控股AI大算力芯片企業艾捷科芯,布局AI芯片。
10月26日,天工大模型獲得由北京算法交易服務中心頒發的“算法模型認證證書”,昆侖萬維成為北京算法交易服務中心首批認證企業。
今天,天工Skywork-13B系列大模型的開源,標志著昆侖萬維持續投資AGI生態的決心。
結語:推動開源生態繁榮,加速AI技術落地
蓬勃發展的開源生態建設是構建AI和應用融合的重要一環。持續降低模型的研發門檻、使用成本、最大化的共享技術能力和經驗,有助于加速AI應用普及,促使更多的企業和開發者們參與到AI引領的科技變革中。
昆侖萬維表示Skywork-13B系列大模型的開源將為大模型的場景應用和開源社區發展提供最佳的技術支持,加速開源生態繁榮,進而降低大模型商業門檻,推動AI技術落地千行百業。