智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
大規模中文語言模型,又迎來了新玩家。
近日,微信AI推出百億級參數規模的自研NLP大規模語言模型WeLM,能在零樣本及少樣本的情境下完成對話-采訪、閱讀理解、翻譯、改寫、續寫、多語言閱讀理解等NLP(自然語言處理)任務,具備記憶能力、自我糾正和檢查能力。?
目前,WeLM已部署應用于微信視頻號的部分場景中,未來在進一步優化后還將應用于更多微信應用場景。
一、極強知識儲備,在14項中文NLP任務中表現超同類
WeLM可在零樣本及少樣本的情境下,完成多類NLP任務。以文本風格轉換(改寫)為例,盡管用戶給出的5個例子和最后需要生成的例子并沒有重合的風格轉換類型,但WeLM擁有出色的舉一反三能力,通過學習少量的文本轉換例子,即可達到對任意類型的文本轉換。

該模型還具有尺寸合理的優勢,在與業界同級別的CPM、華為Pangu和百度Ernie3.0的對比測試中,WeLM表現出極強的知識儲備。
在14項中文NLP任務上,WeLM的整體表現超出了所有同大小的模型,甚至能夠匹配比它大25倍的模型。同時,在強大的中文理解和生成能力外,WeLM還有出色的多語言理解能力,用戶的輸入可以在跨多語言(中日英)絲滑切換。

從“微信AI推出のWeLM是一個language model thatいろいろなtaskをperformができる”這句混合中日英三國語言文本的翻譯結果來看,WeLM的翻譯相較Google翻譯更為精準。
在進一步微調后,WeLM可以擁有更好的零樣本學習能力,根據場景擁有更好的表現。
二、自回歸模型路線,全量數據10TB
WeLM的相關技術論文《WeLM: A Well-Read Pre-trained Language Model for Chinese》已發布于論文預印本網站arXiv。

論文鏈接:
據介紹,在純Encoder(Bert)、純Decoder(GPT) 以及Encoder-Decode(T5) 結構等主流NLP模型路徑的選擇上,WeLM和GPT3、Google PaLM一樣,選擇了自回歸模型的路線。
同時,考慮到不同的用戶對于模型效果和推理延遲會有考量或者取舍(trade-off),微信AI的WeLM訓練了1.3B、2.7B以及10B三個版本的模型,滿足不同用戶的調用需求。
同時,在訓練數據上,微信AI團隊希望構建一個足夠豐富、足夠干凈、足夠公平的數據集,為此研究團隊從Common Crawl下載了近兩年的中文網頁數據,和大量的書籍、新聞。

為了增強專業能力,微信AI團隊還在數據集補充了知識密集的論壇數據和一些學術論文,搜集完成后的全量數據10TB,其中包含了750G的英文數據,并保留了部分日韓文。
隨后,通過規則過濾和額外訓練的二分類fasttext模型,以及對測評相關數據的去除,數據集最終處理完的數據量為262B tokens。
為了更好的平衡各個數據源的比重,微信AI團隊也對數據進行不同比重的采樣,最終,整體數據集的Topic分布相比Common Crawl更加平滑。

結語:落地且實用才是硬道理
為了推動WeLM落地應用,微信AI團隊還發布了一個供用戶體驗的交互式網頁PlayGround,并開放了用于訪問WeLM的API接口。用戶可通過調整配置以實現更貼近的文本生成效果。

體驗申請API接口:
除了通過交互式網頁PlayGround進行體驗外,想開發者也可以通過//welm.weixin.qq.com/docs/api/填寫問卷獲得WeLM的API Token并調用相應接口,將WeLM部署在自己的應用上。
未來,微信AI還將針對WeLM進行進一步的微調優化,進一步提升其在新任務上的泛化效果,并吸取更多開發者、用戶的意見和建議,將該模型早日打磨成為真正能落地且實用的工具。