智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣
智東西1月25日報道,昨日,巖山科技旗下創企巖芯數智(Rock AI)推出國內首個非Attention機制的大模型Yan,也是業內少有的非Transformer架構大模型。
巖芯數智CEO劉凡平介紹,Yan是一個通用大語言模型,擁有相較于同等參數Transformer的7倍訓練效率、5倍推理吞吐、3倍記憶能力,同時支持CPU無損運行、低幻覺表達、100%支持私有化應用。

標準的Transformer架構模型在消費級顯卡微調,難以達到大規模商業化的目標;訓練至少花費數百萬以上,對企業來說并不經濟劃算。劉凡平透露,基于Yan架構,僅需投入50萬元的訓練成本,就可以擁有百萬參數級的大模型。Yan支持100%支持私有化部署,支持CPU服務器運行,能在端側設備上流暢運行。
智東西與少數媒體對巖芯數智CEO劉凡平進行了采訪。巖芯數智對標業內的什么大模型?Yan有什么優勢和劣勢?
劉凡平告訴智東西,Yan還沒有真正對標誰,今天大家看到對比Transformer的一些數據是用Llama 2的數據進行的比較,能看到性能差異。團隊對標的是底層技術架構,而不是某一產品。
優勢和劣勢方面,今天介紹的效果是通過大量實驗驗證測試出來的,它確實在訓練效率、推理效率、記憶能力、幻覺表現了很強的優勢,包括CPU上運行。團隊自己從理論上(非應用層面)推導的劣勢,可能在上百k超長文本上會有語義上的缺陷。
當下,業內同時出現了Mamba、RWKV等非Transformer架構的大模型。劉凡平說,參考Mamba與Llama 2對比的數據圖表,Yan的數據比Mamba要好。
一、比Mamba數據好,效率7倍于Transformer
Attention機制,簡單來說,是通過一種非線性的矩陣方式表達更多東西。在標準Attention機制下,計算復雜度較高,已經成為大模型領域的一大難題。
巖芯數智技術負責人楊華解讀,Yan不采用Attention機制,也不采用RNN序列,而是建立一種線性的向量方式,將計算復雜度大幅降低,做到線性時間復雜度,還能做到常量的空間復雜度,從而提高大模型的性能和效果。

1、訓練效果:預測準確率提高17%
以機器翻譯為例,對Yan與Transformer架構的表現對比,在訓練集和驗證集上,Yan的損失值都要低于Transformer。Yan的訓練效率是Transformer的7倍,消耗的資源更低。

訓練集上,Yan的預測準確率比Transformer高出17%,驗證集上Yan要高出13%。

2、推理吞吐量:同資源下高于Transformer
在推理吞吐量對比方面,相同資源下,Yan的吞吐量都要高于相同情況下的Transformer,達到其5倍,能支持更多用戶的并發使用。

3、推理資源消耗:支持更長序列,降低應用成本
當模型輸出的Token從200增加到3000時,Transformer會出現顯存不足,但Yan模型始終顯存穩定。理論上可以實現無限長度的推理,應用成本更低。

4、記憶能力:準確率為Transformer的3倍
以古詩續寫為例,對Yan與Transformer的記憶能力進行對比。訓練集上Yan的準確率達到Transformer的3倍,記憶能力更強。

從以下三個例子看到,Transformer沒有完成對訓練數據的記憶,只記住了句式和字數;Yan則克服幻覺,依靠記憶進行了續寫。

劉凡平說,Yan不是基于Llama、GPT、PaLM的套殼,不是基于其他Transformer架構大模型的二次預訓練,不是基于開源模型的微調,而是其完全自主知識產權研發的新一代架構大模型。
二、現場演示四大能力,記憶力與邏輯兼顧
目前,Yan1.0推出1.3B、7B和48B三個版本參數規模的模型,并支持大于100B模型的訓練。
巖芯數智在現場對Yan1.0大模型進行了演示,通過一臺筆記本電腦,本地內存使用維持在13G之內,實現模型運行。演示的內容涉及機器翻譯、古詩續寫、自由對話和醫學問答四個方面。
1、機器翻譯,比Transformer更地道
如下圖所示,當輸入“東方明珠是上海的經典建筑”,Yan1.0給出了準確翻譯。由于機器翻譯是Transformer的根,因此巖芯數智從這一根技術出發驗證Yan1.0大模型的能力。

通過一個翻譯示例看到,Yan將上海浦東翻譯成一個地方,但Transformer沒有識別出浦東這一地名,以為是一個Pond(池塘)。

2、古詩續寫,提升記憶、降低幻覺
在故事續寫能力方面,Yan1.0現場續寫了“青海長云暗雪山”這句詩,展現了其記憶能力。Yan1.0的古詩續寫不依賴網絡搜索引擎和專家系統,而是靠自己的架構能力。對于實際應用來說,記憶能力可以幫大模型降低幻覺,從而更具有實用性。

3、自由對話,能作詩能寫文章
在自由對話方面,Yan1.0在現場演示創作了一首詩,描述春天百花齊放的場景。

而后,Yan1.0又被要求描述AI如何影響社會發展,它流暢地輸出了200~300字的短文。

4、醫學問答,提供健康助理建議
當被問到“流行性感冒如何緩解?”、“腰間盤突出如何緩解?”、“脂肪肝需要如何治療?”等問題,Yan1.0都給出了建議。

三、超1000天三大迭代,Yan2.0將升級全模態
劉凡平說,Yan并不是團隊研發的第一代模型,而是經過了1000多天三代迭代的成果。
Dolphin1.0是標準的Transformer架構,當時團隊認為通用人工智能應該已經有了一個比較好的模型架構Transformer了,于是就基于Transformer去做了一套模型。

但在深入研究和實踐之后發現缺陷:Transformer架構訓練成本太高,成本難以覆蓋客戶給公司的付費,這種情況下一直做下去是做一單虧一單。團隊一開始的解法是基于它加深研究。
所以有了Dolphin2.0。2.0出來之后,團隊發現模型的交互還是有很多問題,包括引入線性的Attention機制也有很多問題。于是團隊就兩頭走,一方面嘗試改進Attention機制,另一方面嘗試引進新的模型架構。
通過兩條路探索,團隊最終發現還是Yan架構有優勢。但這個Yan是最后走出來的,此前團隊還嘗試了圖架構、樹形架構等多種路徑。從圖架構最開始出來的時候,只有部分功能比較好用;到后來樹形記憶網絡階段,模型能克服幻覺,記憶能力更好,但推理能力卻下降了,比如回答問題沒有邏輯性。所以,最后才慢慢演化出了Yan架構。
面臨算力耗費高、數據需求大等問題,因此巖芯數智從技術上放棄了Transformer架構和Attention機制。
劉凡平預告,巖芯數智第四代大模型Y2.0已經在路上,這是一個全模態的大模型架構,目標是要全面打通感知、認知、決策與行動,構建通用人工智能的智能循環。巖芯數智不是要復制一個Llama,或者做一個垂直大模型,而是要做一個通用人工智能操作系統。

后續在商業化方面,巖芯數智計劃上接云計算、終端廠商等廠家,下接應用開發類廠商,促進其通用人工智能操作系統的落地。
結語:Transformer計算成本高,新模型架構引關注
隨著大模型的爆火,傳統的Transformer架構同時展現出計算復雜度高、成本壓力大等問題,國際上已有Mamba、RWKV等非Transformer架構大模型引起關注,國內也誕生了Yan這樣的新架構。
為了研發Yan架構,正如劉凡平所說,其團隊經歷了眾多架構的嘗試和迭代,最終取得了記憶、推理等多項能力提升。大模型底層技術的路線之爭是一個長期演進過程,哪一條路線能真正跑贏,還需要在實踐和與全球對手的比拼中得到驗證。