智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣
百模大戰背后,到底是重復造輪子還是百花齊放?
大模型成為時下全民關注的杭州亞運會中的高頻詞,阿里云AI繪畫創作大模型“通義萬相”、商湯科技“日日新”大模型體系SenseNova、百度地圖基于文心交通大模型和自研“北斗高精”技術能力全新升級車道級導航3.0等產品施展拳腳;與此同時,國內大模型產品進入面向更廣泛消費者提供服務的新階段。上個月初,百度、字節跳動、商湯科技、紫東太初、百川智能、科大訊飛等十余家企業成為首批正式上線面向公眾提供服務的產品。
大模型競賽進入新階段之際,然而,上百個大模型競相迸發的背后,有限的賽道資源使得其逐漸同質化的趨勢初現端倪。
從百度、阿里等互聯網大廠,以及訊飛、360等各賽道頭部玩家,大模型產品的界面、功能、使用方式都近乎一致。相似的對話框、測評中相差無幾的性能得分、以PC為主的使用方式,使得用戶有時只能靠“圖標”來辨別不同的大模型。
當下,大模型的熱潮尚未平息,其能力正在推動互聯網產業變革,智東西與業內多位知名從業人士進行了深入交流,業界對于大模型同質化有以下三種看法,首先是認為大模型同質化是產業發展早期的正常階段,其次為大模型的同質化表現的衡量標準很多,相關因素眾多,不能以“同質化”一言以蔽之,第三種觀點則堅決認為不會同質化,因為各家落地的主要場景不同。
對于大模型同質化現象背后的原因、未來探索的路徑,小冰公司CEO李笛在2023Inclusion·外灘大會上接受智東西采訪時談道,自己最大的憂慮是國內大模型的多樣性,大家用同樣的數據集、同樣的訓練方法、同樣的master,對比同樣的對象、類似的方法,多樣性確實有很大問題。“現在處于技術百花齊放的狀態,應該嘗試不同的東西,而不是馬上數理化外語卷起來了”。
一、大模型界面、能力、使用方法,共性多過差異
從面向消費者的聊天機器人產品來看,其界面外觀、能力、使用方法、效果都有雷同之處,用戶往往無法通過其現有的Logo、布局等細小差別來快速進行區分。
首先從界面外觀來看,相同的地方在于,聊天機器人的主頁面大體可以分為三個部分,左側為歷史對話記錄和新建對話,右側上方為對話的具體內容,右側下方為用戶輸入窗口。不同的地方在于,大模型產品Logo,也就是聊天機器人頭像,以及實際頁面中功能按鈕的設計。
先來看Logo,單看下面幾個圖標,雖然其各有特色,但很難快速與產品實現一一對應。一般而言,Logo的高辨識度與其和內容的強相關性,以及用戶日常使用的高頻率相關,但目前來看,前者屬性并不明顯,后者因為文心一言、智譜AI、訊飛星火等剛于9月初面向全民開放,因此其同樣尚未形成大多用戶的高頻使用工具。

▲聊天機器人產品Logo(從左至右依次是360智腦、百川大模型、商量、通義千問、文心一言、訊飛星火)
此外,在界面設計上,聊天機器人產品除了輸入、輸出、重新生成、查看編輯歷史對話記錄、新建對話這些標準功能外,還有更加個性化的語音輸入、語音輸出、搜索增強,但具備后續幾個功能入口的產品僅為少數。
值得一提的是,因為一些企業將文生圖、文生文的產品進行了獨立區分,用戶還需要通過另一款產品來上傳圖片。

其次,從大模型的能力來看,根據輸入輸出形式可以分為文圖互生、文文互生、文生音視頻等,其中前兩類的應用較為廣泛,基于此,大模型的實際能力包括內容生成、理解、邏輯推理、代碼生成等,雖然不同大模型的能力表述不同,但基本都集中于此。
創新奇智CTO張發恩在和智東西交流時也談道,大模型目前的應用場景基本上都是常識性問答、解數學題、邏輯推理、文本潤色等。而大模型能力應用的現狀也都近乎相同:常識性問答的能力很多情況下能被搜索引擎代替,數學題、邏輯推理的準確度并不能被用戶完全信任,文本修飾能力沒有太大差距。
這也可以從通用中文大模型測評標準的判定基準來看,都是從不同維度考驗大模型的文圖互生、文文互生能力。如新華社聯合北大發布的《人工智能大模型體驗報告2.0》中,按照基礎能力指數、智商指數、情商指數、工具提效指數四大測評維度進行設計,中文通用大模型綜合性評測基準SuperCLUE針對的是語言理解與生成、知識理解與應用、專業能力、環境適應與安全性。
再從評測效果來看,因為各家的評判標準、參考維度不同,因此實際排名效果不盡相同。如新華社報告中綜合能力排名第一的為星火大模型,SuperCLUE的8月榜單中排名第一的為百川大模型。這也側面印證了大模型能力在實際表現中,沒有某一個的能力可與其它產品拉開很大差距。
最后從使用方式來看,各家的大模型產品使用載體也多集中于網頁端和APP端兩種。
?
綜合來看,大模型從界面到功能,到實際效果的具體呈現,都沒有一個與其它相比有較大差距。
二、同質化趨勢有跡可循,劍指三大底層邏輯
透過表象看本質,大模型的同質化現象可以歸結于以下幾大原因:
還是從直觀的界面設計說起,不論ChatGPT還是國內聊天機器人,用戶點擊進去就可以立馬上手使用,不需要花費很大的學習成本,并且其和微信等人們日常使用的社交軟件近似。潘森斯設計學院的助理教授Kyle Li認為,簡單的對話界面更適合于幫助人們熟悉、了解新的、陌生的技術,并且用戶可以通過一個界面完成各種工作。
但這背后的隱患就是,相似的界面設計無法使用戶對某一產品留下深刻印象,但這些產品之后想要調整設計,也會面臨不符合用戶使用習慣被拋棄的風險。
其次從技術路線來看,目前大模型訓練的方式都較為集中。2017年,Transformer架構的出現奠定了大模型研究的基礎。
Transformer架構包含Encoder和Decoder,又誕生了三大訓練路徑,包括OpenAI主導的基于Decoder的GPT路線,谷歌AI研究院提出的基于Encoder的BERT路徑,以及兩者兼具的T5模型。
三種技術路線都有適配的場景,研究早期,參數規模較小時BERT模型的效果優于GPT模型,隨著模型的參數規模增大,GPT-3模型的效果更好,并且BERT模型是基于雙向編碼的預訓練模型,在理解上下文意思上表現更好,GPT是基于語言模型的生成效果,更適用于文本生成任務,T5則更適用于參數規模較小的大型語言模型生成任務中。

▲從GPT-1到GPT-4的對比(圖源:《GPT-4核心技術分析報告》)
今年3月,新浪微博資深算法專家張俊林曾在中國人民大學高瓴人工智能學院主辦的AIGC論壇中分享道,到2019年后,BERT路線基本上就沒有什么標志性的新模型出現了,而GPT技術路線趨于繁榮。從BERT往GPT走,模型越來越大,做的事越來越通用。
除此以外,也有企業在探索創新架構,如智譜AI在GPT、BERT、T5之外提出了自己的新模型訓練架構,那就是GLM(通用語言模型)路徑。
但值得注意的是,大模型的底層技術路線已經成型,如今創新架構的研究仍處于初期,大多企業都集中于已有技術路徑,未來當其同質化屬性的弊端愈加凸顯,實現“大象轉身”則難上加難。
第三大原因是數據。大模型最重要的三大要素,數據、算力、算法,其中訓練數據也是造成大模型同質化的一大原因之一。未來智能CEO馬嘯告訴智東西,OpenAI的勝利本質上還是數據清洗的勝利,因此企業比拼的是“誰清洗的數據精準”。因此,大模型能力的區別很大程度在于“怎么投喂數據”。
大型語言模型的訓練數據主要來自公開數據集、企業私有數據集、互聯網公開數據等。公開數據集對于各家大型語言模型研發者來說,起點一樣。基礎大模型可選的數據集類型多以開源為主,手握更高質量行業、私域數據的企業也并不會將其開放給大模型。
清華大學惠妍講席教授、清華大學電子工程系長聘教授、北京銜遠科技創始人周伯文在2023世界人工智能大會期間接受媒體采訪時提到,目前通用大模型的訓練數據集多來自互聯網文本數據。因此,企業拿到的公開數據在一定程度上有很大重復性。
再加上國內中文開源數據集的數量遠不及英文,也成為國內大模型實現差異化競爭的一道門檻。不過,值得注意的是,中文開源數據集的構建正在加快。
今年以來,《北京市促進通用人工智能創新發展的若干措施(2023-2025年)(征求意見稿)》中提到,要整合現有開源中文預訓練數據集和高質量互聯網中文數據并進行合規清洗。同時持續擴展高質量多模態數據來源,建設合規安全的中文、圖文對、音頻、視頻等大模型預訓練語料庫,通過北京國際大數據交易所社會數據專區進行定向有條件開放。
還有復旦大學團隊開源中文醫療領域的47萬高質量監督微調(SFT)數據集DISC-Med-SFT、華為諾亞方舟實驗室開源了第一個億級中文多模態數據集悟空等。
即便開源數據集的數量和質量都在提升,但對于研發大模型的企業而言,其仍處于同一起跑線,開源數據集無法快速幫助其構建差異化大模型。
基礎大模型的這些客觀屬性一定程度上奠定了其現在呈現出同質化的傾向,但下一階段隨著各家企業的技術積累越來越多,大模型的應用場景逐漸清晰,在同質化基礎上呈現出差異化的趨勢當下仍是未知數。
三、三大產業觀點交鋒,大模型同質化難題待解
不過,身處其中的大型語言模型研發者對于同質化的看法也有差別。
一種觀點認為大模型同質化是產業發展早期的正常階段,一種觀點認為大模型的同質化表現的衡量標準很多,相關因素眾多,不能以“同質化”一言以蔽之,第三種觀點則堅決認為不會同質化,因為各家落地的主要場景不同。
不同觀點的存在,是站在不同維度上看待大模型的發展。第一種是站在技術演進的角度,第二種從用戶使用的需求,第三種從大模型提供者的角色定位來看。
目前,百川智能創始人、CEO王小川,復旦大學計算機學院、復旦大學MOSS系統負責人邱錫鵬,螞蟻集團副總裁徐鵬,小冰公司CEO李笛都是第一種觀點的支持者。他們都認為現在國內大模型產業都處于追趕、“跟進復刻”的階段。
王小川在與智東西交流時談道,現階段企業對標的東西就一個(ChatGPT),要么拉滿、要么同步,因此這個階段是不可避免的。邱錫鵬在8月上海市科協舉辦的青年科學家論壇中談道,現在大家做的東西總體上比較雷同,比如說像預訓練,有創新性的東西總體不多。
當國內玩家趕超ChatGPT后,或者說技術積累達到一定階段,企業自身的優勢,才會在大模型產業中顯現出來,使得其呈現出差異化。李迪的觀點也印證了這一趨勢,他告訴智東西,大模型首先得追及格,再去嘗試多樣化、差異化,重復造輪子沒有必要,在應用上才能實現大的發展。
徐鵬解釋道,大模型技術上沒有本質的差異,但側重點不一樣,開源、閉源等大模型,既有雷同的地方,又有各自特色。并且據他觀察,美國很多公司放棄走基礎模型這條路,直接在上面做能夠創造附加價值的應用,而應用多樣性才能給人類、給社會帶來價值。
可以看出,這種觀點普遍認為現階段雷同的大模型發展背后隱藏的是應用端的創新突破。專注于工業制造領域的張發恩在與智東西交流時也提到,創新奇智布局的工業制造業領域,大模型的應用場景十分多樣性且貼合行業痛點,可以有效規避大模型的同質化。
第二種觀點是用戶對于大模型產品的需求十分復雜,因此用戶使用側重點等也一定會有不同。
訊飛研究院院長劉聰告訴智東西,大模型是否同質化與產品最終呈現的效果有關,真正每天都在用大模型的用戶會根據自己最切實的需求選擇到適配的大模型。用戶對于ChatGPT的嘗試仍停留在較為初級的階段,更強大的數據分析、寫代碼等能力對于用戶自身能力的要求也更高,一些功能對于大部分用戶而言有一定的門檻。
因此,“同質化”應該辯證地看待,不能僅從大模型呈現出的能力下決斷,單從用戶層面來看,就有數量繁多的分類,如對大模型有較大需求的用戶,沒有很大需求的用戶,對單一功能有需求的用戶,對綜合功能有需求的用戶等。
第三種觀點是大模型同質化不會出現。
360集團創始人、董事長兼CEO周鴻祎此前在接受媒體采訪時提到,各大互聯網公司在C端都有各自的固定場景,例如騰訊在社交,百度在搜索,360在搜索、瀏覽器、桌面等。除此以外,大模型還會產生很多增量場景。
即便現在關于大模型同質化的論調并不一致,但其所呈現的界面、設計等仍需參與者警醒,在技術探索的路途中想明白下一步該做什么更為關鍵。
歸根結底,大模型走向應用落地時,其產品能力是否契合用戶的核心痛點,并且做到好用、可用、易用,這些關鍵因素的共同作用是其實現差異化競爭的基礎。
結語:需警惕大模型同質化“陷阱”
目前來看,大模型同質化趨勢仍然處于較為早期的階段,且并沒有對企業或者產業的發展產生實質性的影響。但在有限的賽道資源內,一窩蜂涌入如此多的參與者,勢必會對產品如何打出差異化提出更高的要求。
再加上曾經聲名大噪的ChatGPT傳出熱度漸熱,用戶瀏覽量減弱的同時,國內大模型產品在眾多特性驅動的表面背后,如何找到核心優勢抓住用戶十分關鍵。因此,大模型同質化是眾多大模型參與玩家無法繞開的一道命題。