智東西(公眾號:zhidxcom)
編輯?|?GTIC
智東西4月14日報道,在剛剛落幕的GTIC 2023中國AIGC創新峰會上,微軟全渠道事業部首席技術官徐明強進行了主題為《探索AIGC趨勢及微軟Azure OpenAI在企業的應用》的演講。
大語言模型參數正在呈現指數型增長趨勢。但徐明強稱,大語言模型未來仍然會快速增長,因為高質量語料目前僅使用了1/10,剩下的9/10還有待開發。而且現在對大語言模型的質疑會在短短1-2年內就被新的質疑所替代。
這一切的背后都離不開強大算力的支撐,這也決定了所能訓練模型的大小、參數。因此,微軟Azure與OpenAI合作構建了專為大規模AI訓練而設計的AI超級計算機,該計算機擁有28.5萬個CPU、10000塊GPU。
徐明強把大語言模型比作一塊海綿,維基百科、醫學或科學論文就是它充分吸收的水,其能力的涌現就需要不斷吸收更多的水分。
他最后將演講落腳點歸結到企業應用中,在CPU時代,企業應用時思考的問題是如何把商業問題轉變為計算問題,也就是通過編譯器將應用轉為計算問題,如今則轉變為如何把各行各業的問題轉化為內容處理問題。微軟帶來的企業級ChatGPT(Enterprise ChatGPT)解決了ChatGPT無法解決的第二步問題:它能把企業內部的數字資產做好索引、做好搜索。
目前,微軟企業級ChatGPT的應用場景包括客戶服務、銷售市場、內容生成、知識管理、輔助決策等。
以下為徐明強的演講實錄:
大家好!
我是微軟全渠道事業部首席技術官徐明強。其實我要講的內容剛剛周明老師已經覆蓋了一部分,我主要想在這里分享一些例子。
一、AI模型呈指數級增長,還有9/10高質量語料有待開發
首先,我們今天為什么會聚在這里?一是探討不斷呈指數級增長的語言模型參數,二是分享關于GPT-4的各種參數的猜想。
單從人類的角度來看,這個模型指數曲線實際上還要更加陡峭。
在2015年1月份,AlphaGo打敗了歐洲圍棋冠軍樊麾,但李世石說它只訓練過六個月肯定打不過自己,后來的結果我們也都知道了。比爾·蓋茨前段時間也對OpenAI說,你們做的東西很好,希望你們能用ChatGPT來通過一個中學的AP(美國大學預修課程,Advanced Placement))考試,蓋茨心想,這應該夠他們忙個兩三年了吧,結果幾個月之后就達到了。我們對大語言模型的質疑最多也就堅持一到兩年,這個質疑就會被新的質疑所取代。
我們有理由相信未來大語言模型還會以指數級增長,因為目前高質量的語料僅使用了1/10,還剩9/10沒被使用,新的挑戰就是如何找到這剩下的9/10。
當然,這一切都需要背后強大的算力來進行支撐,微軟為OpenAI所提供的高度分布式框架AI Supercomputer(超級計算機),是世界第五大超級計算機,擁有28.5萬個CPU和1萬個GPU,這代表著我們所能訓練的模型大小、參數,更重要的是所能訓練出的模型的參數。
GPT-3可以達到Fine-tuning(微調)的精度,在60多萬份問答答卷中達到70%的分數,可以達到“開卷考試”這個說法了。
為什么大語言模型會如此強悍呢?

其實有一點是我們人類不太清楚的,我們是怎么在教我們的孩子語言的?是不是把語言掰開了、揉碎了一點點教給他,把一些詞法分析、語法分析教給他,結果發現效果并不好。
但大模型是怎么做的呢?大語言模型就是一塊海綿,把標注好的語料像水一樣充分吸收。如果不知道十萬個為什么的話,就把維基百科輸入進去;不了解醫學的話,就把醫學論文塞進去,然后在一個個decode layer(譯碼層)中讓能力涌現出來。那什么時候可以涌現呢?就像量子的位置和速度測不準一樣,目前這些能力什么時候會涌現還無法測準。
訓練其實是比較容易的事情,但讓大語言模型學會說話比較難。首先需要它學會聽話,叫它做什么,它在理解之后就能做什么。我在和一位網絡運營商總裁聊天時他說,以后他都不再需要助手了,他讓ChatGPT寫的東西完全不會誤解他的意思,而且寫出來的結果非常好,它就是一個InstuctGPT。
ChatGPT曾經有40位老師,現在的GPT-4已經有1000多位老師了,我們只用授之以漁,告訴它哪一個答案好,它就能輸入滿意的答案,之前那種一本正經的胡說八道的情況已經減少很多了。之前,GPT-3在我的簡歷中幫我編造了我很多沒有做過的內容,但GPT-4現在已經做得非常真實,完全沒有胡說。
二、OpenAI大模型落地企業,NLP項目邊際成本趨零
那大模型該怎樣在企業中落地呢?
在過去我們處于一個CPU的時代,當CPU剛出來時,大家發現這是一個非常強大的生產力工具,所以大家都在思考如何把商業問題轉變為計算問題,如何通過編譯器把應用轉變為計算問題,把數據庫、各行各業生產的、金融的問題轉變為計算問題。

同樣,我們今天出現的就是一個新的“CPU”,可以把它叫做Chat ProcessUnit或是Content ProcessUnit。今天我們需要考慮的問題,就是如何把各行各業的問題變成Chat的問題,變成一個內容處理的問題。
在過去,NLP是一個非常耗資的工程。為了搜集一個緊張期待癥的數據集,需要全球60萬的人力來幫助進行數據搜集,這就是一個血汗工廠。而需要大量數據科學家投入精力的工作就像是個“冷汗工廠”,需要不斷去調參數、選擇模型,這是個最risky(充滿風險的)的工作。數據科學家的工作如果到了時間沒有完成的話,是會讓人冒冷汗的,這就意味著一般的企業無法支付得起。
如今的ChatGPT是怎么解決緊張期待癥的數據搜集的呢?你只需要跟它說,嗨ChatGPT,告訴你兩個例子:第一個緊張期待癥的例子是“當彩票號碼被宣讀出來時,我的手掌開始出汗”,另一個反例是“我無法消除自己的一件事情的緊張不安感”。
告訴它這兩個例子之后,就可以開始考試了,向它描述自己的癥狀:昨天,我把我的手機丟在專車上了。我打給滴滴,結果他們說聯系不上司機。過了一個小時之后,我再次打電話,他們說司機沒有看到,我心里郁悶,老婆也一直怪我。直到今天,我的心口想起來就會痛,我是否有緊張期待癥呢?
ChatGPT的回答中說:“根據您提供的情況,您似乎沒有緊張期待癥,您貌似是因為手機丟失而產生的擔憂和焦慮情緒,以及事后的不安感,這是一種正常的情緒反應。”大家看,它完全理解了這一段話。
我分享這個例子是為什么呢?過去流的那些“血汗”和“冷汗”,如今的企業都不用再流了,過去微軟用十億甚至百億訓練出來的大模型,在座的各位以及世界上每個企業和每個人都將用趨零的邊際成本來使用,只要去prompt它就行了。
還有就是寫代碼,我強烈建議大家用ChatGPT來寫代碼,寫代碼只是冰山一角,它真正的生產力在于修代碼、修Bug。我晚上修代碼時我妻子會跟我說,1點鐘了,早點休息吧,我總是說5分鐘就行。但碼農們都會知道,5分鐘之后又會有新的問題出來,5分鐘又5分鐘,一看時間已經早上五點了。但是我把代碼錯誤告訴給ChatGPT的話,它就會說這個代碼有問題,改完后十有八九是正確的,這樣的生產力絕對是革命性的。
三、微軟與OpenAI加強戰略合作,打造五種企業級應用場景
接下來我說一下它的挑戰以及如何應對。
挑戰主要在兩個方面:一是幻覺,二是知識局限。幻覺主要是那些不正確、不相關,以及一些毫無意義的信息、虛假事實,或是它創造了不存在的事件或實體。幻覺產生主要是因為預訓練時的答案都是校對好的,但在加強式學習的環境下,打亂了原來的訓練模型。在解決方法上“解鈴還需系鈴人”,加強式學習產生的問題就要用加強式學習來解決。在GPT-4中,發現ChatGPT胡說時就會給它打差評,它就知道回答有問題了。久而久之,這樣的問題就會越來越少,最終會得到解決。
我發現ChatGPT持續指數性的增長對我的挑戰就是,我的PPT變得過時了。
下面我將給大家匯報一下微軟將給企業帶來的企業級ChatGPT地圖(Enterprise ChatGPT Roadmap)。3月,微軟發布企業ChatGPT參考架構,各企業IT部門的架構師們可以開始研究如何與IT系統集成,有哪些API可以開始熟悉起來,什么樣的系統更適合變成企業ChatGPT。這樣的好處在于,在云里面企業用戶的訂閱是一個單獨的ChatGPT實例,里面存放的是各位的私域數據,所有的安全、隱私、防護都有一流的審核來作保障。
具體的應用場景包括客戶服務(Chat your Customs)、銷售市場(Chat your Web)、內容生成(Chat your Products)、知識管理(Chat your Docs)、輔助決策(Chat your Data)等。

我可以給大家舉一個例子,萬科的物業大家知道是向誰負責的嗎?我之前一直以為是向業主負責,但聊完之后才知道,物業是向政府負責的,當業主的埋怨特別多時,政府其實并不開心,政府需要為業主來考慮。過去的問題在于,當業主打電話、或是通過其它渠道來埋怨、吐槽時,關鍵詞的審核準確率只有70%,如果是非常緊急的負面輿情沒有判斷到時,會造成一個很糟糕的局面;但用了ChatGPT之后,當天上漲了5個點,最近兩周已上漲到超過90%,對自然語言的理解給輿情控制帶來了如此大的增長。
在內容生成方面,昨天我和一位律師聊天時發現,律所事情太多,當老板要看一千份合同,并且發現中間的合同和標準條款不一樣時,員工只能說因為根本沒有時間去看這么多份的合同。有了OpenAI的ChatGPT之后,它可以把一千份合同挑出來,隨時看有哪些條款和標準條款不一樣的。內容生成上我們還有很大的想象空間。
最后,AI的注意力雖然都讓OpenAI吸引走了,但真正要做一個Enterprise ChatGPT的系統的話,OpenAI還只是初步,我們還要做好第二步的工作,如何把企業內部的數字資產做好索引、做好搜索。ChatGPT現在是一個非常好的開卷考試生,我們要做的是把問題和學習材料遞到它手上,這個工作是大家要注意的。
謝謝大家!微軟愿和大家一起攜手,使用好OpenAI的技術,讓每個企業都能成就不凡。
以上是徐明強演講內容的完整整理。