智東西(公眾號:zhidxcom)
編輯?| ?GTIC
智東西4月10日報道,在剛剛落幕的GTIC 2023中國AIGC創新峰會上,中國科學院自動化研究所研究員&博士生導師、武漢人工智能研究院副院長張家俊進行了主題為《紫東太初大模型——認識世界,理解世界》,基于“紫東太初”大模型,他解讀了其是如何整合資源、并進一步探索通用人工智能產業化路徑的技術奧秘。
張家俊談道,深度學習預訓練大模型效果不斷提升。當下,通過自監督學習條件下“大數據+大模型”方式,多模態大模型初現“多專多能”,在小樣本學習、自然語言問答、跨模態生成等方面快速進步。大模型帶動了創新潮,但其能耗和成本極高,認知能力與人相比仍有很大差距。
“紫東太初”是中科院自動化所團隊推出的全球首個千億參數多模態大模型。張家俊稱,這一模型支持Token級別、模態級別與樣本級別的多任務自監督學習,多模態弱關聯數據在512卡訓練128天,同時實現模態理解與模態生成統一建模。“紫東太初”支持以文搜圖、以圖生音、以音生圖等跨模態檢索與生成實例,比如輸入一個真實圖像,紫東太初就能生成個性化的3D形象。
目前,團隊已推出了紫東太初開放服務平臺1.0、紫東太初·洛神1.0 AIGC智能生成平臺,并整合產學研用各方資源搭建人工智能開源開放生態,探索通用人工智能產業化路徑。
以下為張家俊的演講實錄:
大家上午好!我是自動化所張家俊。
首先解釋一下,我個人從事的是自然語言處理和機器翻譯相關的研究。大模型來了之后,實際上從2020年GPT-3出來之后,我就參與了自動化所發起的多模態大模型項目,我主要負責語言這一塊。今天我作為一個參與者,跟大家分享一下自動化所大模型相關的情況。
一、大模型正在從單模態有監督,邁向多模態自監督學習
大模型出現之前,基本上模型的能力都是單一的,而且需要依賴于大量的標注數據,而且泛化能力非常差。
大模型來了之后,基于其大的數據、大的模型,很多種比如自然語言處理、語音識別、計算機視覺等任務得到了非常大的改善。我們現在也會發現,模型參數量也在不斷提升。我們不知道GPT-4是多少參數量,但肯定是千億以上,不會比ChatGPT還少。
不管是圖像還是文本,單一模態大模型采用的是非常好、非常自然的訓練目標,也就是自監督訓練,圖像我們可以通過重構方式,文本可以通過下一個單詞預測的方式。而現實世界是一個多模態環境,在多模態環境當中又該如何去進行訓練或者設計它的目標?另一方面,多模態環境下如何從之前的“一專一能”方式過渡到“多專多能”的模型或者框架,現在實際上很多認知能力與我們期待的還很遙遠。
正如剛才提到的,一方面從文本到多模態實際有很多挑戰,但是我們生活在這樣一個多模態的環境當中,所以我們有必要去進行探索。

因此,當2020年GPT-3發布之后,我們就認為多模態必將是一個未來的方向,我們現在也看到GPT-4已經可以處理圖文輸入和理解輸入。
二、具備部分類腦特性,初現“多專多能”
我們當時在做的時候,就一直在考慮應該如何設計,將不同模態放在一個模型下面進行學習。我們提出了三個層級的多模態訓練方式,比如從詞源token級別、模態級別與樣本級別,我們也提出了語義弱關聯多模態學習方式,這樣就可以進行多模態理解和跨模態相互生成,進而完成各種各樣跨模態的任務,多模態的理解、分類,跨模態的檢索,多模態之間的相互轉換生成。
這些是可以完成的功能,那么具體來說,我們如何去實現的?
右下角可以看到,它不是像GPT這種的單一解碼器(Decorder),我們發現如果你的數據特別多、模型特別大的時候,像GPT-3.5或者GPT-4可以對文本數據和圖像數據進行統一融合。

但是當模型沒有那么大,我們可能考慮模態之間融合時就需要設計不同的策略。
所以當時我們提出了對不同的模態進行分別編碼,同時在上一層設計一個跨模態編碼。其余各自的模態比如文本模態、圖像模態、語言模態分別有一個解碼器。
這樣的模式看起來像是一個集成模型,但是它有一個非常好的地方是你可以通過不同的模態進行分別優化,且不影響其他模態的功能。我們針對此做了一些優化,語言方面,我們可以直接優化語言底部的解碼器,不影響文本和圖像的分辨結果。
多模態的通用模型針對任何任務的處理方式都相同,但實際上不同的任務應該有針對性地去處理。因此我們提出了任務感知的訓練方式。如果大家用過ChatGPT就會發現,不同的提示會產生不同的結果。那么,我們能不能針對不同的樣本生成合適這個樣本的提示?所以我們生成一個樣本級的提示學習方式,可以面向特定樣本生成適應這個樣本的提示。
在語音層面,我們可以只優化語音,例如將語種識別、端點檢測各種語音相關的功能融合在一個任務下,同時語音的優化又不影響文本、圖像,優化之后可以得到語音方面非常好的結果。
在視覺方面也是一樣。例如針對視覺如何進行無監督學習,我們提出了視覺掩碼自監督模型,一方面是通過注意力動態掩碼保留關鍵區域,第二步通過解碼恢復掩碼,和語言里面的BERT非常相似。

經過這樣簡單的操作之后,我們就可以在很多任務上得到最好的性能,比如在目標檢測和實例分割上,就可以超越任務特定的預訓練模型精度。
在不同的模態仿真訓練中,當模型特別大時,有模態信息,還有大量參數,如何保證它快速、穩定地學習是非常關鍵的因素。因此,我們在這種學習過程中提出了一些方案,例如基于空間通道稀疏化的多模態大模型,這種方案可以將空間信息和通道信息分割開來,就可以得到優化20%到35%的浮點運算。
此外,在穩定性方面,我們在訓練時發現當批處理變得特別大之后,學習率的線性尺度原則就會失效。針對這個問題,我們提出了周期性矩衰減優化的方案。學習率通過逐層動態調整,周期性清零梯度信息,擺脫歷史梯度影響,從而加速網絡快速收斂。收斂的速度相比之前能提升30倍。
這樣的方法一方面可以保證訓練的快速,另一方面保證訓練的穩定性。
很多時候,當我們在國產化的平臺上訓練,比如基于昇騰多維混合并行的訓練,很多時候我們會和昇思MindSpore共同研發,因為2021年,MindSpore的很多功能沒有十分完善,在其對大模型的較好支持下,我們在訓練時可以在這個基礎上去不斷優化算子。
同時,大模型在預訓練階段學習到了很多先驗的知識,這些先驗的知識對于長尾現象有很多輔助作用,比如可以將其遷移到長尾數據集,可以更容易學習尾部的圖像類別特征表述。
經過文本、語音、視覺上的針對性優化之后,我們很多千億三模態大模型在跨模態檢索、視覺問答、圖像語義描述等上實現非常好的性能,這些任務在2021年基本達到了State-of-the-art(最高水準的)。
例如在2021年,基于預訓練模型的視覺描述競賽中,紫東太初大模型得到第一名,并且在大規模視頻場景理解比賽中也獲得第一名。
下圖是一些案例,我們訓練多模態大模型之后會產生一個什么樣的結果。

剛才我們提到不僅有文本、圖像,我們知道目前大多數呈現出來的是文生圖或圖片、文本之間的模型,那么我們把語音加進去,可以直接讓沒有聲音的圖片和視頻生成語音播報。例如,一個沒有聲音的圖像或者視頻可以直接生成一鍵語音播報。這看起來似乎是直接從圖像到文本再到語音,實際上我們跳過了文本環節,直接由圖像或者視頻生成語音,也可以由語音生成圖像,或者由語音生成視頻。
以文生圖為例,很多模型都有這樣的能力,這里簡單展示一下我們也有這樣的能力,可以生成風格多變的文生圖能力。
我們從2020年10月開始做這件事情,2021年7月發布了第一版多模態大模型。2022年,“紫東太初”獲得大規模預訓練模型優秀應用案例獎,中國算力大會先鋒案例獎,以及世界人工智能大會SAIL獎,也是世界人工智能大會的最高獎。
三、打造開放服務平臺1.0,一鍵完成采集、訓練、部署
剛才介紹了多模態大模型的研制過程和各個模態針對性的優化,以及優化之后能達到的水平。當達到這個水平之后,我們希望基于此開發一套服務平臺,讓這樣的模型能夠服務于千家萬戶,讓多模態模型的利用和部署變得非常簡便。
因此,我們依托紫東太初大模型,開發了紫東太初服務平臺,現在是1.0階段。我們希望這個服務平臺能夠一鍵完成數據采集、模型訓練到模型的部署。這樣的話,可以大幅節省人力,從幾個月的訓練時間縮短到幾天、一周的訓練時間。

有了智能化的標注平臺,用戶不僅可以在上面進行標注,而且可以根據模型來不斷迭代。有了模型之后,我們可以根據訓練模型來發現還需要標注哪些樣本,通過這樣的主動學習,可以加快數據的標注過程。
為了實現一鍵微調,開發者可以選擇各種各樣的開發工具,可以選擇主流的開發平臺,也可以選擇異構資源的統籌,我們可以統籌如昇騰、GPU等各種異構算力,同時可以支持分布式訓練,并且訓練過程還可以可視化。我們支持可視化建模、交互式建模、自動學習、自定義任務等的可視化。
對于一鍵部署,這個平臺可以覆蓋數據的搜集、模型的訓練再到模型的部署。實際上就是說,我們可以先導入訓練任務,然后再把本地的數據或者相關的信息進行導入,最后選擇相關的模型再進行微調,就能得到最終適應用戶目標或者任務的應用部署。

并且這一服務平臺里有很多語音、文本、圖像、視頻的算法庫,不需要用戶進行訓練,可以直接拿來集成使用。
在這個平臺上,我們最近開發了洛神1.0圖文生成平臺。洛神1.0可以替代傳統的數字生成技術,實現數字人的快速批量生成。它可以完成自動驅動和用戶之間互動,能夠幫助用戶完成數字人的自動化生成。
下面是一個例子,比如它可以進行個性化虛擬人生成。開發者選擇一個形象之后,就可以通過語音方式驅動生成視頻。而且可以按照自己的需求自定義,選擇一個形象之后,你可以將其變成三維形象,再選擇其它的形象進行融合,將文本或者需要生成的內容輸入進去之后就會按照你的需求進行相應的生成。現在數字人進行簡單的播報越來越真實化。

在算法研究、模型開發和平臺研制基礎上,我們在推動多模態產業聯盟的成立,目前在紫東太初框架下面有41家成員,我們希望整合產學研用各方資源,來打造多模態人工智能行業應用,希望探索通用人工智能產業化的道路。
四、已應用于醫療、文旅、公益等,打造差異化AGI道路
我們為模型打造了開發開放平臺,同時我們已經用這樣的模型在各種各樣的下游任務當中得到了非常好的應用,比如在智慧醫療、社會公益、智慧文旅等方面已經有了各種各樣的應用。
這里面因為時間關系就不一一介紹,我介紹其中的一個應用,就是手語教考一體機。
這是一個非常有意思的應用,例如《新聞聯播》、《新聞30分》節目的右下角都會有手語形象,但很多時候聾啞群體或者聽障群體會有歧義,沒辦法知道手勢代表什么意思,那如果我們給出手勢的同時給出多模態的圖像視頻展示,這樣立馬就能夠讓聽障人士感知到并快速發現他應該在說什么,在表達什么樣的含義。這樣多模態的應用是非常有意思,也是非常好的方面。

還有在智慧交通、智能制造方面的應用,我們打造了一個文旅多模態場景“南宋御街”,用戶可以通過VR方式和各種各樣的歷史環境、歷史人物進行交互。
我們也會把它應用到媒體,特別是多媒體內容的安全審查上面。
這兩年來我們的模型也得到央視新聞、人民網等媒體的一系列報道,我們也還在不斷努力。可以看到GPT正在不斷地突破人們的想象,從GPT-4到周老師剛剛介紹的GPT和各種各樣插件的融合。
我們在不斷追趕,不斷打造差異化的通向通用人工智能的道路,目前而言,可能我們的模型不是特別大,不像GPT-4那么通用,但我認為我們應該追求一個開放的環境,我們希望在各種各樣的產業當中得到更好的應用,希望和大家一起推動通用人工智能的發展。
謝謝大家!
以上是張家俊演講內容的完整整理。