智東西(公眾號:zhidxcom)
作者|程茜
編輯|心緣
智東西2月26日報道,昨夜,阿里云視覺生成基座模型萬相2.1(Wan)宣布開源!
萬相2.1共有兩個參數規模,140億參數模(mo)型(xing)適用于對生成效果要求更高的專業人士,13億參(can)數(shu)模型生成速度較快且(qie)能兼容(rong)所(suo)有消(xiao)費(fei)級GPU,兩(liang)個模型的全(quan)部推理代碼和權重已(yi)全(quan)部開源。



強大的視頻VAE:Wan-VAE提供卓越的效率和性能,可(ke)對任(ren)意長度的1080P視頻進行(xing)編碼(ma)和解碼(ma),同時保(bao)留時間信息(xi)。
萬相系列模(mo)(mo)型的(de)研發團隊基于運(yun)動質(zhi)量(liang)、視(shi)覺質(zhi)量(liang)、風格和(he)多目標等14個主要維(wei)度(du)和(he)26個子維(wei)度(du)進行(xing)了模(mo)(mo)型性能評估,該模(mo)(mo)型實(shi)現(xian)5項(xiang)第(di)一,萬相系列模(mo)(mo)型能夠穩定(ding)展現(xian)各(ge)種復雜的(de)人(ren)物(wu)肢體(ti)運(yun)動,如旋轉、跳躍、轉身、翻(fan)滾等;還能還原碰撞、反彈、切割等復雜真(zhen)實(shi)物(wu)理(li)場景。
官(guan)方Demo中“熊貓(mao)用滑板炫(xuan)技”的視頻,展示了一只熊貓(mao)連續完成多個高難度動作:

阿里(li)云通(tong)義實驗室的研(yan)究人員昨(zuo)夜23點直播介紹了萬相(xiang)2.1的模型及技術細(xi)節。

此(ci)外,阿里通義官方文(wen)章還提到(dao),萬相2.1的開(kai)源(yuan),標志著阿里云實現了全模態、全尺寸的開(kai)源(yuan)。
目前,萬相2.1支持訪(fang)問通義官網(wang)在線體驗或者在Github、HuggingFace、魔搭社區下載進行本(ben)地(di)部署體驗。
通義官網(wang)體驗地址(zhi)://tongyi.aliyun.com/wanxiang/
Github: //github.com/Wan-Video/Wan2.1
一、生成能力全方位開掛,文字、特效、復雜運動都在行
在生成能力方面,萬相2.1可以還原復雜運動表現、遵循物理規律、影院級別畫質、具備文字生成和視覺特效制作能力。
萬相2.1支持生成走路(lu)、吃飯等(deng)基本(ben)的(de)(de)日常運動,還能還原復雜的(de)(de)旋(xuan)轉(zhuan)、跳躍(yue)、轉(zhuan)身跳舞(wu)以及擊劍、體(ti)操等(deng)體(ti)育運動類的(de)(de)動作。

此外,其能在遵循物理世界規律的前提下,還原重力、碰撞、反彈、切割等物理場景,并生成萬物生長(chang)等有創意的視頻(pin)。

在(zai)畫質方面,萬(wan)相2.1生成的視頻達(da)到影院級別畫質,同(tong)時理解多(duo)語言、長文本(ben)指令(ling),呈現(xian)角色(se)的互(hu)動。

同時,萬相(xiang)2.1是首(shou)次在開源模(mo)型中支(zhi)持中英(ying)(ying)文(wen)文(wen)字渲染,中英(ying)(ying)文(wen)藝術字生成。

阿(a)里(li)云(yun)還(huan)公開(kai)了多個萬相(xiang)2.1生成視(shi)頻的Demo。
以紅色新年宣紙為背景,出現一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進行,水墨在紙上呈現“福”字,墨色從深到淺過渡,呈現出獨特的東方韻味。背景高級簡潔,雜志攝影感。

不過(guo),紙上福字左(zuo)上角的一(yi)點并沒有書寫過(guo)程,而是突然在視(shi)頻(pin)后期出現。
紀實攝影風格,低空追蹤視角,一輛寶馬M3在蜿蜒的山路上疾馳,車輪揚起滾滾塵土云。高速攝像機定格每個驚險過彎瞬間,展現車輛極致的操控性能。背景是連綿起伏的山脈和藍天。畫面充滿動感,輪胎與地面摩擦產生的煙霧四散。中景,運動模糊效果,強調速度感。

可以看到(dao),視(shi)頻鏡頭(tou)隨著汽車(che)的漂移加速,捕(bu)捉(zhuo)到(dao)了(le)每(mei)一個畫面,并且在漂移時路邊還有(you)與(yu)地面摩(mo)擦飛揚(yang)的塵(chen)土。
微觀攝影,珊瑚管蟲和霓虹刺鰭魚在五彩斑斕的海底世界中游弋。珊瑚管蟲色彩鮮艷,觸手輕輕搖曳,仿佛在水中舞蹈;霓虹刺鰭魚身體閃耀著熒光,快速穿梭于珊瑚之間。畫面充滿奇幻視覺效果,真實自然,4k高清畫質,展現海底世界的奇妙與美麗。近景特寫,水下環境細節豐富。

整個(ge)畫面色彩鮮艷,對提示詞中的細節基本都表現到了(le)。
中國古典風格的動畫角色,一個身穿淡紫色漢服的女孩站在櫻花樹下。她有著大大的眼睛和精致的五官,頭發上裝飾著粉色的花朵。女孩表情溫柔,眼神中帶著一絲憂郁,仿佛在思考什么。背景是朦朧的古建筑輪廓,花瓣在空中輕輕飄落,營造出一種寧靜而夢幻的氛圍。近景特寫鏡頭,強調女孩的面部表情和細膩的光影效果。

視頻對“眼神中帶著一絲憂(you)郁,仿佛(fo)在思考什(shen)么(me)”這(zhe)類復(fu)雜(za)的指令,也在女孩(hai)的眼神中得到了呈現。
二、優于其他開閉源模型,可兼容消費級顯卡
為了評估萬相2.1的(de)性能,研(yan)發(fa)人(ren)員基于1035個(ge)內(nei)部(bu)提示(shi)集(ji),在14個(ge)主要維度(du)和(he)26個(ge)子維度(du)上進行(xing)了測試,然(ran)后(hou)通過對(dui)每個(ge)維度(du)的(de)得分進行(xing)加(jia)權計算來計算總分,其中(zhong)(zhong)利用了匹配(pei)過程中(zhong)(zhong)人(ren)類偏好得出的(de)權重。詳細結果如(ru)下表(biao)所示(shi):

研發(fa)人員還對文生視(shi)頻(pin)、圖生視(shi)頻(pin)以及模(mo)型(xing)在不同GPU上的計算(suan)效率進行了評估(gu)。
文生視頻(pin)的評估(gu)結果(guo):

圖生(sheng)視(shi)頻的(de)評估結果:

其(qi)結果顯(xian)示,萬相2.1均優于其(qi)他開(kai)源(yuan)、閉源(yuan)模型。
不同GPU上的計算效率:

可以看到(dao),13億參數模型可兼容消費級顯卡,并實現較快的生成速度。
三、模型性能提升大殺器:3D VAE、可擴展預訓練策略、大規模數據鏈路構建……
基(ji)于(yu)主(zhu)流的DiT和線性噪聲軌跡(ji)Flow Matching范式,萬相2.1基(ji)于(yu)自研(yan)因果3D VAE、可擴展的預訓(xun)練策略、大規模數據鏈(lian)路構建以(yi)及自動化評(ping)估指標提(ti)升了模型最(zui)終性能表(biao)現(xian)。
VAE是(shi)視(shi)頻(pin)生成領(ling)域廣(guang)泛使用(yong)的模塊,可以使得視(shi)頻(pin)模型在接(jie)近無損情況下有效(xiao)降低資源占用(yong)。
在(zai)算法設計(ji)上,萬相基于主(zhu)流(liu)DiT架構和(he)(he)線性噪(zao)聲(sheng)軌(gui)跡(ji)Flow Matching范式,研發了(le)高效(xiao)的因(yin)果3D VAE、可擴展(zhan)的預(yu)訓練策略等。以3D VAE為例,為了(le)高效(xiao)支(zhi)持任(ren)意長(chang)度視頻(pin)的編碼(ma)和(he)(he)解(jie)碼(ma),萬相在(zai)3D VAE的因(yin)果卷積(ji)模塊(kuai)中實現(xian)(xian)了(le)特征緩(huan)存機制,從而代替(ti)直接對長(chang)視頻(pin)端(duan)到端(duan)的編解(jie)碼(ma)過程,實現(xian)(xian)了(le)無限長(chang)1080P視頻(pin)的高效(xiao)編解(jie)碼(ma)。
此外,通過將空間降采樣(yang)壓縮(suo)提前(qian),在不(bu)損失性能的(de)(de)情況下進一步減少了29%的(de)(de)推(tui)理時內存占(zhan)用。
?
萬(wan)相2.1模(mo)型架構基于主流的視頻DiT結構,通過(guo)Full Attention機制確保(bao)長時程時空(kong)依(yi)賴的有效建模(mo),實現時空(kong)一致的視頻生(sheng)成(cheng)。
采樣策略上,模(mo)(mo)型的(de)(de)整體訓練則(ze)采用了線性噪聲軌跡的(de)(de)流匹配(Flow Matching)方法。如模(mo)(mo)型架構圖(tu)所示,模(mo)(mo)型首先使用多語言umT5編碼(ma)器對(dui)輸入(ru)文(wen)本進行(xing)語義(yi)編碼(ma),并通過逐層(ceng)的(de)(de)交(jiao)叉注(zhu)意力層(ceng),將(jiang)文(wen)本特(te)征向量注(zhu)入(ru)到(dao)每個Transformer Block的(de)(de)特(te)征空間,實(shi)現細粒度的(de)(de)語義(yi)對(dui)齊。
此外(wai),研發人員通過一組在(zai)所有Transformer Block中(zhong)共享參(can)數(shu)的MLP,將輸(shu)入的時間步特征(zheng)T映(ying)射為模(mo)型(xing)中(zhong)AdaLN層的可學習縮(suo)放(fang)與偏置(zhi)參(can)數(shu)。在(zai)相同參(can)數(shu)規模(mo)下,這種共享時間步特征(zheng)映(ying)射層參(can)數(shu)的方法在(zai)保持模(mo)型(xing)能力同時可以顯著降低參(can)數(shu)和(he)計(ji)算量。

數(shu)據(ju)(ju)(ju)方面(mian),研(yan)究人(ren)員整理(li)(li)(li)并去重(zhong)(zhong)了一個包含大量(liang)圖(tu)像和視(shi)頻數(shu)據(ju)(ju)(ju)的(de)候選數(shu)據(ju)(ju)(ju)集(ji)。在數(shu)據(ju)(ju)(ju)整理(li)(li)(li)過程(cheng)中,其設計了四步(bu)數(shu)據(ju)(ju)(ju)清理(li)(li)(li)流程(cheng),重(zhong)(zhong)點關注基本維度、視(shi)覺質(zhi)量(liang)和運動質(zhi)量(liang)。通過強大的(de)數(shu)據(ju)(ju)(ju)處理(li)(li)(li)流程(cheng)快速獲得高質(zhi)量(liang)、多(duo)樣化、大規模(mo)的(de)圖(tu)像和視(shi)頻訓練集(ji)。

訓練(lian)階段,對于(yu)文本、視頻編碼模(mo)塊,研究(jiu)人員使用(yong)DP和FSDP組合的分(fen)布式策(ce)略;對于(yu)DiT模(mo)塊采(cai)用(yong)DP、FSDP、RingAttention、Ulysses混合的并行策(ce)略。
基于萬相2.1模(mo)型參(can)數(shu)量(liang)較小和長序列帶來(lai)的計(ji)算量(liang)較大的特征,結合(he)集(ji)群計(ji)算性能和通(tong)信(xin)帶寬采用(yong)FSDP切分模(mo)型,并在FSDP外嵌套DP提(ti)升多機拓(tuo)展(zhan)性,FSDP和DP的通(tong)信(xin)均能夠完全(quan)被計(ji)算掩(yan)蓋(gai)。
為了切分(fen)長序列訓練下的Activation,DiT部分(fen)使用(yong)了Context Parallelism (CP) 對序列維度進行切分(fen),并使用(yong)外層RingAttention、內層Ulysses的2D CP的方案減少CP通信(xin)開銷。
此外,為(wei)了提(ti)升(sheng)端(duan)到端(duan)整體(ti)效率,在文本(ben)、視(shi)(shi)頻(pin)編碼和DiT模塊(kuai)(kuai)間進行高效策略切換避免計算冗余。具(ju)體(ti)來(lai)說,文本(ben)、視(shi)(shi)頻(pin)編碼模塊(kuai)(kuai)每個設備讀不同(tong)(tong)數(shu)據,在進入DiT之前,通過(guo)循環廣播方(fang)式(shi)將不同(tong)(tong)設備上的數(shu)據同(tong)(tong)步,保(bao)證CP組(zu)里中數(shu)據一(yi)樣。
在(zai)推理(li)階段,為了(le)使用多(duo)卡減(jian)少生成(cheng)單個(ge)視頻(pin)的延遲,選擇(ze)CP來進行(xing)分布(bu)式加速。此外,當模型較大時(shi),還需要進行(xing)模型切分。
一方面,模型切分(fen)策(ce)略時(shi),單(dan)卡顯存(cun)不足時(shi)必須考慮模型切分(fen)。鑒于(yu)序列長(chang)度通常(chang)較長(chang),與(yu)張量并(bing)行(xing)(xing)(TP)相比(bi),FSDP的(de)(de)通信開(kai)銷更小(xiao),并(bing)且(qie)可以被計(ji)算掩蓋。因(yin)此(ci),研究人(ren)員選擇FSDP方法進行(xing)(xing)模型切分(fen)(注意:這里僅做切分(fen)權重,而不做數據并(bing)行(xing)(xing));另一方面采用(yong)序列并(bing)行(xing)(xing)策(ce)略:采用(yong)與(yu)訓練階段相同的(de)(de)2D CP方法:外(wai)層(跨機器)使(shi)用(yong)RingAttention,內(nei)層(機器內(nei))使(shi)用(yong)Ulysses。
在(zai)萬相2.1 140億(yi)參數模型上,使(shi)用(yong)FSDP和2D CP的組(zu)合方法,在(zai)多卡(ka)上具(ju)有(you)如(ru)下圖所示的近(jin)線性加速:

顯存優化(hua)方面,研究人員采用分層的(de)顯存優化(hua)策(ce)略,選擇一(yi)些層進行Offload,其他(ta)層根(gen)據不同算子(zi)計算量和顯存占(zhan)用的(de)分析使用細(xi)粒度Gradient Checkpointing(GC)進一(yi)步優化(hua)Activation顯存。最(zui)后利用PyTorch顯存管理機(ji)制,解決顯存碎片問題。
在訓練穩定性方面,萬相2.1借助于(yu)阿里云訓練集群的智(zhi)能化調(diao)度、慢(man)機檢測以及自(zi)愈能力,在訓練過程(cheng)中可以自(zi)動識別(bie)故障節點并快(kuai)速重(zhong)啟(qi)任(ren)務,平均重(zhong)啟(qi)時間為39秒,重(zhong)啟(qi)成功率超過98.23%。
結語:開啟全模態開源新時代
2023年(nian)8月,阿里(li)云率先開源Qwen模(mo)型(xing),正(zheng)式拉開了開源大模(mo)型(xing)的序幕(mu)。隨(sui)后(hou),Qwen1.5、Qwen2、Qwen2.5等四(si)代模(mo)型(xing)相(xiang)繼開源,覆蓋了從(cong)0.5B到110B的全(quan)尺寸(cun)范圍(wei),涵蓋大語言(yan)、多模(mo)態等領域(yu)。目前其(qi)千問(Qwen)衍生模(mo)型(xing)數量(liang)已(yi)超過10萬(wan)個。其(qi)官方文章顯示,隨(sui)著萬(wan)相(xiang)的開源,阿里(li)云實現了全(quan)模(mo)態、全(quan)尺寸(cun)的開源。
從(cong)大語言模型到視覺(jue)生(sheng)(sheng)成模型,從(cong)基礎模型到多樣化的(de)衍生(sheng)(sheng)模型,開(kai)源生(sheng)(sheng)態的(de)發(fa)展(zhan)正不斷(duan)被注入(ru)強大的(de)動力。