智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西7月28日報道,剛剛,阿里開源視頻生成模型通義萬相Wan2.2,包括文生視頻Wan2.2-T2V-A14B、圖生視頻Wan2.2-I2V-A14B和統一視頻生成Wan2.2-IT2V-5B三款模型。

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

其中,文生視頻模型和圖生視頻模型為業界首個使用MoE架構的視頻生成模型,總參數量為27B,激活參數14B,在同參數規模下可節省約50%的計算資源消耗,在復雜運動生成、人物交互、美學表達等維度上取得了顯著提升。5B版本統一視頻生成模型同時支持文生視頻和圖生視頻,可在消費級顯卡部署,是目前24幀每秒、720P像素級的生成速度最快的基礎模型。

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

▲通義萬相Wan2.2生成的視頻

此外,阿里通義萬相團隊首次推出電影級美學控制系統,將光影、構圖、色彩等要素編碼成60多個直觀的參數并裝進生成模型。Wan2.2目前單次可生成5s的高清視頻,可以隨意組合60多個直觀可控的參數。

官方測試顯示,通義萬相Wan2.2在運動質量、畫面質量等多項測試中超越了OpenAI Sora、快手Kling 2.0等領先的閉源商業模型。

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

業界首個使用MoE架構的視頻生成模型有哪些技術創新點?5B版本又是如何實現消費級顯卡可部署的?通過對話通義萬相相關技術負責人,智東西對此進行探討解讀。

目前,開發者可在GitHub、HuggingFace、魔搭社區下載模型和代碼,企業可在阿里云百煉調用模型API,用戶還可在通義萬相官網和通義APP直接體驗。

GitHub地址:
//github.com/Wan-Video/Wan2.2
HuggingFace地址:
//huggingface.co/Wan-AI
魔搭社區地址:
//modelscope.cn/organization/Wan-AI

一、推出首個MoE架構視頻生成模型,5B版本消費級顯卡可跑

根據官方介紹,通義萬相Wan2.2的特色包括光影色彩及構圖達到電影級,擅長生成復雜運動等,首先來看幾個視頻生成案例:

提示詞1:Sidelit, soft light, high contrast, medium shot, centered composition, clean single subject frame, warm tones. A young man stands in a forest, his head gently lifted, with clear eyes. Sunlight filters through leaves, creating a golden halo around his hair. Dressed in a light-colored shirt, a breeze plays with his hair and collar as the light dances across his face with each movement. Background blurred, featuring distant dappled light and soft tree silhouettes.

(側光照明,光線柔和,高對比度,中景鏡頭,居中構圖,畫面簡潔且主體單一,色調溫暖。一名年輕男子佇立在森林中,頭部微微上揚,目光清澈。陽光透過樹葉灑落,在他發間勾勒出一圈金色光暈。他身著淺色襯衫,微風拂動著他的發絲與衣領,每一個細微的動作都讓光影在他臉上流轉跳躍。背景虛化,隱約可見遠處斑駁的光影和樹木柔和的剪影。)

視頻輸出的gif截取:

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

提示詞2:A man on the run, darting through the rain-soaked back alleys of a neon-lit city night, steam rising from the wet pavement. He’s clad in a drenched trench coat, his face etched with panic as he sprints down the alley, constantly looking over his shoulder. A chase sequence shot from behind, immersing the viewer deeply, as if the pursuers are right behind the camera lens.

(一個在逃的男人,在霓虹燈點亮的城市夜色中,沖過被雨水浸透的后巷,潮濕的路面上蒸騰起霧氣。他裹著一件濕透的風衣,臉上刻滿驚慌,順著巷子狂奔,不斷回頭張望。這段追逐戲從后方拍攝,將觀眾深深帶入情境,仿佛追捕者就在鏡頭背后。)

視頻輸出的gif截取:

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

提示詞3:A purely visual and atmospheric video piece focusing on the interplay of light and shadow, with a corn train as the central motif. Imagine a stage bathed in dramatic, warm spotlights, where a corn train, rendered as a stark silhouette, moves slowly across the space. The video explores the dynamic interplay of light and shadow cast by the train, creating abstract patterns, shapes, and illusions that dance across the stage. The soundtrack should be ambient and minimalist, enhancing the atmospheric and abstract nature of the piece.

(這是一部純粹以視覺和氛圍見長的影像作品,核心聚焦光影的交織互動,以玉米列車為中心意象。試想一個舞臺,被富有戲劇張力的暖調聚光燈籠罩,一列玉米列車化作鮮明的剪影,在空間中緩緩穿行。影片探尋列車投下的光影所形成的動態呼應——它們在舞臺上舞動,幻化出抽象的圖案、形態與視覺幻象。配樂應采用氛圍化的極簡風格,以此強化作品的氛圍感與抽象特質。)

視頻輸出的gif截取:

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

背后,生成這些視頻的生成模型有什么技術創新點?這要從視頻生成模型在擴展規模(scale-up)時面臨的挑戰說起,主要原因在于視頻生成需要處理的視頻token長度遠超過文本和圖像,這導致計算資源消耗巨大,難以支撐大規模模型的訓練與部署。

混合專家模型(MoE)架構作為一種廣泛應用于大型語言模型領域的模型擴展方式,通過選擇專門的專家模型處理輸入的不同部分,擴種模型容量卻不增加額外的計算負載。

1、首個MoE架構的視頻生成模型,高噪+低噪專家模型“搭檔”

萬相2.2模型將MoE架構實現到了視頻生成擴散模型(Diffusion Model)中。考慮擴散模型的去噪過程存在階段性差異,高噪聲階段關注生成視頻的整體布局,低噪聲階段則更關注細節的完善,萬相2.2模型根據去噪時間步進行了專家模型劃分。

相比傳統架構,通義萬相Wan2.2 MoE在減少計算負載的同時有哪些關鍵效果提升?業界首個使用MoE架構,團隊主要攻克了哪些難點?

通義萬相團隊相關負責人告訴智東西,團隊并不是將語言模型中的MoE直接套用到視頻模型,而是用適配了視頻生成擴散模型的MoE架構。該架構將整個去噪過程劃分為高噪聲和低噪聲兩個階段:在高噪聲階段,模型的任務是生成視頻大體的輪廓與時空布局;在低噪聲階段,模型主要是用來細化細節紋理和局部。每個階段對應一個不同的專家模型,從而使每個專家專注特定的任務。

“我們的創新點是找到高階噪聲和低噪聲階段的劃分點。不合理的劃分會導致MoE架構的增益效果不足。我們引入了一個簡單而有效的新指標——信噪比來進行指導,根據信噪比范圍對高噪和低噪的時間T進行劃分。通過這種MoE的架構,我們總參數量相比于2.1版本擴大了一倍,但訓練和推理每階段的激活值還是14B,所以整體的計算量和顯存并沒有顯著增加,效果上是有效地提升了運動復雜運動和美學的生存能力。”這位負責人說。

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

▲萬相2.2的28B版本由高噪專家模型和低噪專家模型組成

2、數據擴容提高生成質量,支撐與美學精調

較上一代萬相2.1模型,萬相2.2模型的訓練數據實現了顯著擴充與升級,其中圖像數據增加65.6%,視頻數據增加83.2%。數據擴容提升了模型的泛化能力與創作多樣性,使得模型在復雜場景、美學表達和運動生成方面表現更加出色。

模型還引入了專門的美學精調階段,通過細粒度地訓練,使得視頻生成的美學屬性能夠與用戶給定的Prompt(提示詞)相對應。

萬相2.2模型在訓練過程中融合了電影工業標準的光影塑造、鏡頭構圖法則和色彩心理學體系,將專業電影導演的美學屬性進行了分類,并細致整理成美學提示詞。

因此,萬相2.2模型能夠根據用戶的美學提示詞準確理解并響應用戶的美學需求。訓練后期,模型還通過強化學習(RL)技術進行進一步的微調,有效地對齊人類審美偏好。

3、高壓縮比視頻生成,5B模型可部署消費級顯卡

為了更高效地部署視頻生成模型,萬相2.2探索了一種模型體積更小、信息下降率更高的技術路徑。

通義萬相Wan2.2開源5B版本消費級顯卡可部署,該設計如何平衡壓縮率與重建質量?

通義萬相團隊相關負責人告訴智東西,為了兼顧性能與部署的便捷性,Wan2.2版本開發了一個5B小參數版。這一版本比2.1版本的14B模型小了一半多。同時團隊采用了自研高壓縮比VAE結構,整體實現了在特征空間上16×16的高壓縮率,是2.1版本壓縮率(8×8)的四倍,從而顯著降低了顯存占用。

為了解決高壓縮比帶來的問題,團隊在這個VAE的訓練中引入了非對稱的編碼結構以及殘差采樣機制;同時其還增加了這個隱空間的維度,把原來的2.1版本的16位增加到了48位。這樣使模型在更大的壓縮率下保持了良好的重建質量。

此次開源的5B版本采用了高壓縮比VAE結構,在視頻生成的特征空間實現了視頻高度(H)、寬度(W)與時間(T)維度上32×32×4的壓縮比,有效減少了顯存占用。5B版本可在消費級顯卡上快速部署,僅需22G顯存即可在數分鐘內生成5秒高清視頻。此外,5B版本實現了文本生成視頻和圖像生成視頻的混合訓練,單一模型可滿足兩大核心任務需求。

此次開源中,萬相2.2也同步公開了全新的高壓縮比VAE結構,通過引入殘差采樣結構和非對稱編解碼框架,在更高的信息壓縮率下依然保持了出色的重建質量。

二、60+專業參數引入,實現電影級美學控制

本次,阿里通義萬相團隊還推出了“電影級美學控制系統”,通過60+專業參數賦能,?將專業導演的光影、色彩、鏡頭語言裝進生成模型。用戶通過直觀選擇美學關鍵詞,即可智能生成電影質感的視頻畫面。

許多創作者都遇到過這樣的難題:明明腦海中有充滿電影感的畫面,如王家衛式的霓虹夜晚、諾蘭式的硬核實景、韋斯·安德森式的對稱構圖,實際生成的效果卻總差強人意——光線平淡像隨手拍、構圖隨意缺乏張力、色調混亂沒有氛圍。

通義萬相團隊認為,根本原因在于,真正的電影感源于對光影、色彩、鏡頭語言三大美學體系的精密控制。這些專業能力以往需要多年的學習和實踐才能掌握。Wan2.2的全新功能可以解決這一核心痛點。

智能美學詞響應是系統的核心創新。用戶無需理解復雜的電影術語,只需在中文界面選擇想要的美學關鍵詞,如黃昏、柔光、側光、冷色調、對稱構圖、特寫等,系統將自動理解并精確響應,在后臺智能調整燈光屬性、攝像機參數、色彩濾鏡等數十項技術指標。

阿里又開源了!電影級視頻模型,業界首用MoE架構,通義App已上線

三、可生成復雜運動,強化物理世界還原能力

在文生視頻領域,生成基礎、平緩的動作已非難事,但如何生成大幅度、高復雜度、高細節的動作,如街舞、體操等,始終是技術躍遷的關鍵挑戰。

Wan2.2模型針對面部表情,手部動作,單人、多人交互、復雜動作等方面進行了專門優化,大幅提升了細微表情、靈巧手勢、單人與多人交互、復雜體育運動等生成能力。

比如,Wan2.2構建了人類面部原子動作和情緒表情系統。它不僅能生成如“開懷大笑”、“輕蔑冷笑”、“驚恐屏息”等典型情緒表達,更能細膩刻畫“羞澀微笑中的臉頰微紅”、“思考時不經意的挑眉”、“強忍淚水時的嘴唇顫抖”等復雜微表情,從而精準傳達復雜的人物情緒與內心狀態。

比如,Wan2.2還構建了豐富的手部動作系統,能夠生成從力量傳遞的基礎物理操作、精細器具交互的復雜控制,到蘊含文化語義的手勢符號體系,乃至專業領域的精密動作范式等手部動作。

此外值得一提的是,Wan2.2模型針對多項基礎物理定律與現象進行了優化。這包括對力學、光學以及流體力學和常見物理狀態變化的學習,力求構建高度真實的物理基礎。

在復雜動態場景的處理上,Wan2.2專門優化了多目標生成與交互場景。它能夠穩定地生成多個獨立物體或角色同時進行的復雜動作及其相互影響。此外,Wan2.2 對復雜空間關系的理解與呈現也得到大幅增強,能夠精確理解物體在三維空間中的相對位置、距離、深度、遮擋的空間結構變化。

結語:突破視頻模型規模瓶頸,推動AI視頻生成專業化演進

Wan2.2首創MoE架構視頻生成模型,為突破視頻模型規模瓶頸提供了新路徑;5B版本大幅降低高質量視頻生成門檻,加速生成式AI工具普及。

“電影級美學控制”將專業影視標準體系化融入AI,有望推動AI視頻生成工具向更加專業化的方向發展,助廣告、影視等行業高效產出專業內容;其復雜運動與物理還原能力的提升,顯著增強了生成視頻的真實感,為教育、仿真等多領域應用奠定基礎。