智東西(公眾號:zhidxcom
作者?| 程茜
編輯?|?漠影

當下大模型的焦點無疑是火遍全球的DeepSeek,但其本質上是純語言模型,多模態大模型賽道的戰火同樣火熱。

智東西2月18日報道,今天,昆侖萬維開源中國首個面向AI短劇創作的視頻生成模型SkyReels-V1中國首個SOTA級別基于視頻基座模型的表情動作可控算法SkyReels-A1

視頻生成模型的競爭已攀升至全新高度。

SkyReels-V1基于混元大模型訓練,是Human-Centric Video Foundation Model(以人為中心的視頻基礎模型),支持文生視頻、圖生視頻,性能可以對標快手可靈、MiniMax海螺AI等閉源模型,微表情還原、專業運鏡、好萊塢級的畫面構圖通通可以一鍵完成。

這兩大模型的能力目前可以在昆侖萬維的AI短劇平臺SkyReels上體驗到,該平臺主頁下方已經出現了不少復雜任務的生成實例,各種好萊塢大片即視感的視頻被不少用戶在幾分鐘之內創作了出來。

最強開源短劇創作模型來了!33種表情、400種肢體動作,好萊塢級AI導演監制

▲SkyReels平臺主頁

當下視頻生成領域應用頗為火爆的就是AI短劇,SkyReels包圓了從劇本生成、分鏡、BGM到人物對白等各個環節,“一個人拍爽劇”成為現實,一舉拉低了短劇創作的門檻,加速了視頻生成模型的應用與普及。

這一背景下,SkyReels-V1視頻大模型的驚艷效果實際表現如何?真的人人都能成為短劇創作者嗎?帶著這些問題,智東西搶先體驗了昆侖萬維全新升級的AI短劇生成平臺SkyReels。

開源地址:

//github.com/SkyworkAI/SkyReels-V1

//github.com/SkyworkAI/SkyReels-A1

技術報告地址:

//skyworkai.github.io/skyreels-a1.github.io/report.pdf

一、一鍵拍短劇!懟臉鏡頭表情不崩,運鏡、構圖是好萊塢級別

春節檔爆火的《哪吒之魔童降世》票房沖破百億,很多用戶圍繞著哪吒2的主演開啟了視頻生成二創。

SkyReels的圖生視頻效果自然也不在話下。我上傳了一張哪吒乘坐“飛天豬”變成的車的靜態圖片(視頻上方的靜態圖)后,輸入提示詞,哪吒開車的同時頭發隨風飄揚的細節也被完整呈現了出來,并且飛天豬腳底的“風火輪”也出現了火的元素,人物與畫面背景十分協調。

回顧視頻生成模型剛剛誕生之時,用戶在體驗相關產品時往往會面臨生成速度慢,且生成效果與用戶提示詞大相徑庭,人物表情生硬、不自然等情形,如今隨著技術的發展,昆侖萬維SkyReels、快手可靈、MiniMax海螺AI等諸多產品的升級迭代使得視頻生成模型的可用性大大增強。

首先,對于視頻、短劇而言,人物的微表情是一大難關。一般而言,人物的微表情持續時間短且變化幅度小,但對于傳遞人物真實情感至關重要。

SkyReels生成的醫院場景視頻中,病床上男主與旁邊女主的對話過程中,兩者的表情變化都十分自然。可以看到,懟臉鏡頭女主的表情也完全不會崩,伴隨著聲音哽咽女主在抿嘴時下巴還會輕微顫動。躺在病床上的男主在說話時,臉上和脖子上的皺紋、皮膚也會隨之變化。這些細節的變化處理,正是準確傳達人物當下感情的關鍵。

第二點就是用鏡頭語言來增強畫面的故事感。一段視頻中往往會通過不同機位來刻畫重點,如通過大全景來呈現事件發生的地點,或移動鏡頭到不同的人身上,體現畫面主體的變化。

例如下面這一段視頻中,先由教堂的場景引入,顯示男主所處環境,然后通過場景的轉移、周圍人物的變化交代男主身份。女主出現的劇情同樣如此,通過環境與人物特寫等助推故事情節發展。在男女主對話的過程中,鏡頭會跟隨說話主體給到主角特寫。

第三點就是畫面中的人物站位、構圖以及畫面主體的切換等,在真人拍攝中往往需要演員、導演的相互協同,同時還要搭建場景或者借助天氣來達到最佳拍攝效果。現在AI可以隨時隨地就能做到。

正如下面視頻中,鏡頭的轉化絲滑,剛開始主角的聲音伴隨著回憶鏡頭中穿插切換家人的合影、躺著的小女孩、奔跑的傷員等,豐富了故事細節,隨著鏡頭的緩慢移動,出現主角人物,再用特效切換畫面,由人物到最后復仇的場景。

如此逼真豐富的故事細節,視頻生成模型可以基于對文字的理解自己生成,從來形成一個完整的短劇作品。

可以看到,在人物表情、鏡頭切換以及畫面構圖方面,SkyReels生成的效果都有了顯著提升。

二、視頻生成模型關鍵突破:生成精準、速度更快、結果可控

SkyReels平臺升級背后的核心,正是昆侖萬維最新發布的SkyReels-V1視頻大模型。

視頻生成賽道發展至今,已經從經常“翻車”、簡單的PPT式畫面,進化為流暢、有鏡頭變化、角度轉移的流暢視頻,對于AI短劇而言,用戶更關注的是生成人物的微表情,才能準確傳遞劇情,因此對于微表情、精準可控的生成效果要求更高,如何精進生成效果讓用戶拿來即用成為擺在視頻生成模型玩家面前的難題。

在生成視頻、短劇時,最為關鍵的要求就是生成精準、可控性高且推理、生成的速度足夠快,這同樣是SkyReels-V1視頻大模型背后技術的核心殺手锏。

首先在生成精準方面,視頻生成要精準呈現人物微表情、同時需要把握整個畫面的合理構圖、細微的光影變化等諸多要素。

目前,SkyReels-V1已經可以支持33種細膩人物表情與400多種自然動作組合,可以高度還原人物的大部分表情。同時其背后的訓練數據是好萊塢級的影視數據,畫面的構圖、演員站位、相機角度都更具電影級質感。

下方視頻中哭泣的女生,從眼眶微紅、眼含熱淚、嘴角顫動、蹙眉道鼻子微紅、頭發擺動,都充分顯示了她當下的悲傷情緒。

讓人物的表情、動作、畫面構圖、以及鏡頭語言的逼真表達背后,就是昆侖萬維自研的人物智能解析系統,其中包含影視化表情識別體系、人物空間位置感知、行為意圖理解、表演場景理解。

該系統的綜合作用下,模型可以實現11種人物表情理解,準確表達不屑、不耐煩、無助、厭惡等表情,同時基于人體三維重建技術,實現影視級的人物站位以及人物行為的精準理解,同時人物-服裝-場景-劇情之間形成關聯分析,最終使得視頻效果保持完整、連貫、逼真。

可以看出,在下方短短4秒的視頻中包含了諸多關鍵元素。只有背影的人物在說話時身體微微顫動,露出正面的人物眼神變化、微微蹙眉都傳達了其的感受,還有男主肩頭光影的變化,讓人物與周圍環境產生了交集。

生成精準還體現在精準可控的人物視頻生成,生成的視頻準確提取了Driving?Video中的表情、動作特征,從講話的口型、五官的變化甚至到頭部的輕微擺動都完整復刻了出來,但Runway在生成這個視頻時沒有成功。

即使是與Driving?Video完全不同的臉部角度,生成的視頻效果也能準確呈現表情的生動變化。相比于Runway的生成效果,可以看出SkyReels-A1生成的視頻表情更加豐富,講話過程中不僅有眉毛眼睛的變化,還呈現了額頭皺紋,人物效果更為逼真。

其二就是速度,視頻生成的速度對于用戶的體驗感知也是一個重要影響因素。基于昆侖萬維自研的推理優化框架SkyReels-Infer,SkyReels-V1實現544p分辨率推理,基于單臺4090只需80s,同時支持分布式多卡并行,支持Context Parallel、CFG Parallel、和VAE Parallel。

在RTX 4090同等規模下,推理生成544p視頻,昆侖萬維的方案端到端延遲優于視頻生成大模型HunYuan Video 58.3%

為了降低用戶本身硬件性能對生成速度的影響,擴大體驗到更快推理速度的用戶群體,昆侖萬維采用諸多策略滿足低顯存用戶級顯卡運行需求以及優化延遲,如采用FP8量化以及參數級卸載,支持Flash Attention、SageAttention、模型編譯優化等進一步優化延遲。

同時為了讓用戶UGC視頻生成的內容更加精準可控,研究人員開源SOTA級別的基于視頻基座模型的表情動作可控算法SkyReels-A1,對標Runway的生成式角色表演工具Act-One,實現電影級的表情捕捉。

視頻中的女生雖然左右大幅度擺動了頭部,但臉上驚恐的表情從始至終都被準確呈現了出來。

而這樣的視頻生成效果,基于昆侖萬維自研的核心技術,使得用戶在自己的電腦上也可以輕松實現,高性價比、生成可控正是其優勢所在,低成本的AI短劇潮涌起已經成為現實。

反過來看,自研技術進階與綜合產品布局,也正在驅動昆侖萬維成為視頻生成模型應用領域的領跑者。

三、大模型技術創新、應用落地兩開花,堅持開源策略

短劇爆火的風,已經吹到了視頻生成平臺之上,用戶也開始探索自制短視頻。

去年8月,昆侖萬維發布的AI短劇產品SkyReels就是視頻生成工具的集大成者,包圓了從劇本創作到短劇成品的各個步驟。

SkyReels平臺集成了昆侖萬維自研劇本大模型SkyScript、自研分鏡大模型StoryboardGen、自研3D生成大模型Sky3DGen、以及業界首個將AI 3D引擎與視頻大模型深度融合的創新平臺WorldEngine。

SkyReels能夠通過AI一鍵生成完整劇本、分鏡、人物對白與BGM,支持角色形象、音色與分鏡的自定義調整,并能夠自動將內容轉換為1080P 60幀的高清視頻,單次可生成視頻長度達180秒。

最強開源短劇創作模型來了!33種表情、400種肢體動作,好萊塢級AI導演監制

▲SkyReels短劇創作主頁

用戶可以將短劇靈感、腳本或者小說上傳到平臺之上,SkyReels就會自動分析內容生成相應腳本以及對應的主要人物角色,不滿意的話還可以重新設備聲音和角色形象等。最后SkyReels會將不同鏡頭的腳本進行合成,形成一部完整的短劇,這些過程中用戶都可以根據自己的需求隨時修改。

短視頻平臺中的短劇以高密集爽點為核心,融合了復仇、重生等多種類型,基于此,昆侖萬維還構建了億級的高質量短劇結構化數據集SkyScript-100M,其針對海量精彩短劇的劇情節奏、爽點、情緒變化進行了高質量標注。

SkyReels當下是視頻生成模型大規模應用的一大創新方向。一方面,這一綜合性的短劇產品降低了短劇的制作門檻,激發用戶的創作興趣;另一方面,SkyReels平臺同樣也是大模型能力落地到應用產品上的有效路徑。

這些成果不僅是昆侖萬維技術實力的有力證明,更體現了其在AIGC時代正成為重要的風向標。

2023年4月,昆侖萬維提出“All in AGI和AIGC”戰略,不局限于單一的產品或技術,而是構建一個完整的AI生態系統,逐步了形成AI大模型、AI搜索、AI音樂、AI社交、AI游戲、AI短劇六大業務矩陣。并且在國內多次首發國內第一款AI細分應用創意新品,從國內第一款AI搜索產品“天工AI搜索”國內第一款AI音樂生成產品“天工SkyMusic”

事實上,昆侖萬維在AIGC和大模型領域的布局可以追溯至2020年,并且研發投入一直處于領先水平。昆侖萬維2024年第三季度的財報顯示,其前三季度研發費用提升至11.44億元,同比增長高達84.47%。

當下,該公司已經完成“算力基礎設施—大模型算法—AI應用”全產業鏈布局,在戰略布局、技術積累、對市場的精準洞察綜合作用下,昆侖萬維在大模型產業上的優勢逐漸增大。

更為重要的是,當下DeepSeek爆火再次引發了業界對開閉源模型的思考,諸多企業由閉源轉向開源,昆侖萬維一開始就十分重視開源生態

早在2022年,昆侖萬維就開源了昆侖天工AIGC全系列算法與模型,此后又開源了開源2000億稀疏大模型Skywork-MoE?、4000億參數MoE超級模型、數字智能體全流程研發工具包AgentStudio等。

其一以貫之的開源策略,正在加速助推大模型生態的健康、快速發展。

結語:昆侖萬維用全棧AI布局,為AGI時代裝上加速引擎

昆侖萬維堅持“All in AGI與AIGC”戰略布局的同時,已經有了不少的行業應用成果,在其開源策略的布局下,這些成果正在加速國內大模型產業的發展。昆侖萬維堅持自研核心技術突破,到如今亮相了實力強勁的開源視頻生成模型,在視頻生成的諸多關鍵領域實現了飛躍。同時,在大模型應用方面,昆侖萬維的嘗試也給了大模型殺手級應用誕生指明了路徑。

以往短劇創作需要專業的編劇、導演、攝像、演員等團隊協作,以及較高的資金投入。而SkyReels-V1、SkyReels-A1的出現正在打破這樣的創作流程,滿足更加多樣化、個性化的創作需求。隨著SkyReels這樣產品的出現以及性能的提升,將使得AI短劇的創作生態逐漸成熟,優化模型性能,提升短劇質量,從而推動整個行業的技術創新和內容創新。

在大模型應用的探索之路上,昆侖萬維已經走在了行業的前列。隨著視頻生成模型在流暢性、真實性、分辨率等方面的進一步提升,以及動作準確性、場景邏輯性等問題逐步改善,視頻生成的應用將大有可為。尤其在當下熱度頗高的短劇領域,SkyReels這樣的產品能幫助用戶將創意快速轉化為短劇作品,使得創作更加自由化、大眾化,,有助于推動短劇內容生態的建設,重塑AI短劇行業。

可以肯定的是,首個AI短劇創作模型的發布已經讓我們看到了大模型技術的巨大潛力和無限可能。再加上開源模型SkyReels-V1、SkyReels-A1被廣泛應用于各個行業和領域,即使沒有強大研發團隊和大量資金支持的個人或小型團隊也能獲取先進的視頻生成技術,從而推動通用人工智能時代的加速到來。