智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影
剛剛過去的國慶假期,將視頻生成領域的技術競賽推向全新高度。
OpenAI率先拋出重磅炸彈,旗艦視頻生成模型Sora 2,直言其正“直奔視頻領域的GPT-3.5時刻”,并隨之推出Sora應用程序。憑“Cameo(引用角色功能)”首周下載量超ChatGPT;隨后,馬斯克xAI亮出Imagine v0.9,以20秒內快速生成、全用戶免費開放的優勢予以回應;本月底,國內AI視頻創業公司生數科技的Vidu Q2參考生功能也即將重磅亮相……
在這一系列密集的行業動向中,其中尤為突出的是Sora應用的Cameo和Vidu的參考生功能,我們可以窺探到視頻生成賽道的新共識,“引用角色形象”正成為技術探索與應用落地的關鍵方向。
相比于OpenAI,生數科技在參考生視頻領域的布局更早。作為全球“參考生視頻”概念的首個提出者和開創者,早在2024年9月Vidu就已提出了參考生視頻功能。而隨著Sora應用程序的落地,中美在AI視頻領域的技術與產品較量,也正式進入正面PK的關鍵階段。
本月底,Vidu Q2參考生視頻即將登場,不僅對于To C小白用戶友好,使用門檻大幅降低,而且作為生產力工具,其對于專業、半專業創作者也非常能打,同時對于一致性、精準性、性價比要求較高的廣告電商、影視動漫等To B領域的要求也能滿足。
下面是創作者陳暢率先借助Vidu Q2參考生功能生成的高燃大片,已經讓我們提前感受了Vidu Q2參考生的技術實力。
一、直擊視頻生成核心痛點,“角色引用”成主流解法,Vidu早有布局
不同于文字、圖像生成技術已實現高穩定性、高可控性的生成效果,當前視頻生成技術雖正在快速迭代,卻仍受多個核心痛點制約,尚未迎來大規模商業化落地的爆發時刻。
首先,文字之間的連接可通過語法、上下文,圖像只需明確單一場景的核心信息,而視頻的核心價值在于通過連續畫面傳遞完整敘事,往往視頻時長增加,就會出現情節割裂、角色行為矛盾、空間錯位等問題。
其次,可控性缺失。若視頻生成包含元素過多,會受限于模型的理解能力和記憶能力等,再加上普通用戶難以通過提示詞傳達準確的專業術語,會進一步導致生成內容出現偏差。
從當下主流視頻生成模型企業的布局來看,引用角色形象這一核心思路,成為解決上述痛點的有效路徑,也就是Sora App中的Cameo以及Vidu的參考生功能。
其共同點是支持上傳參考圖生成視頻,能在一定程度上使得最后視頻生成都圍繞這一元素展開,避免中間出現較大的情節偏差。再加上其有固定的角色特征作為參照,用戶可以以畫面中內容為核心結合提示詞生成同一角色不同的視頻畫面。
但不同之處在于,Vidu的參考生功能范疇覆蓋更為廣泛。
Sora App中的Cameo功能,允許用戶在應用中進行一次簡短的音視頻錄制,即可以將自己或者授權的其他人直接帶入任何Sora生成的場景中。一定程度上可以認為,Cameo的功能是使生成視頻中的主體角色與上傳圖片的主體保持一致,也就是“角色參考”。
而Vidu的“參考生”功能,涵蓋了角色、環境、道具等諸多要素來生成視頻,參考類型更多,可以為創作者提供更高的自由度和控制力。
AI原生的參考生功能已經成為這場視頻生成競賽中搶占先機的關鍵,就在本月底,Vidu即將發布的Q2參考生版本,將進一步強化這一優勢。
二、從一致性到精細控制:Vidu Q2參考生與Sora 2逐維度拆解
相同參考圖片下,Sora 2與Vidu Q2參考生的生成效果各有優劣。
首先明確下OpenAI Sora App中的Cameo與Vidu Q2參考生的具體功能。
從OpenAI的官方博客可以看出,Cameo生成的角色由用戶的短視頻和音頻捕獲構建而成,可以被重復使用。且錄制視頻和音頻時,用戶需要尋找效果較好的光線、干凈的背景、摘下帽子、保持周圍環境安靜等,才能確保最后生成的主體角色質量更高。
Vidu Q2的參考生功能則支持上傳最多7張照片,可以是人物、物體、場景、特效的不同組合,也可以是多個人物,并且能在保持參考圖特征的同時,更貼近用戶原始輸入。
下面就是同樣的參考圖片、提示詞下,Sora 2與Vidu Q2參考生生成的視頻實際效果對比,提示詞為介紹皇冠:
參考圖(由AI生成):

Sora 2生成的視頻效果:
Vidu Q2生成的視頻效果:

可以看到,兩個視頻中都切換了遠景、近景。Sora 2的優勢在于可以音視頻直出,畫面搭配實時解說,并自動補充大量不同分鏡,幾乎做到一鍵成片,但其中不足的地方在于,Sora 2的視頻中皇冠樣式略微發生改變,還出現了皇冠憑空漂浮在空中的反常理畫面。
相比之下,Vidu Q2參考生生成的視頻中,主體人物始終手握皇冠,且人物的形象、嘴邊的麥克、皇冠的樣式始終保持一致,同時人物的眼神也在跟隨皇冠的位置變化而移動,使得人物與物品更具有互動感,但不足之處在于,雖然人物的嘴形也在變化,卻沒有相應的音頻生成。
第二個的提示詞為:女孩閉上眼睛,身后的云朵飛舞,發出金光。
參考圖(由AI生成):

Sora 2生成的視頻效果:

Vidu Q2生成的視頻效果:

這一案例中,Sora 2生成的人臉與參考圖相差較大。Vidu Q2則更好地保持了與參考圖人物的完全一致。
總結來看,Vidu參考生的核心優勢為突破單一角色引用局限,實現了覆蓋角色、道具、場景、特效等創作全要素參考,同時在主體一致性上保持更好。
基于此,創作者無需在多工具間切換尋找資源,僅通過Vidu參考生就能直接引用所需的各類創作要素,并基于這些要素快速生成視頻,最終簡化創作流程并賦予創作者更高的創作自由度與細節控制力。
三、Vidu Q2參考生三大亮點曝光,月底正式亮相
據了解,Vidu Q2模型的升級讓AI視頻從視頻生成直接邁向演技生成新階段,而這次參考生功能的Q2版本更新也在原有功能上實現了質的突破,生成的視頻一致性依舊保持全球領先、生成速度更快、價格更優惠,同時作為國產AI視頻,對于國內用戶來說,直接上手可用。
智東西也率先拿到了Vidu Q2參考生的內測資格,提前體驗了一波參考生功能的升級。
話不多說,先上實例。
第一個案例是廣告電商類的美妝產品多步驟演示。
提示詞:圖1坐在圖3前,先拿起圖2的粉底液,用美妝蛋以“點涂+輕拍”動作均勻上臉(特寫手部發力細節),接著對著鏡子微笑展示妝效(捕捉嘴角上揚+眼神亮澤的表情)。鏡頭從“手部操作近景→面部上妝中景→微笑特寫”切換,全程保持博主妝容、梳妝臺物品位置不變。
參考圖(由AI生成):

Vidu Q2生成的視頻:

最后生成的視頻中美妝博主眼睛上的亮片也都進行了復現,且使用的美妝蛋、臥室梳妝臺與參考圖內容均一致,在人物運動、鏡頭切換時也沒有變形。
第二個案例是知識科普類,科普某手工制品的制作教程等。
提示詞:圖1在演示皮具縫制:先將圖2的皮革對齊,再用針線回針縫(特寫針腳密度),全程保持皮革紋理、工具擺放位置不變。
參考圖(由AI生成):

Vidu Q2生成的視頻:

這一視頻中全程的皮革紋理、工具擺放位置并沒有發生變化,并且精準的拉近鏡頭切換特寫,人物還有用針線的相應動作。
第三個案例是寵物擬人化劇情:
圖1坐在圖3的迷你書桌前,前爪搭在圖2的筆記本上假裝寫字(爪子輕劃紙面的動態),偶爾抬頭歪頭(呆萌表情)。鏡頭先用低角度仰拍模擬寵物視角,再用緩慢推近聚焦寫字動作,最后用俯視運鏡展示書桌全貌;全程保持柯基帽子不掉、道具位置合理。
參考圖(由AI生成):

Vidu Q2生成的視頻:

這一視頻中客廳背景的綠植、沙發造型,小桌子上的筆記本、筆、橡皮以及柯基頭上佩戴的藍色帽子位置都與參考圖一致,且鏡頭也符合提示詞要求的的先用低角度仰拍再全景展示。
三個體驗案例中的共同點就是,利用Vidu Q2參考生生成的視頻均保持了智東西上傳圖片的一致性,同時能滿足各種鏡頭角度轉換、人物動作變化的需求。Q2參考生在生成速度上也更快,只需十幾秒即能快速生成一段5秒視頻片段。
這一波Vidu Q2的升級,將再次使得參考生的實用性更進一步,大幅降低視頻制作的技術門檻。
Vidu Q2參考生視頻已進入發布倒計時,本月底即將揭曉答案,其將用實力證明,中國視頻大模型更能打,不只停留在技術層面,更在于落地價值。