AI應用風向標(公眾號:ZhidxcomAI)
作者|江宇
編輯|漠影
智東西9月25日報道,生數科技今日正式發布新一代圖生視頻大模型Vidu Q2。
新模型以“看AI演戲”為主題,強調“細微表情生成”的突破,支持2至8秒時長的生成視頻與首尾幀模式,并在語義理解、推拉運鏡、出片速度等方面全面優化,將AI生成視頻能力從“生成動態”進化為“生成情緒”。
Vidu Q2在復雜文戲(如情緒表達)、武戲(多人打斗)、特效戲(視覺沖擊)三類常見影視場景中均表現穩定,目前支持網頁版、App及API多端使用。
一、體驗:AI也能“嘮叨演戲”,角色情緒一鏡到底
為了驗證Vidu Q2在微表情與“演技生成”方面的真實提升,智東西體驗了網絡上爆火的“絲瓜湯”場景。

整個生成流程依托Vidu AI手機端完成。APP首頁共提供了三種功能模式:圖生視頻、參考生視頻與參考生圖。

其中,參考生視頻和參考生圖模式支持用戶上傳自定義圖片,也可從內置的“主體庫”中直接選擇已有角色形象。該主體庫不僅包含用戶過往創作中的素材,還整合了社區內容,方便快速復用。

而圖生視頻功能下,Vidu Q2模型支持“首尾幀生成”與“電影大片”“閃電出片”雙模式,視頻時長可靈活設定為2至8秒。

本次體驗選擇“圖生視頻”功能,并手動添加了收尾幀:開頭幀為母親角色,結尾幀為兒子角色。
參數設置中,智東西選用的是免費檔位下畫質最優配置:時長5秒、清晰度1080P、生成模式為“電影大片”。調用的模型版本為最新的Vidu Q2。

實際指令設定如下:
“媽媽問兒子喝不喝絲瓜湯,兒子表示不想喝,媽媽便開啟‘洗腦’模式反復嘮叨絲瓜湯的好處,如‘絲瓜湯去肝火的呀’‘絲瓜湯營養好得不得了’等。當兒子最終被說煩,大聲拒絕時,媽媽反問‘你以前脾氣沒這么差,是不是肝火太旺?喝點絲瓜湯補補吧。’”
生成視頻約在3分鐘內完成。從結果來看,AI角色的表現已具備較高的形象一致性和情緒邏輯。兒子在不耐煩階段的表情也處理得較為連貫,明顯可見情緒的變化。
雖然當前版本尚未支持音畫同步,但視頻畫面本身已具備較強的表演力,若后續疊加語音合成或角色音軌,將更貼近真實劇情片段。
從這輪體驗來看,Vidu Q2確實補上了以往AI視頻生成中“表情控制”和“角色一致性”的關鍵短板,使生成內容具備初步的情緒邏輯與表現力。
二、從“會動”到“能演”,AI首次具備情緒表達能力
從“絲瓜湯”體驗中AI對角色情緒的“演繹”出發,Vidu Q2有多項底層技術的突破。
當前主流AI視頻模型多以生成連貫動態為主要目標,但常陷于“面癱”“眼神空洞”等問題,難以支撐復雜劇情。Vidu Q2則將“情緒表達”作為系統性優化方向,通過對微表情生成的升級,補足了AI視頻的情感表現力短板。
它支持呈現嘴角輕抽、眼神游移、眉頭緊鎖等細微肌肉動作,并通過多模態融合方式,將文本語義、圖像內容、面部動作單元等信息共同驅動生成。這讓角色的面部和肢體表演均具備“情緒邏輯”。
功能上,Vidu Q2新增“首尾幀生成”模式,并提供“電影大片”“閃電出片”兩種風格選擇,適配短視頻創作與劇情片段表達需求:
1、在影視文戲中,Vidu Q2可模擬人物情緒起伏;
2、在打斗動作戲中,角色面部表情與肢體動作連貫統一;
3、在廣告特效中,可實現角色表演與視覺沖擊效果的融合。
結語:AI角色“演技上線”,從“幕后”走向“臺前”
Vidu Q2的發布,讓AI具備了“可表演”的能力,使其在內容生成鏈條中不再只是“工具”,而嘗試從事“演員”的身份。
未來,隨著音畫同步、劇本驅動、角色持久記憶等能力逐步補齊,AI將在更多文藝與商業創作場景中承擔起更復雜的任務。而這,也為短視頻內容生產、虛擬數字人、廣告生成等賽道提供了全新可能。