智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影
視頻生成競賽愈發激烈,但細膩、準確地傳達人物面部表情細節仍然是其中的一大難點。
一般的影視作品或者日常交流中,人們說話時伴隨著的面部表情變化也是準確傳遞信息的關鍵。在視頻生成中,想要讓人物的整體表現更加流暢自然,就需要將人物的動作、皮膚紋理、肌肉運動等細節呈現更為細膩。
這對于AI而言難度不小。近期在肖像生成方面的一項研究突破,就針對于上述難題給出了解法。
這就是字節跳動智能創作團隊近期提出的X- Portrait 2單圖視頻驅動技術,僅需要一張靜態圖片和一段驅動視頻,用戶就可以得到高質量、電影級的視頻片段。
如果我同時上傳了《白銀帝國》中演員金士杰的視頻片段,和一張AI生成的紫發外國女生的靜圖,就可以讓女生直接復刻電影片段的動作。
可以看到,下圖中靜態圖和驅動視頻中的人物形象區別很大,并且即使人物表情變化包含大笑、張大嘴等,X-Portrait 2最后生成的效果也完全沒有被影響,只是集中于面部表情、頭部動作的變化。
生動豐富的表情是塑造角色性格的關鍵,可以看出,當下的肖像生成技術正在向著更精細地模擬人類微觀表情進階。
一、經典鏡頭秒速復刻,大笑、扭頭面部均不變形
細致入微的表情,往往是演員傳達情緒的關鍵,現在這項工作也能被AI接管了。
在體驗這項技術之初,我設定的初始難度是調用較少感官的表情,如只需要眨眼、大笑等,這考驗的就是X- Portrait 2在生成過程中,如何讓靜圖中的人物準確調用正確的感官,并將情緒準確傳達出來。
相信很多人都對《大話西游》中紫霞仙子眨眼的鏡頭記憶猶新,這也被認為是很難超越的眨眼神圖,如果把這個表情搬到著名表情包“金館長”臉上呢?
可以看到,最后生成的視頻中,金館長的眼睛被放大,從抿嘴到眨眼一氣呵成,面部完全沒有變形,直接復刻了這一經典畫面。
那如果將金館長的經典大笑表情包放到其他人臉上呢?我利用豆包生成了一張科幻屬性明顯的人物圖像,然后上傳了金館長從大笑到說話的視頻片段。
靜態圖中的人物不僅模仿了金館長的大笑神態,就連大笑時面部的皺紋、頭部的輕微上下擺動動作都傳遞的十分到位。
考驗完單一表情,再來看下進階難度。
這一關的原視頻人物說話過程中會伴隨情緒的轉換,例如下個視頻中張譯表演時的花絮片段,從剛開始說話到扭頭大笑。
然后我上傳了一張美國著名男演員本·阿弗萊克(Ben Afflec)的劇照,生成視頻中,大本和張譯大笑時咧開的嘴角弧度都完全相同。并且從側臉轉向正臉時的動作也十分流暢。
二、阿凡達、滅霸夢幻聯動,人人都能做出迪士尼公主表情
X-Portrait 2除了能讓一張圖片按你想要的風格動起來,還能把相同表情直接搬到各種風格的人物形象上。
基于此,我直接讓經典科幻電影《阿凡達》中的阿凡達,與漫威系列中的滅霸來了一場夢幻聯動。
我上傳了一段電影中女主角涅提妮與他人產生劇烈爭執的視頻,還有一張滅霸的靜態圖片。視頻中的涅提妮邊倒退邊顯露出悲傷的神色。
滅霸也展現出了同樣的深情,并且額頭上的皺紋還會伴隨著情緒變化逐漸加深。
動畫電影中迪士尼公主的神態動作已經自成體系,讓人一看到就身處“迪士尼宇宙”。與此同時,一些互聯網上的博主紛紛開啟了模仿迪士尼公主的挑戰,她們的表情神態惟妙惟肖,現在X-Portrait 2可以讓任何人都能快速get這個技能。
這里我選擇上傳了一張AI生成的動漫人物形象,以及短視頻平臺中博主上傳的模仿視頻。可以看到,原視頻的博主眼神、嘴部以及整個表情都很夸張,這個難度X-Portrait 2的生成效果并沒有翻車。
我還上傳了其他博主的模仿視頻,生成的效果直接讓本來只是一張靜態圖片的公主,直接身處童話世界了,好奇、開心的表情十分可愛逼真。
現在有很多動畫電影還會被改編成真人電影,但這類電影在選擇演員、劇情改編、演員表演等方面都會讓原先的動漫讀者忐忑不安,因為很多劇情真人演員很難表演出來,部分表情、動作甚至劇情會被改編。
現在基于X-Portrait 2可以直接將動漫人物的表情“復制”下來,“粘貼”到其他人物上。我上傳了一段《美女與野獸》中“野獸”的一段視頻,視頻中“野獸”的五官與人類類似,還伴隨著大吼的動作。
這段表演被準確復制到了我用AI生成的圖片上,X-Portrait 2在表情識別方面沒有受到干擾,眼睛、嘴巴的動作變化絲滑流暢,復刻了“野獸”的憤怒情緒。
可以看出,X-Portrait 2在表情生成方面的效果逼真程度可以體現在,眼部、嘴部的動作以及表情切換、動作協同性等諸多方面,能讓靜態形象的表情生成與其他動作配合協同。
三、表情編碼器模型+生成擴散模型,實現表情“復刻”效果躍遷
上述這些肖像生成的驚艷效果均出自X-Portrait 2。
今年3月,字節跳動的第一代肖像動畫模型X-Portrait,可以用于生成富有表現力和時間連貫的肖像動畫。X-Portrait 2就是這一肖像動畫模型的迭代版本,能夠如實表現快速的頭部動作、細微的表情變化以及強烈的個人情感。
為了讓最后生成視頻的表情更加流暢、逼真,X-Portrait 2結合了表情編碼器模型和生成擴散模型,能夠捕捉到驅動視頻中演員的細微表情,甚至于撅嘴、吐舌頭等需要調動多個面部器官的表情也能準確傳達。
這一表情編碼器模型是基于大型數據集進行訓練,隱式編碼輸入中的每個微小表情,就可以做到表情傳達的準確性。
面對驅動視頻,這一編碼器還可以實現人物外觀和表情動作的強分離,能夠讓其更專注于視頻中與表情相關的信息,從而實現表情動作的準確遷移。
通過為模型設計過濾層,編碼器能有效過濾運動表征中的ID相關信號,使得即使ID圖片與驅動視頻中的形象和風格差異較大,模型仍可實現跨ID、跨風格的動作遷移,涵蓋寫實人像和卡通圖像。
目前,除了X-Portrait 2,視頻生成創企Runyway上個月也推出了類似的功能Act-One,這一功能可以讓用戶自己錄一段視頻,然后將其轉移到AI生成的角色上。
相比之下,X-Portrait 2可以更準確地傳遞人物頭部的動作、微笑的表情變化和個人情感表達;Act-One最終生成的視頻也可以傳達表情,但在人物情緒和快速的頭部動作方面可能無法準確“復刻”。
下圖的對比視頻中可以看出,原視頻中人物很悲傷,且說話中頭部有輕微轉動,但基于X-Portrait和Act-One生成的視頻都沒有將其體現出來,X-Portrait視頻中人物頭部擺動幅度復現了,但兩個視頻中的人物表情有輕微笑意,與原視頻的情緒完全不同。
面部細節還原、頭部動作與姿態的協調等,都是做到精準表情生成的關鍵,這也是目前X-Portrait 2的優勢所在。
結語:讓視頻生成突破表情細節難題
在視頻生成的眾多環節中,表情生成是一個極具挑戰性的部分,因為與人物整體的動作生成相比,細致入微的表情生成要困難得多,一個細微的面部肌肉變化都可能傳達出截然不同的情緒。
盡管這項技術目前還處于學術研究階段,但字節跳動在這一方面的積極探索具有深遠的意義,通過不斷地優化算法和模型結構,X-Portrait 2已經展現出捕捉和再現人物表情微妙變化的能力。這種進步將進一步拓展視頻生成的應用邊界。