智東西(公眾號:zhidxcom)
編譯 |? 子佩
編輯 |? Panken

智東西11月26日消息,3D渲染的人物頭像已經是電影和游戲中的重要組成部分,但如何快速、高效、低成本地生成表情豐富的3D人臉,一直是技術上的“老大難”。

近期,迪士尼和麻省理工學院的研究人員合作研發了一種基于深度神經網絡的語義面部模型,用于快速制造多個具有細節特征的人物頭像,該論文《深度語義面部模型(Semantic Deep Face Models)》發表至3D視覺國際會議。

虛擬人物也有小情緒!迪士尼研發深度語義面部模型,讓表情更豐富

論文鏈接:

一、3D人像技術迭出,精細情緒仍難表達

從早期,通過主成分分析等簡化方法建立人臉三維變化模型,再到后期,基于多尺度方法擴展有細節和變化的人臉模型,關于如何渲染出逼真人像的這個問題,研究者已經走了很長的一段路。

如今,動畫特效師已經可以快速制作出高清、逼真的3D人臉,但是人類微表情中的微妙區別,仍難以摹擬。

就以微笑為例,你可以輕松分辨出,身邊熟悉的朋友是因為開心真正地大笑,還是只是敷衍應酬的假笑,但要讓虛擬人物面部能表達出這種因為情緒產生的細微區別,并不容易。

現在常用的線性面部模型為了工業制造中所需要的快速和標準化,犧牲了這種情緒上的細微表達;新型神經網絡模型通過層層數據的反饋,可以讓模型自己學會“讀情緒”,但像同型模型一樣,他們由于參數復雜和計算量巨大,難以直接讓創作者上手,應用在動畫、電影和游戲制作中。

對此,迪士尼研究院和麻省理工學院合作,提出了一種語義可控、非線性、參數化的人臉模型,通過分離不同維度的特征信息,對三維人臉進行語義分割,從而通過簡單地調整參數,讓特效動畫師能夠方便地制作具有細節的人臉模型。

二、面孔、情緒兩套編碼,通過權重改表情

該套模型的基礎邏輯是,將同一張圖像中的面部信息和情緒表情分開,然后只關注于不同情緒間“微妙”的變化,最后通過加上色彩光照信息,為虛擬人物賦予生命。

虛擬人物也有小情緒!迪士尼研發深度語義面部模型,讓表情更豐富

▲深度語義面部模型架構圖

該模型所采用的數據集是,224名不同種族、性別、年齡和BMI的受試者,在固定光源、多鏡頭的環境下,做出的24種情緒表情,最終得到了5376組靜態圖片,每組也采集了7300幀左右的動態視頻。

在剔除不符合要求的數據后,研究人員將每個受試者的24個表情數據作為輸入,動態視頻作為輸出,以最小二乘法作為損失函數,得到每個表情的權重。

為了模擬人物在不同表情下面部光照變化,圖像中每一個像素都會進行反照率顏色采樣,并存儲RGB信息構建六維向量,從而構建出可以反推人物圖像色彩變化的反照率模型。

隨后,研究人員通過面部、表情兩種變分編碼器,將人物的面部特征和情緒表情完全分開。

虛擬人物也有小情緒!迪士尼研發深度語義面部模型,讓表情更豐富

▲不同人物同一情緒

在設計虛擬人物的階段,動畫特效師只需要為人物輸入設定的表情,并通過調整表情間的權重,讓人物得以表達更為豐富準確的情緒,最后套用訓練好的反照率模型,讓虛擬人物更為生動逼真,即可快速生成情緒細膩的虛擬人物。

結語:從非0則100,到更精細的情緒表達

深度語義面部模型結合了線性模型和神經網絡模型兩者的優勢。

在線性模型中,虛擬人物們只能表達悲傷或者高興,或者更簡單地比喻,它只能表達出0或者100。神經網絡模型則提供了,在悲傷和高興之間,一百種已經學習過的情緒。

在學習不同語義的表情過后,該模型可以提供0到100之間所有的實數,所以動畫特效師可以自由地在任何3D面孔上像滑動滑塊一樣,選擇0到100之間任何情緒。

動畫特效師可以快速生成一千個具有長相、膚色各異的面孔,然后賦予不同表情,而無需進行任何額外的工作,這會為游戲、影視行業在降低工作量的同時,提升游戲和觀影體驗。

但這也不是一勞永逸的萬能藥,精細情緒表達只是3D人物制作的一部分,無標記面部跟蹤、更自然的皮膚形變、逼真的眼部運動以及許多其他有趣的領域,依舊等待著新的變革。

來源:TechCrunch