如何讓虛擬人物更加真實地傳達情感,一直是AI數字人領域的研究重點。傳統的說話頭部動畫技術雖然能夠模擬人物的嘴型和基本表情,但在精細控制和情感表達上仍有局限。
為此,上海交通大學聯合網易伏羲提出用于對話人臉生成的高效解耦框架EDTalk,現已開源。相關的論文成果收錄于ECCV 2024并獲得Oral。其中,上海交通大學計算機系在讀博士譚帥為論文一作。

EDTalk能夠實現對多種面部動作的分離控制,并適應不同的輸入模式,提高對話人臉生成的應用性和娛樂性。它能確保面部特征的解耦空間獨立操作,互不干擾;并保持與不同模態輸入共享。EDTalk可以根據視頻或音頻輸入,對嘴形、頭部姿勢和情感表達進行單獨操作。具體來說,該框架采用三個輕量級模塊將面部動態分解為三個不同的潛在空間,分別代表嘴型、姿勢和表情。每個空間都有一組可學習的基,這些基的線性組合定義了特定的動作。
為了確保獨立性并加快訓練速,該團隊強制執行了基數之間的正交性,并設計了一種高效的訓練策略,在不依賴外部知識的情況下給每個空間賦予其特定的運動方向。隨后將學習到的基存儲在相應的庫中,從而實現與音頻輸入共享視覺先驗。此外,考慮到每個空間的特性,該團隊提出了音頻到動作模塊,用于音頻驅動的對話人臉合成。

12月30日晚7點,智猩猩邀請到論文一作、上海交通大學計算機系在讀博士譚帥參與「智猩猩AI新青年講座」第262講,主講《高效解耦的可控對話人臉生成》。
講者
譚帥,上海交通大學計算機系在讀博士
主要研究方向是數字人驅動/Talking head generation/face animation,共發表論文11篇,其中以第一作者身份發表CVPR/ICCV/ECCV/AAAI/MICCAI等會議共6篇。
第 262 講
主 題
《高效解耦的可控對話人臉生成》
提 綱
1、對話人臉生成技術當前存在的不足
2、高效解耦用于可控對話人臉生成的框架EDTalk
3、分解嘴型-姿勢和表情的解耦策略
4、用于生成音頻驅動對話人臉的音頻動作模塊
5、其他相關工作介紹
直 播 信 息
直播時間:12月30日19:00
成果
論文成果1
標題:
《EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis》
鏈接:
//arxiv.org/abs/2403.06363
項目地址:
//tanshuai0219.github.io/EDTalk/
收錄情況:ECCV 2024 Oral
論文成果2
標題:
《EMMN: Emotional Motion Memory Network for Audio-driven Emotional Talking Face Generation》
鏈接:
//ieeexplore.ieee.org/document/10378627
收錄情況:ICCV 2023 (CCF-A)
論文成果3
標題:
《Say anything with any style》
鏈接:
//arxiv.org/abs/2403.06363
收錄情況:AAAI 2024 (CCF-A)
論文成果4
標題:
《Style2talker: High-resolution talking head generation with emotion style and art style》
鏈接:
//arxiv.org/abs/2403.06365
收錄情況:AAAI 2024 (CCF-A)
論文成果5
標題:
《FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization》
鏈接:
//arxiv.org/abs/2403.06363
收錄情況:AAAI 2024 (CCF-A)
入群申請
有講座直播觀看需求的朋友,可以添加小助手“米婭”進行報名。已添加過“米婭”的老朋友,可以給“米婭”私信,發送“ANY262”進行報名。對于通過報名的朋友,之后將邀請入群進行觀看和交流。
