近年來,生成式人工智能技術的迅猛發展使得高質量的短時舞蹈生成成為可能。然而,實際應用中的舞蹈表演通常遠超這一時長,社交舞一般持續3至5分鐘,舞蹈劇甚至可能長達15分鐘以上。這使得現有的舞蹈生成方法在處理長序列舞蹈時面臨諸多挑戰,特別是在生成高質量的長序列舞蹈動作方面,現有技術尚難滿足實際需求。因此,如何在保證動作細節的同時,捕捉舞蹈的全局結構并生成流暢且富有表現力的長時序列舞蹈,成為一個待解決的核心問題。

針對上述問題,清華大學在讀博士李镕輝提出了Lodge,一個能夠在給定音樂條件下生成極長舞蹈序列的網絡。Lodge采用了兩階段粗到細的擴散架構,并引入了一種具有顯著表現力的特征舞蹈原語,作為連接兩個擴散模型的中間表示。這一設計有效平衡了全局編舞模式與局部動作的質量和表現力,使得極長的舞蹈序列生成得以并行化完成。論文已收錄于CVPR 2024

音樂驅動長序列舞蹈生成新突破!清華大學提出Lodge,解決短時難題 | 一作李镕輝博士主講預告

Lodge通過兩階段擴散實現長舞蹈序列生成。全局擴散階段利用Transformer網絡從音樂中提取節奏和結構信息,生成稀疏的特征舞蹈原語(8幀關鍵動作),捕捉音樂與舞蹈的全局編排模式。這些原語表達性強、語義豐富,為局部擴散提供了關鍵指導。在局部擴散階段,框架以舞蹈原語為引導,并行生成細節豐富的短舞蹈片段,確保片段的連續性與表現力。其中,硬提示原語用于片段連接,軟提示原語提升動作質量與多樣性,最終生成兼具全局編排和局部細節的高質量長舞蹈序列。

音樂驅動長序列舞蹈生成新突破!清華大學提出Lodge,解決短時難題 | 一作李镕輝博士主講預告

與此同時,Lodge在FineDance和AIST++數據集上進行實驗,其中FineDance以152.3秒的平均每段舞蹈時長遠高于AIST++的13.3秒,因此成為主要的訓練和測試數據集。實驗結果表明,Lodge在用戶研究和標準指標的廣泛評估中取得了最先進結果。生成樣本表明,Lodge能夠并行生成符合編舞規則的舞蹈,同時保持局部細節和物理真實感。由于Lodge的并行生成架構,即使生成更長的舞蹈序列,推理時間也不會顯著增大。

音樂驅動長序列舞蹈生成新突破!清華大學提出Lodge,解決短時難題 | 一作李镕輝博士主講預告
音樂驅動長序列舞蹈生成新突破!清華大學提出Lodge,解決短時難題 | 一作李镕輝博士主講預告

12月17日19點,智猩猩邀請到論文一作、清華大學在讀博士李镕輝參與「智猩猩AI新青年講座」257講,主講《音樂驅動的高質量長序列舞蹈生成》。

講者

李镕輝

清華大學在讀博士生

師從李秀教授,目前清華大學博士三年級在讀。研究方向包括人體動作建模與生成,AI編舞,數字人交互,AIGC等。在CVPR、ICCV、NeurIPS、AAAI等會議及期刊上發表多篇論文。個人主頁://li-ronghui.github.io/。

第257講

主 題
音樂驅動的高質量長序列舞蹈生成
提 綱
1.音樂驅動舞蹈生成背景介紹
2.高質量細粒度的全身舞蹈動作生成
3.高效生成極長舞蹈序列
4.實驗效果展示

直 播 信 息

直播時間:12月17日19:00

成果

論文標題
《Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives》
論文鏈接
//arxiv.org/pdf/2403.10518
項目網站
//li-ronghui.github.io/lodge

報名方式

對本次講座感興趣朋友,可以掃描下方二維碼,添加小助手米婭進行報名。已添加過米婭的老朋友,可以給米婭私信,發送“ANY257”即可報名。

我們會為審核通過的朋友推送直播鏈接。同時,本次講座也組建了學習群,直播開始前會邀請審核通過的相關朋友入群交流。

音樂驅動長序列舞蹈生成新突破!清華大學提出Lodge,解決短時難題 | 一作李镕輝博士主講預告