時尚圖像編輯旨在根據給定的指令修改人物的外觀。現有的方法通常需要輔助工具,如分割器和關鍵點提取器,缺乏靈活且統一的框架。此外,這些方法在能夠處理的服裝種類上也有局限性,因為大多數數據集只集中于干凈背景下的人物形象,且只包含如上衣、褲子和連衣裙等通用服飾。這使其在現實場景中的適用性受到限制。

對于以上問題,來自中國科學院自動化研究所的在讀博士牛蘊方與武漢人工智能研究院等研究人員共同擴展了一個現有的人體生成數據集,并且提出了一種基于擴散模型的時尚編輯方法AnyDesign,實現了實現了無需掩碼的服裝編輯功能。相關論文為《AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion》。

中科院自動化所王金橋教授團隊發布!利用無掩碼擴散技術實現多功能時尚編輯 | 一作牛蘊方博士講座預告

AnyDesign是一個靈活高效的時尚圖像編輯框架。用戶無需手動創建掩碼,只需輸入一張人物圖像以及相應的文本或圖像格式的提示,通過無掩碼的擴散模型,即可實現時尚圖像編輯。

首先,擴展了一個現有的人體生成數據集,以包括更廣泛的服飾種類和更復雜的背景。擴展后的數據集包含穿著多種服飾的人物形象,如上衣、褲子、連衣裙、裙子、頭飾、圍巾、鞋子、襪子和包包。

AnyDesign采用了一個兩階段的圖像訓練框架。第一階段,使用基于掩碼的擴散模型生成偽樣本。擴散模型利用未配對的文本提示或圖像提示,在原始圖像上生成相應的服裝區域掩碼、修改圖像中的服裝部分,從而生成偽樣本。第二階段,利用第一階段生成的偽樣本訓練無掩碼模型。它直接對圖像中的服裝區域進行修改,以生成符合用戶的輸入提示的高質量時尚編輯圖像。

在圖像的去噪過程中,提出Fashion DiT,通過創新的FGA(Fashion-Guidance Attention,時尚引導注意力)模塊融合明確的服飾類型和通過CLIP編碼的服飾特征,使AnyDesign能夠自動識別目標區域,指導其對圖像中的服裝區域進行精確編輯。

實驗表明,AnyDesign擁有高質量的時尚編輯效果,并且在性能上優于其他先進的文本引導時尚編輯方法。

中科院自動化所王金橋教授團隊發布!利用無掩碼擴散技術實現多功能時尚編輯 | 一作牛蘊方博士講座預告

9月29日晚7點,智猩猩邀請到論文一作、中國科學院自動化研究所在讀博士牛蘊方參與「智猩猩AI新青年講座」252講,主講《利用無掩碼擴散技術實現多功能時尚編輯》。

講者

牛蘊方

中科院自動化所在讀博士

師從王金橋研究員,參與多模態大模型“紫東太初”研制。主要研究興趣為圖像生成與編輯、人物服飾編輯、虛擬試穿等。代表工作有PFDM: Parser-Free Virtual Try-On via Diffusion Model、AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion等。

主題

利用無掩碼擴散技術實現多功能時尚編輯

提綱

1、AIGC時尚設計與人物服飾編輯研究進展與挑戰
2、針對多種類型的服飾編輯數據集擴展方法
3、基于Fashion DiT的無掩碼圖像編輯模型
4、實驗結果分析、討論與總結展望

直播信息

直播時間:9月29日19:00

成果

論文標題
 《AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion》

論文鏈接
//arxiv.org/abs/2408.11553

開源代碼
//github.com/nyf8/AnyDesign

入群方式

有講座直播觀看需求的朋友,可以添加小助手“米婭”進行報名。已添加過“米婭”的老朋友,可以給“米婭”私信,發送“ANY252”進行報名。對于通過報名的朋友,之后將邀請入群進行觀看和交流。

中科院自動化所王金橋教授團隊發布!利用無掩碼擴散技術實現多功能時尚編輯 | 一作牛蘊方博士講座預告