「智猩猩AI新青年講座」由智猩猩出品,致力于邀請青年學者,主講他們在生成式AI、LLM、AI Agent、CV等人工智能領域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。

隨著擴散模型技術的引入,文本到圖像(Text-to-Image, T2I)生成技術迎來了顯著的飛躍,現有模型在該領域展現出了卓越的創造力和表現力。盡管如此,文生圖模型在使用語言顏色名稱來指定對象顏色時,由于這些標簽覆蓋的顏色范圍較廣,難以實現精確匹配,且現有的文生圖個性化方法往往會導致顏色-形狀糾纏問題。為了實現T2I任務中的精準顏色生成,來自巴塞羅那自治大學LAMP組博士后王凱提出了ColorPeel模型,首次解決了color prompt learning(顏色提示學習)問題,相關論文為《ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement》,收錄于ECCV 2024。

ECCV 2024 顏色生成新突破!首次解決文生圖擴散模型中的顏色提示學習問題 | UAB博士后王凱講座預告

ColorPeel是一種基于擴散模型的精確顏色生成方法,其核心在于通過顏色和形狀的解耦來提升T2I生成中顏色的精確度。

ColorPeel首先生成一系列基礎的2D或3D幾何形狀,并將這些形狀賦予用戶指定的RGB顏色值或顏色坐標,作為訓練數據。

擴散模型利用訓練過程中學到的顏色特征,結合用戶提供的顏色提示,生成具有精確顏色的圖像。

ColorPeel中引入一個創新的交叉注意力對齊損失函數進行模型更新,旨在通過將顏色和形狀從自動生成的目標顏色幾何物體中解耦,使得模型能夠更準確地學習顏色提示,避免顏色和形狀特征的混合問題。

在生成階段,用戶通過提供文本描述和顏色提示來指導圖像的生成。通過反向擴散過程逐步恢復出圖像的顏色和形狀信息。這個過程中,模型會不斷優化圖像,以確保其顏色、形狀以及整體風格與用戶的輸入高度一致。

ECCV 2024 顏色生成新突破!首次解決文生圖擴散模型中的顏色提示學習問題 | UAB博士后王凱講座預告

8月15日10點,智猩猩邀請到論文共同一作、巴塞羅那自治大學LAMP組博士后王凱參與「智猩猩AI新青年講座」247講,主講《文生圖擴散模型中的精確顏色生成》。

講者

王凱

巴塞羅那自治大學LAMP組博士后

在吉林大學計算機科學與技術學院分別于2014年及2017年拿到本科及碩士學位。2022年博士畢業于西班牙巴塞羅那自治大學LAMP組,導師為Joost van de Weijer,主要研究課題為持續學習,vision transformer,擴散模型以及域適應等課題。畢業后至今留組作為博后指導多名博士生進行相關領域的研究工作。
第247講主 題
文生圖擴散模型中的精確顏色生成
提 綱
1、文生圖擴散模型顏色生成存在的問題
2、基于LDM的文生圖精確顏色生成方法ColorPeel
3、解耦顏色和形狀以提升模型顏色學習能力
4、實驗結果展示與擴展應用

直播信息

直播時間:8月15日10:00
直播地點:智猩猩GenAI視頻號

成果

論文標題
《ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement》
論文鏈接
//arxiv.org/abs/2407.07197
項目網站
//moatifbutt.github.io/colorpeel/
開源代碼
//github.com/moatifbutt/color-peel

入群申請

本次講座組建了學習交流群。加入學習交流群,除了可以觀看直播,并提前拿到課件外,你還能結識更多研究人員和開發者,所提問題也將會優先解答。

希望入群的朋友可以掃描下方二維碼,添加小助手米婭進行申請。已添加過米婭的老朋友,可以給米婭私信,發送“ANY247”進行申請。

ECCV 2024 顏色生成新突破!首次解決文生圖擴散模型中的顏色提示學習問題 | UAB博士后王凱講座預告