「AI新青年講座」由智東西公開課出品,致力于邀請青年學者,主講他們在生成式AI、LLM、計算機視覺、機器學習等人工智能領域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。
「AI新青年講座」目前已完結222講;有興趣分享學術成果的朋友,可以與智東西公開課教研團隊進行郵件(class@jmfly.net)聯系。
對圖片靈活而精準的編輯是一個富有挑戰性的課題,近期也出現了許多優秀的成果。如 DragGAN 提出了一個優雅的圖片編輯框架:基于關鍵點拖拽的圖片編輯,可以在圖像上通過「拖曳」的方式,改變并合成自己想要的圖像。比如讓一只貓轉頭、睜眼閉眼,或者豎起耳朵等等。
盡管 DragGAN 已經展示出了極為驚艷的結果,但受限于 GAN 的表達能力,其可用范圍與場景受到了極大的約束。為嘗試解決這一問題,來自新加坡國立大學和字節跳動的幾位研究者,在 CVPR 2023 提出了 一個名為 DragDiffusion 的算法,將“ Drag ”編輯拓展到擴散模型上。借助大規模預訓練的擴散模型,大大提高了這種拖拽編輯框架的實用性,使之能夠在多物體、廣泛類別、不同風格等復雜真實場景得以運用。
8月28日晚7點,「AI新青年講座」第223講邀請到 DragDiffusion 一作、新加坡國立大學在讀博士施宇鈞參與,主講《DragDiffusion:基于擴散模型的關鍵點拖拽圖片編輯》。
講者
施宇鈞,新加坡國立大學在讀博士;指導老師為陳延福(Vincent Y. F. Tan)教授;目前的科研方向集中于生成式模型及其在圖片與視頻中的應用;工作成果發表于ICLR、CVPR、NeurIPS、ICCV等機器學習與計算機視覺頂會。
第223講
主 題
《DragDiffusion:基于擴散模型的關鍵點拖拽圖片編輯》
提 綱
1、關鍵點拖拽的圖片編輯框架 DragGAN 及局限性
2、基于擴散模型的圖片編輯算法 DragDiffusion
3、LoRA 微調及精確的拖拽編輯
4、操作演示
直 播 信 息
直播時間:8月28日19:00
直播地點:智東西公開課知識店鋪
成果
論文標題:《DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing》
?論文地址://arxiv.org/abs/2306.14435
?開源代碼://github.com/Yujun-Shi/DragDiffusion