智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 心緣

那些畫風“油膩”的AI生圖,終于有救了?

智東西9月16日報道,騰訊近期開源勢頭太猛了,最新發布的圖像模型算法SRPO登上Hugging Face趨勢榜首,并在趨勢榜前3占2。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

目前Hugging Face模型趨勢榜前6中,有5個均來自國內企業,被騰訊、百度、阿里包攬

SRPO由騰訊混元生圖團隊聯合香港中文大學(深圳)、清華大學聯合開發,9月13日開源,已發布完整訓練代碼及技巧,社區量化版本下載量達1.6萬次,Github Star數量超過600。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

SRPO的全稱是Semantic Relative Preference Optimization(語義相對偏好優化),旨在解決當前開源社區中熱門AI生圖模型Flux生成人像時皮膚質感差、過于油膩的問題。

通過在線調整獎勵偏好、優化早期生成軌跡手段,SRPO可改善圖像生成效果,將模型圖片的真實度、美學優秀率的人類評估提升超300%。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

▲Flux與SRPO生成效果對比

在取得更好效果的同時,SRPO大幅提升了訓練效率,在32卡設置下,僅需10分鐘(5.3GPU卡時)就可以完成訓練,效率相比DanceGRPO提升了75倍。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

開發者可在ComfyUI中使用SRPO,僅需將下圖導入ComfyUI即可獲取完整工作流,或者直接加載SRPO-workflow的JSON文件。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

目前,SRPO已被上傳至Hugging Face、Github等開源托管平臺,相關技術報告已發布。

論文鏈接:

//arxiv.org/abs/2509.06942

項目主頁:

//tencent.github.io/srpo-project-page/

GitHub:

//github.com/Tencent-Hunyuan/SRPO

Hugging Face:

//huggingface.co/tencent/SRPO

開源社區還在其基礎上制作了多個量化版本。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

量化版本鏈接:

一、引入新型采樣策略,給去噪提供“標準答案”

在SRPO中,研究團隊引入了一種用于擴散微調的新型采樣策略Direct-Align,可以有效地恢復高度噪聲的圖像,從而使優化過程更加穩定且計算要求更低,尤其是在初始時間步驟中。

當前主流的方法主要依賴多步采樣器(如DDIM)結合直接梯度反傳來將生成過程與獎勵偏好對齊,計算成本高且容易出現梯度爆炸和優化不穩定。因此,現有方法通常只能優化生成軌跡的后半段。

這種“僅優化后半段”的策略極易導致獎勵模型在高頻信息上的過擬合問題。實驗結果表明,模型會逐漸學會“鉆獎勵模型的空子”——具體表現為:HPSv2獎勵模型會偏好偏紅色調的圖像,PickScore傾向于紫色圖像,而ImageReward則容易對過曝區域給出過高評分。

SRPO的研究團隊發現,解決采樣瓶頸的秘密就在于擴散模型的前向公式:中間圖像是噪聲和干凈圖像的插值。這一發現表明只要掌握噪聲先驗的參考信息,就可以通過精確插值重建擴散軌跡上的任意中間狀態。

基于這一理論發現,該團隊創新性地提出了Direct-Align方法:首先對輸入圖像進行可控的噪聲注入,隨后通過單步模型推理,最后借助預先注入的噪聲作為“參考錨點”進行圖像重建。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

這種帶有“標準答案”的去噪方式,相比ReFL等直接依賴模型預測的傳統方法,顯著降低了重建誤差,實現了更精準的獎勵信號傳導。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

二、有效避免獎勵破解,給模型加上“語義方向盤”

SRPO的研究團隊改進了直接利用獎勵信號進行反向傳播的方法(例如ReFL和DRaFT)的訓練策略,并直接使用負獎勵對模型進行正則化,無需KL散度或單獨的獎勵系統。同時,該團隊還首次在模型中加入了動態可控的文本條件,能夠在獎勵模型范圍內動態調整對風格的獎勵偏好。

上述調整的原因是,文生圖的在線強化學習方法(如ReFL、DRaFT)通過直接采樣圖片并反傳可微獎勵梯度,訓練效率高,但高度依賴預訓練獎勵模型,這些模型難以滿足多樣化、高質量的后訓練需求。

例如,用舊獎勵模型優化新架構(如SD3、Flux)或提升特定美學維度時,效果有限。傳統做法需大量離線優化、微調獎勵模型或手工設計復合獎勵函數,耗時且難以快速應對新需求。

SRPO的研究團隊發現,當前主流的圖像-文本雙分支獎勵模型,可以視為以文本分支的輸出為模型參數關于圖片特征的函數。這樣一來,通過調整文本分支的語義特征,就能有效引導整個獎勵模型的偏好方向。

基于此,SRPO的研究團隊性提出了“語義引導偏好”機制,通過為獎勵模型添加特定的控制提示詞(如“真實感”)來定向調整其優化目標。實驗結果顯示,某些精心設計的控制詞能夠增強獎勵模型在真實感等特定維度的優化能力。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

然而,研究團隊進一步發現,單純的語義引導仍存在獎勵破解(reward hacking)的風險,而獎勵偏差主要源自圖像分支(因為文本分支不參與梯度反傳)。

針對這一問題,團隊提出了創新的“語義相對偏好優化”策略:同時使用正向詞和負向詞作為引導信號,通過負向梯度有效中和獎勵模型的一般性偏差,同時保留語義差異中的特定偏好。

在具體實現上,為了平衡訓練效率和負向詞強度,團隊采用了加權獎勵公式的設計,其實現機制類似于無分類器引導(classifier-free guidance)。

實驗結果顯示,SRPO顯著增強獎勵模型在真實度等特定維度的優化能力。這一突破性方法為長期受困于高質量數據獲取難題的研究者,提供了一條更加直接高效的優化路徑,有望顯著降低模型優化的門檻和成本。

三、美學優秀率、真實度提升超300%,未出現明顯獎勵破解

SRPO的研究團隊在HPDv2基準測試上對方法進行了評估。HPDv2是一個文生圖領域廣泛使用的基準,用來衡量模型生成圖像的質量,特別是與人類偏好(human preferences)對齊的程度。

在測試中,Direct-Align方法在Aesthetic predictor v2.5(AE)、PickScore等主流評測指標上均已達到SOTA水平,而結合SRPO后,在AE和PickScore等關鍵指標上更是取得明顯提升。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

在人類評估方面,與Direct-Align等直接優化獎勵偏好的方法不同,SRPO不會因獎勵破解而犧牲真實感,能夠在不依賴額外訓練數據的情況下,將模型的美學優秀率從8.2%提升至38.9%,提升幅度超過300%,圖像感知真實度提升同樣超過300%

用SRPO增強后的FLUX.1.dev超過了最新的開源模型FLUX.1.krea,僅需不到1500張圖像即可實現有效訓練。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

更為關鍵的是,SRPO未出現明顯的獎勵破解現象,驗證了Direct-Align的設計能夠有效去除獎勵偏差,模型真實感顯著提升。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

在主流獎勵模型上,SRPO也未出現偏色等獎勵破解問題。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

SRPO具備細粒度的人類偏好優化能力,通過引入控制詞能夠顯著提升在常見風格(如亮度調整、漫畫、概念藝術)上的可控性,但在低頻風格(如賽博朋克)中則受到獎勵模型識別能力的限制。

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

最后,研究還發現Direct-Align具備類似監督微調的擬合特性,當結合真實照片作為離線數據時,SRPO能進一步增強圖像真實感。

結語:系統提升擴散模型真實感,可控性與可解釋性將成優化方向

與單純的數據擬合方法不同,SRPO同時整合了人類偏好信號與強化學習優化。SRPO研究團隊認為,這是首個大規模擴散模型中系統性提升真實感的完整方法。

不過,SRPO在可控性和可解釋性上仍存在一定局限。該團隊計劃通過更系統的控制策略、可學習的控制詞以及針對控制信號優化的視覺語言模型獎勵來提升方法的可控性與泛化能力。