智東西AI前瞻(公眾號:zhidxcomAI)
作者|江宇
編輯|漠影

智東西AI前瞻9月10日報道,前日,騰訊開源其高分辨率文生圖模型HunyuanImage-2.1,并同步釋出推理代碼和模型權重。

作為一款具備2K超高清生成能力的擴散模型,HunyuanImage-2.1在架構設計、文本理解、多語種支持、推理效率等多個層面進行了系統性優化。

它不僅支持中文和英文的復雜描述,還能自動潤色提示詞、提升圖像語義對齊質量,同時具備圖像精修能力。

HunyuanImage-2.1已在GitHub上線,并開放了三項核心功能:文本生成圖像、提示詞增強與圖像精修。用戶也可以自由選擇畫幅比例與推理參數,也可選用“增強提示詞”“圖像精修”等附加選項,以生成更高質量的圖像內容。

目前,混元官網僅支持文生圖功能,提示詞增強與圖像精修暫未上線。

體驗指路:

混元官網://hunyuan.tencent.com/modelSquare/home/play?modelId=286&from=/visual

Github://github.com/Tencent-Hunyuan/HunyuanImage-2.1

Huggingface://huggingface.co/tencent/HunyuanImage-2.1

一、三大功能支持2K出圖,可控性更強

在GItHub的體驗頁面中,用戶可以使用HunyuanImage-2.1完成以下三類任務:

1、文本生成圖像:輸入中英文提示詞,生成最高可達2048×2048分辨率的圖像,支持16:9、4:3、1:1等多種畫幅比例;

2、提示詞增強:自動對用戶輸入的提示詞進行語義潤色與擴寫,強化描述細節,提高成圖質量;

3、圖像精修:上傳已有圖片并輸入修改要求,由精修模型對畫面清晰度、細節層次進行再提升。

騰訊開源最新圖像模型!能生成2K圖、中文渲染,還可以自動潤色提示詞

在基礎設定中,用戶可手動調節推理步數(默認50步)、提示詞引導強度(默認3.5),并選擇是否開啟自動提示詞增強(Reprompt)與精修(Refiner)。若顯存充足,可關閉CPU offloading,提升生成速度。

騰訊開源最新圖像模型!能生成2K圖、中文渲染,還可以自動潤色提示詞

二、體驗:中文渲染在線,提示詞增強和圖片精修都能跑通

智東西也上手體驗了一番。

1、文生圖

體驗場景1:家長群里老師臨時通知“明天帶一張手抄報,主題為《中秋賞月》。

提示詞:中秋主題A4手抄報線稿,白底,粗黑描邊,畫面分三欄:左上角圓月+玉兔簡筆畫,右下角卡通嫦娥+月餅,底部留白寫古詩,中間一排空心藝術字標題“中秋團圓”,整體簡潔可愛,適合兒童涂色,無陰影、無填充色。

騰訊開源最新圖像模型!能生成2K圖、中文渲染,還可以自動潤色提示詞

混元生成的畫面干凈、布局合理,也沒有多余的渲染,直接打印后可作為涂色底稿使用,一鍵解決爸媽的“作業焦慮”。

2、提示詞增強

體驗場景2:電商公司要做“雙11預熱海報”,只會寫一句大白話:“熱鬧購物節氛圍”。

提示詞:雙11預熱海報。

增強后的提示詞:一張充滿動感的“雙11”雙十一購物狂歡日預熱海報,畫面中央聚焦于一個巨大的、發光的“11”數字。這個巨大的“1”數字由明亮的霓虹燈光效構成,呈現出從亮紅色到電光藍的漸變色彩,數字邊緣帶有柔和的光暈,具有強烈的科技感和視覺沖擊力。在“1”字的正下方,是一行醒目的白色加粗藝術字體,內容為“雙11”。數字的周圍和背景中,分布著大量被動態模糊和數據流線條勾勒出的購物小哥剪影,他們有的高舉手機,似乎在搶購,有的在瀏覽商品,姿態各異,充滿了活力。背景是一個深邃的暗色空間,點綴著微小的、閃爍的星光或數據粒子,增強了畫面的數字感。畫面的底部區域,放置了一個虛擬的購物車圖標和價格標簽的樣式,上面用醒目的紅色字體寫著“全場5折起”,并附有一個虛構但精致的電子產品或潮流服飾的特寫圖片。整體光線集中在中央的“1”字和周圍的特效上,形成強烈的視覺焦點,營造出一種緊張、刺激且極具期待感的氛圍。這張圖片是一張融合了3D渲染、抽象設計和商業攝影元素的數字藝術作品,屬于典型的電商大促宣傳海報。

騰訊開源最新圖像模型!能生成2K圖、中文渲染,還可以自動潤色提示詞

▲增強后指令所生成的海報

生成的圖像還原了增強提示詞中的元素布局,燈光、人物、數字感都有體現,整體畫面比較完整,氛圍也足夠熱鬧。

3、照片精修

體驗場景3:把“旅游打卡廢片”秒變“小紅書封面”。

提示詞:矯正水平線,恢復洪崖洞金黃燈光細節,壓高光提陰影,去掉江面彩色噪點,強化吊腳樓木質紋理,保留現場煙火氣。

騰訊開源最新圖像模型!能生成2K圖、中文渲染,還可以自動潤色提示詞

▲參考圖

騰訊開源最新圖像模型!能生成2K圖、中文渲染,還可以自動潤色提示詞

▲精修后的圖片

處理后的照片確實清晰了一些,燈光顏色恢復得比較自然,遠處樓體細節也比原圖更清楚。

三、架構亮點:壓縮VAE、雙語編碼器與人類反饋強化訓練

HunyuanImage-2.1的模型架構采用了“兩階段生成策略”,即:基礎文生圖模型+精修模型。其中,基礎模型專注于語義理解與圖像生成,精修模型則負責細節增強與瑕疵修復。

核心技術亮點包括:

1、高壓縮率VAE+DiT主干網絡:通過32×空間壓縮率的VAE,大幅降低輸入Token數量,使得生成2K圖像的Token規模與他人1K圖像相當,顯著提升推理效率。

2、雙文本編碼器:同時引入視覺語言大模型(MLLM)與多語種字符級ByT5編碼器,分別處理場景理解與文字表達,確保多語言支持下的高質量圖像生成。

3、雙流擴散Transformer結構:構建17B參數規模的大模型,在處理復雜構圖與多主體任務時具備更強表征能力。

4、人類反饋強化學習(RLHF):訓練過程中使用兩階段后訓練策略(SFT+RL),結合“高質量圖像選優樣本”與“獎勵分布對齊機制”,優化生成圖像的結構完整性與美學表現。

5、PromptEnhancer重寫模型:該模塊通過結構性重寫用戶輸入的提示詞,以增強描述信息的完整度與圖像生成的語義貼合度。其訓練過程中引入了AlignEvaluator對圖文語義一致性進行精細化評分。

其核心機制是以“思維鏈式改寫(Chain-of-Thought Rewriting)”為策略,通過兩階段訓練流程完成提示詞優化:

第一階段:通過監督微調(SFT),對海量用戶提示詞與增強后Prompt對進行結構學習;

第二階段:引入基于獎勵的策略優化(GRPO),由“AlignEvaluator”對生成圖像與提示詞之間的語義一致性進行24項細粒度評估,進而反饋回提示詞改寫策略,完成高質量回寫。

騰訊開源最新圖像模型!能生成2K圖、中文渲染,還可以自動潤色提示詞

該機制可顯著提升提示詞對復雜屬性、否定結構、組合關系的表達準確性。例如,一條簡單提示“湯姆貓在畫畫”,在PromptEnhancer處理后會被自動擴寫為“身穿紅色圍裙的湯姆貓,在寫實畫風的油畫布前,手持毛筆作畫”,從而生成更具意圖還原度的圖像。

6、Meanflow蒸餾推理:為解決工業級大模型推理速度慢的問題,HunyuanImage-2.1首次將Meanflow成功用于大模型蒸餾,在少量采樣步驟下仍可保持圖像質量,提升推理效率。

此外,在數據構建上,HunyuanImage引入了結構化分層Caption機制(短/中/長/超長)與OCR Agent+IP RAG組合策略,顯著增強了模型理解密集文本與世界知識描述的能力。

使用HunyuanImage-2.1進行本地部署時,最低需配備支持CUDA的NVIDIA GPU,顯存不少于59GB(生成2048×2048圖像時,batch size=1)。當前僅支持Linux系統。上述顯存要求基于啟用模型CPU卸載(offloading)時的測得值,若設備內存充足,也可關閉卸載以獲得更快的推理速度。

同時,騰訊團隊已確認將逐步開源PromptEnhancer-7B版本,包括更大規模的提示詞改寫模型、獎勵模型AlignEvaluator、數據集與評測基準。同時,針對圖生圖、文生視頻、圖生視頻等多模態任務的PromptEnhancer系列亦在開發中,即將推出。

四、評測對比:在開源模型中圖文一致性排名第一,逼近閉源商業模型表現

在多個維度的標準化評測中,HunyuanImage-2.1展現出強勁性能,尤其在圖文語義對齊方面已達到開源模型的領先水平,整體表現接近GPT-Image、Seedream-3.0等閉源商業模型。

根據SSAE(Structured Semantic Alignment Evaluation)結構化語義對齊評測,研究團隊基于12個類別、3500個語義關鍵點構建了自動化評估框架,分別評測了包括主主體、次主體、場景構成與圖像風格在內的24項細分能力。

從結果來看,HunyuanImage-2.1在Mean Image Accuracy(0.8888)與Global Accuracy(0.8832)指標上,超越了所有開源模型,在主客體識別、動作理解、圖像構圖等多個子維度也取得領先或持平表現:

騰訊開源最新圖像模型!能生成2K圖、中文渲染,還可以自動潤色提示詞

1、在“主主體識別”類維度中,HunyuanImage-2.1在名詞(0.9339)、關鍵屬性(0.9341)上接近Seedream-3.0;

騰訊開源最新圖像模型!能生成2K圖、中文渲染,還可以自動潤色提示詞

2、在“次主體表達”維度,其在名詞(0.9627)和動作(0.9615)上的準確率接近GPT-Image(0.9494,0.8800);

騰訊開源最新圖像模型!能生成2K圖、中文渲染,還可以自動潤色提示詞

3、在“場景控制”中,其對鏡頭(0.7527)、風格(0.8689)和構圖(0.7619)的把握能力與主流閉源模型接近。

騰訊開源最新圖像模型!能生成2K圖、中文渲染,還可以自動潤色提示詞

此外,在由100位專業標注員參與的GSB人評中,HunyuanImage-2.1在單輪推理、隨機提示詞設定下,對比Seedream-3.0(閉源)略遜1.36%,但在與Qwen-Image(開源)對比中勝出2.89%。這一結果表明,在不依賴樣本篩選的實用生成場景中,HunyuanImage-2.1已具備高可用性和廣泛適配性。

結語:高分辨率中文出圖,開源模型也能勝任了

HunyuanImage-2.1讓中文場景下的高分辨率圖像生成更易獲取,也把提示詞增強和精修做了同步精進。

作為開源成果,它或許能成為國內更多應用探索的起點。