智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣
智東西3月4日消息,今天,大模型獨角獸智譜發布首個支持生成漢字的開源文生圖模型——CogView4。
該模型有60億參數,支持原生中文輸入和中文文本到圖像生成。其主要更新在于,CogView4可以理解中英文雙語提示詞,且將中英文字符融入圖像之中,并支持上百字復雜提示詞輸入。
與CogView3-Plus-3B相比,CogView4的提示詞長度上限從224 Tokens增加到了1024 Tokens。

CogView4在文生圖基準測試DPG-Bench中綜合評分排名第一。
目前,CogView4-6B-0304版本已經開源,將于3月13日上線智譜清言(chatglm.cn)。
這也是是首個遵循Apache 2.0協議的圖像生成模型,后續智譜會陸續增加ControlNet、ComfyUI等生態支持,并即將推出全套的微調工具包。

GitHub地址:
//github.com/THUDM/CogView4/blob/main/README_zh.md
一、中英文海報原圖直出,上百字提示詞精準理解
CogView4支持中英雙語提示詞輸入,擅長理解和遵循中文提示詞,能根據用戶需求將中英文字符融入生成的圖像中。
如下圖所示的“無敵炒面”海報:

還能根據圖像風格變換字體:

英文和數字也可以與畫面內容自然融合:

CogView4可以為古詩詞制作插圖,根據詩句意境描繪出對應的畫面:
如下圖的提示詞是:野徑云俱黑,江船火獨明。黑云、船、燈光、野徑,這些主要元素都呈現了出來。

此外,CogView4支持超長提示詞生成四格漫畫,或者超長且復雜的提示詞生成更為精細的畫面。
下方生成的四格漫畫其提示詞近700個字,包含漫畫的主要人物、四段劇情等。

如果用戶對畫面細節要求高,也可以通過完整的表述將畫面的每一個細節都概括到位,如:
一幅超現實微距攝影或3D數字藝術,畫面左邊是一半的蒲公英花冠。花冠的半邊超微距特寫占據了整個畫面,極致細節,種子上綴滿晶瑩剔透的水滴,如夢如幻。蒲公英的花梗細小,花冠的細絲纖細透明,每一根上都附著著微小的水珠,折射出周圍的光線,形成無數微小的光斑,營造出夢幻而精致的視覺體驗。景深效果,淡紫色背景并灰色漸變,使背景呈現出柔和的模糊漸變,增強畫面縱深感。帶有微微的冷色調光暈,使畫面更加寧靜而神秘。畫面光效極為細膩,每一顆水珠都像微型鏡頭一般,折射出世界的微觀景象,增強了精密與夢幻的氛圍。高動態范圍(HDR)光影效果,確保水滴的透明度、反射和折射層次豐富,極具視覺吸引力。

二、DPG-Bench基準測試排名第一,中文文字準確率評測超快手可圖
在文本到圖像生成的DPG-Bench基準測試中,CogView4綜合評分排名第一,在開源文生圖模型中達到SOTA。DPG-Bench主要關注模型在復雜語義對齊和指令跟隨能力方面的表現。

在Geneval基準測試中,CogView4綜合評分為0.73,排名第二。

在用于開放式世界組合式文本到圖像生成的綜合基準T2I-CompBench中,CogView4綜合評分0.7786,排名第二。

中文文字準確率評測中,其結果顯示,CogView4表現效果好于國產開源繪畫模型快手可圖。

三、擅長理解中文,支持任意分辨率
CogView4的技術優勢體現在兩個方面:
首先,支持中英雙語提示詞輸入,擅長理解和遵循中文提示詞,是首個能夠在畫面中生成漢字的開源文生圖模型。
CogView4將文本編碼器從純英文的T5 encoder換為具備雙語能力的GLM-4 encoder,并通過中英雙語圖文對進行訓練,使CogView4模型具備雙語提示詞輸入能力。
其次,該模型支持輸入任意長度提示詞,能生成范圍內任意分辨率圖像。CogView4模型實現了任意長度的文本描述(caption)和任意分辨率圖像的混合訓練范式。
圖像位置編碼CogView4采用二維旋轉位置編碼(2D RoPE)來建模圖像的位置信息,并通過內插位置編碼的方式支持不同分辨率的圖像生成任務。
擴散生成建模模型采用Flow-matching方案進行擴散生成建模,并結合參數化的線性動態噪聲規劃,以適應不同分辨率圖像的信噪比需求。
在DiT模型架構上,CogView4延續上一代的Share-param DiT架構,并為文本和圖像模態分別設計獨立的自適應LayerNorm層,以實現模態間的高效適配。
CogView4采用多階段訓練策略,包括基礎分辨率訓練、泛分辨率訓練、高質量數據微調以及人類偏好對齊訓練。這種分階段訓練方式不僅覆蓋了廣泛的圖像分布,還確保生成的圖像具有高美感并符合人類偏好。
訓練框架優化,從文本角度CogView4突破了傳統固定Token長度的限制,允許更高的Token上限,并顯著減少了訓練過程中的文本Token冗余。
當訓練caption的平均長度在200-300 Token時,與固定512 Tokens的傳統方案相比,CogView4減少了約50%的Tokens冗余,并在模型遞進訓練階段實現了5%-30%的效率提升。
結語:智譜開源年啟動,全面擁抱AI普惠
此前,智譜預告2025年將是其開源年,要陸續開源基礎模型、推理模型、多模態模型、Agent模型等,并將這些模型全部開放源代碼,CogView4正是這一系列的第一個開源模型。
這也是近日智譜完成一筆超10億元戰略融資以來,其最新動向。智譜GLM系列大模型已在金融、醫療、教育等多個行業得到廣泛應用。智譜從2019年成立就定下了實現AGI的愿景,并擁抱開源,致力于AI普惠。