智東西AI前瞻(公眾號:zhidxcomAI)
作者|江宇
編輯|漠影
智東西AI前瞻9月9日報道,今日,字節跳動Seed團隊正式發布新一代圖像創作模型Seedream 4.0(即夢圖片4.0模型)。
作為該系列迭代以來的一次整合升級,Seedream 4.0在一套模型架構中集成了文生圖、圖像編輯、草圖控圖、風格遷移等多種能力,并支持最高4K分辨率圖像生成,現(xian)已(yi)接入即(ji)夢、豆包等平臺。
這一版(ban)本的發布(bu),恰逢Google圖(tu)(tu)像生成(cheng)模(mo)型Nano Banana(Gemini 2.5 Flash Image)在社交媒(mei)體刷屏走紅(hong)之際。相(xiang)比之下,Seedream 4.0也帶來了完整的多模(mo)態創作(zuo)能力(li),不僅支持自定義圖(tu)(tu)像比例、多圖(tu)(tu)融合與復雜結構推理,在中文文字生成(cheng)、圖(tu)(tu)像清晰度與任務一致(zhi)性等(deng)關鍵能力(li)上,具備鮮明優勢(shi)。
在(zai)Seed團隊構建的評測(ce)體系中,Seedream 4.0在(zai)文生圖與圖像編輯兩項(xiang)任(ren)務的綜合Elo評分,已超越Nano Banana(Gemini 2.5 Flash Image)。
智東西先試了試用它給(gei)VOGUE二十(shi)周年群像封(feng)面(mian)改風格。在(zai)豆包(bao)對(dui)話頁面(mian)點擊“豆包(bao)P圖(tu)”,上(shang)傳照(zhao)片,默認模型便是即(ji)夢4.0,輸入文(wen)字描述,等(deng)待(dai)近30秒(miao),豆包(bao)就能一次(ci)性生(sheng)成2張符合描述的圖(tu)片。
我們讓(rang)它生成(cheng)了復古港風(feng)(feng)、未來賽博朋克、洛可可宮廷(ting)風(feng)(feng)、Y2K千禧辣妹風(feng)(feng)、極(ji)簡(jian)現代(dai)攝(she)影風(feng)(feng)和(he)古風(feng)(feng)等風(feng)(feng)格。從生圖效(xiao)果來看,模型在整(zheng)體風(feng)(feng)格還(huan)原上表現較(jiao)好,無論是背(bei)景氛(fen)圍(wei)、光影色調,還(huan)是人(ren)物(wu)造(zao)型,都能做到(dao)較(jiao)統(tong)一的風(feng)(feng)格轉換,不足之處是人(ren)臉五官特征出(chu)現變形,人(ren)名欄也變模糊。

▲豆包修(xiu)改的VOGUE二十周年群像(xiang)封面 ()
在初步體驗的(de)(de)基礎(chu)上(shang),智東西進(jin)一步參(can)考Seedream 4.0官方提出的(de)(de)八(ba)類基礎(chu)能(neng)力場景(jing),設計了一組Prompt,并將同一任務同步交由Nano Banana執行,圍繞精準(zhun)編(bian)輯、控圖(tu)生(sheng)成、手(shou)辦建模、多圖(tu)輸出、中文排版等(deng)維度,觀察(cha)兩款模型在生(sheng)成效果上(shang)的(de)(de)差異。
一、八種玩法實測,Seedream 4.0和Nano Banana短兵相接
Seed團隊(dui)給出了Seedream 4.0的(de)八類基礎玩法(fa),官方將其歸納(na)為(wei):精準編輯、靈活參(can)考、控圖生(sheng)成、上下文(wen)推理(li)、多圖融合(he)、多圖輸出、文(wen)字渲染和自適(shi)應畫(hua)布(bu)。
智東(dong)西圍繞每類(lei)能力(li),設置了實戰Prompt,并同(tong)(tong)步用Nano Banana跑同(tong)(tong)一任(ren)務(wu),來看(kan)誰(shui)的生成更(geng)穩定(ding)、畫面更(geng)自然、任(ren)務(wu)理(li)解(jie)力(li)更(geng)強。
以下(xia)體驗(yan)均為真實測試結果,歡迎讀(du)者復制指(zhi)令自行復現(xian)。
1、中文寫實圖生成+精準編輯(Precise Editing)
Prompt:一個亞洲面(mian)孔女(nv)孩坐在江邊(bian)(bian)看書,身邊(bian)(bian)放著(zhu)咖(ka)啡和(he)一本筆記本,黃(huang)昏(hun)時分水(shui)面(mian)反光,構(gou)圖為3:2橫圖,風格為寫實攝(she)影。
補充指令1:發色(se)為粉色(se)。
補充指令(ling)2:背(bei)景為圖書(shu)館(guan)。

▲Seedream 4.0

▲Nano Banana
補充指(zhi)令1:發色(se)(se)為粉色(se)(se)。

▲Seedream 4.0

▲Nano Banana
補充指令2:背景為圖書館。

▲Seedream 4.0

▲Nano Banana
這組圖最能(neng)拉開“寫實能(neng)力”的差(cha)距。Seedream 4.0對補充(chong)指令的理解(jie)更(geng)精準,效果也更(geng)自然。不僅(jin)發(fa)色和波光粼粼的這類(lei)細節更(geng)為寫實,場景(jing)切(qie)換到(dao)圖書館后,依舊能(neng)維持整體(ti)畫(hua)面(mian)協調。
而Nano Banana在(zai)補充“背(bei)景為(wei)圖書(shu)館”的指令后,畫面中的人(ren)物姿態上就略顯僵硬。
2、多圖參考生成(Multi-Image Reference Generation)
Prompt:請將參考圖(tu)中的衣服(fu)、鞋子和(he)配飾整體換到模特(te)身上,確保服(fu)裝貼合身形(xing),面(mian)部特(te)征和(he)姿勢保持一致,生成圖(tu)像(xiang)風格與(yu)參考圖(tu)一致。

▲參考圖

▲Seedream 4.0

▲Nano Banana
這組體(ti)驗中,Seedream 4.0的(de)表現(xian)略遜。雖然衣(yi)物與(yu)姿態(tai)基本對(dui)得上,但服(fu)飾(shi)的(de)款式并未(wei)(wei)完全(quan)復(fu)刻(ke)。在圖像理解上,未(wei)(wei)能(neng)準確(que)識別參考圖上衣(yi)服(fu)的(de)褶皺。
反觀Nano Banana的效(xiao)果(guo)更自然(ran)流暢,整體穿搭更“貼身”。
3、 草圖控圖/視覺信號可控生成(Visual Signal Controllable Generation)
Prompt 1:根據上(shang)傳的手繪草圖(tu)生成現代極簡風(feng)格客廳實(shi)景圖(tu),保留草圖(tu)中(zhong)家(jia)具位(wei)置,房間挑高,光線明亮。

▲參考圖

▲Seedream 4.0

▲Nano Banana
Prompt 2:為一(yi)(yi)張包含(han)兩個人物(wu)的動作線(xian)稿進行上色(se),動作姿勢與線(xian)稿圖(tu)保持完全一(yi)(yi)致(zhi),人物(wu)比例和細(xi)節需嚴格遵循參考圖(tu)。

▲參考圖

▲Seedream 4.0

▲Nano Banana
這一類任務(wu)中,Seedream 4.0展現出了更(geng)強的一致性,動作還原幾乎“絲(si)滑貼線”。Nano Banana的優勢則在人物細節與(yu)氛圍感,但在貼合線稿的控制上略有(you)波動。
4、手辦生成/靈活參考(Flexible Reference)
Prompt:繪制(zhi)圖中角色的(de)1/7比例商(shang)業化手(shou)辦,寫實(shi)風格,場景設(she)定為電(dian)腦桌(zhuo),亞克力底座,旁(pang)邊有印有原畫的(de)包裝盒和ZBrush建模(mo)畫面。

▲Seedream 4.0

▲Nano Banana
這(zhe)類任務曾是Nano Banana走紅(hong)社(she)媒的“代表作”,這(zhe)次Seedream 4.0也(ye)做得頗為出色,手辦質感真實,周邊元(yuan)素豐富,構圖也(ye)更完整。
5、多圖輸出(Multi-Image Output)
Prompt:參考這個LOGO,做(zuo)一套戶外運動品牌(pai)視(shi)覺設計,品牌(pai)名(ming)稱為“GREEN”,包(bao)(bao)括包(bao)(bao)裝袋、帽子、卡片、手環、紙盒、掛繩等,綠色(se)為主色(se)調,簡(jian)約現代(dai)風。

▲參考圖

▲Seedream 4.0

▲Nano Banana
這類多圖輸(shu)出任務,是(shi)考驗模型細(xi)節、統一性與輸(shu)出清晰度(du)的硬仗。Nano Banana生成結果清新可愛(ai),但(dan)有些空泛。而Seedream 4.0能保持多圖風格一致,外加高清晰度(du),也(ye)更適合商(shang)業(ye)展示(shi)。
6、高級文字渲染與排版(Advanced Text Rendering)
Prompt 1:生(sheng)成一(yi)張中文海報,主標題(ti)為(wei)“城(cheng)市(shi)綠色(se)出(chu)行(xing)倡議(yi)”,副標題(ti)為(wei)“打造未(wei)來(lai)低碳生(sheng)活方式”,底部有二維碼和品牌LOGO。

▲Seedream 4.0

▲Nano Banana
Prompt 2:生成(cheng)送貨機器(qi)人(ren)的(de)手繪草圖,含(han)文字(zi)、公式、表格、統計圖等元素。

▲Seedream 4.0

▲Nano Banana
在(zai)中(zhong)文字(zi)處理這一項,Seedream 4.0是“降維打(da)擊”。文本清(qing)晰度(du)、字(zi)形(xing)規整性與位置(zhi)排布都表(biao)現穩定,有“直接交付”的潛力。
而(er)Nano Banana則依(yi)舊存在“中文混(hun)亂(luan)”的老問題。
7、上下文推理生成(In-Context Reasoning Generation)
Prompt:時間從中(zhong)午12點過去11小時15分鐘,房間光線變暗,鬧鐘時間應同(tong)步變化(hua)。

▲Seedream 4.0

▲Nano Banana
Seedream 4.0不僅調暗了室內光(guang)線,窗外景(jing)色也(ye)配(pei)合“入夜”,連鬧鐘顯(xian)示時間也(ye)匹配(pei)。而Nano Banana雖然場景(jing)變(bian)暗,但(dan)窗外還是大(da)白天,可見“推理”這一步還沒跟上。
8、自適應比例與4K生成(Adaptive Aspect Ratio & 4K Generation)
Prompt:生成一張16:9橫版構圖(tu)的(de)城市(shi)夜景俯瞰(kan)圖(tu),建筑(zhu)燈(deng)光(guang)清晰(xi),要求圖(tu)像分(fen)辨(bian)率為4K。

▲Seedream 4.0

▲Nano Banana
Seedream 4.0一鍵輸(shu)出(chu)4K高分圖(tu)(tu),比例、光影(ying)、清晰(xi)度(du)都達標。Nano Banana則提(ti)示“當(dang)前(qian)不支持生成4K圖(tu)(tu)像”,盡(jin)管(guan)構圖(tu)(tu)不錯,但解(jie)析度(du)還是有(you)局限。
二、一套模型通吃文生圖與編輯,推理速度提升10倍
Seedream 4.0在架(jia)構設計(ji)上完成了(le)一(yi)次(ci)整合式升級,將前(qian)代文生圖模型(xing)Seedream 3.0與圖像編(bian)輯(ji)模型(xing)SeedEdit 3.0融合為一(yi)套統(tong)一(yi)模型(xing)架(jia)構。
核心創新包括:
1、DiT架構+高壓縮比VAE:構建了一個高效率的擴散Transformer模型,訓練與推理速度提升10倍;
2、VLM模塊加持:引入SeedVLM模塊,強化對圖像語義、世界知識的理解,增強多模態上下文推理能力;
3、聯合訓練機制:通(tong)過CT、SFT、RLHF三階段(duan)全鏈路訓(xun)練,將生成與編輯(ji)任務進行融合優化,在圖像(xiang)結構(gou)還(huan)原度、風格一致性、文(wen)字理解力上表現(xian)更佳;
4、大規模多模態數據鏈路:結合(he)視頻抽幀、HTML內容檢索、專家模型合(he)成等(deng)方式(shi),構建出大規模高質量訓(xun)練(lian)數據集;
5、推理效率優化:引入對抗蒸餾、分布匹配、推測解碼等機制,在保持質量的同時大幅減少生成耗時,2K圖像可秒級完成生成。
在保持(chi)生成(cheng)質(zhi)量穩定的同時(shi),Seedream 4.0還(huan)提供了(le)圖像尺寸、畫(hua)面(mian)比(bi)例(li)、風格控制等細致參數設(she)置,并原生集成(cheng)了(le)草圖、Canny、Depth、Mask等控圖通(tong)道,無需額外模型(xing)支(zhi)持(chi)。
三、評測成績:圖像編輯任務Elo評分超Nano Banana,文生圖能力穩中有短板
根據Seed團隊在MagicBench評測基準上的結果,Seedream 4.0在圖像編輯任務(Single-Image Editing Evaluation)中整體表現較為均衡,綜合評分(Overall Elo)略高于模型Nano Banana(Gemini 2.5 Flash Image)。在“文(wen)字渲(xuan)染(Text Rendering)”、“人工(gong)評價得(de)分(DreamEval, bo4/avg)”等維度表現突(tu)出,特別是在中文(wen)內容處理上具備明顯優勢。

▲圖片編輯任務綜合評測
在“指令(ling)對齊(Alignment)”方面,Seedream 4.0與模型Nano Banana(Gemini 2.5 Flash Image)處于(yu)同一(yi)水平,略低于(yu)GPT-Image-1;而在“一(yi)致性(xing)(Consistency)”和(he)“結(jie)構還原(yuan)(Structure)”上,相比模型Nano Banana(Gemini 2.5 Flash Image)略有不(bu)足,但(dan)整體(ti)差距(ju)不(bu)大。

▲文生圖任務綜合評測
在文生圖任務(Text-to-Image Evaluation)中,Seedream 4.0在“美學表現(Aesthetics)”維度得分相對較高;但在“結構還原(Structure)”、“文字渲染(Text Rendering)”、“語義對齊(Alignment)”和“錯誤糾正(Correction)”等指標上,相比GPT-Image-1略遜一籌,整體評分略低于后者,比模型Nano Banana(Gemini 2.5 Flash Image)整體能力突出。
整體來看(kan),Seedream 4.0在圖像編(bian)輯場景(jing)中具備較強(qiang)能(neng)(neng)力,而在自由生(sheng)(sheng)(sheng)成(cheng)類的(de)文生(sheng)(sheng)(sheng)圖場景(jing)中,其基礎(chu)能(neng)(neng)力穩(wen)定(ding),仍有部分生(sheng)(sheng)(sheng)成(cheng)一致性和對(dui)抗(kang)復雜場景(jing)的(de)提升空(kong)間(jian)。
結語:一個更實用、更本地化的國產圖像模型
通過一輪多(duo)維度的實際體驗與(yu)評測(ce)對比(bi)可以看(kan)出,Seedream 4.0在(zai)圖像生(sheng)成能力(li)上的表現更加成熟,特別是在(zai)中文場景下具備(bei)明顯(xian)優勢。
它為用戶提供了更高的控制(zhi)自由度(du),也具(ju)備支持商業、設(she)計、教育等專業場景的基礎能力。在國產圖像模型(xing)不斷演進(jin)的過程中,Seedream 4.0或許已代表了當前圖像生(sheng)成領域的一個穩(wen)定階(jie)段成果。