智東西(公眾號:zhidxcom)
作者?|?香草
編輯?|?李水青
最強開源文生圖模型一夜易主!
智東西8月2日報道,昨日晚間,開源文生圖模型霸主Stable Diffusion原班人馬,宣布推出全新的圖像生成模型FLUX.1。
FLUX.1包含專業版、開發者版、快速版三種模型,其中前兩款模型擊敗SD3-Ultra等主流模型,較小規模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。

▲FLUX.1 ELO分數與主流模型對比
FLUX.1在文字生成、復雜指令遵循和人手生成上具備優勢。以下是其最強的專業版模型FLUX.1[pro]生成圖像示例,可以看到即使是生成大段的文字、多個人物,也沒有出現字符、人手等細節上的錯誤。

▲FLUX.1[pro]生成圖像示例
FLUX.1現已在開源平臺Replicate上可用,以下是我用提示詞“世界上最小的黑森林蛋糕,手指大小,被黑森林的樹木包圍”,在三款模型上生成的圖像,用時分別為17.5s、12.2s、1.5s。

▲三款模型生成對比
FLUX.1同時開放了API(應用程序接口),按圖像張數定價,三款模型的價格依次為每張圖片0.055美元、0.03美元、0.003美元(約合人民幣0.4元、0.22元、0.022元)。
FLUX.1背后的公司名為Black Forest Labs(黑森林實驗室),由Stable Diffusion原班人馬、多位Stability AI前研究員成立。與Stability AI類似,黑森林致力于研發優質多模態模型并開源,目前已完成3100萬美元(約合人民幣2.25億元)的種子輪融資。
黑森林還預告不久之后將發布SOTA(當前技術指標第一)視頻模型。從其放出的Demo來看,無論是流暢度、穩定性還是物理模擬都達到第一梯隊水平,該公司或許會成為視頻生成領域的一匹黑馬。

▲視頻生成模型預告
三款模型試用地址:
//replicate.com/black-forest-labs/flux-pro
//replicate.com/black-forest-labs/flux-dev
//replicate.com/black-forest-labs/flux-schnell
一、擅長生成文字、人手,三種模型規模秒級生成
FLUX.1在視覺質量、圖像細節和輸出多樣性等方面性能優越,其具有三大特點:文字生成、復雜構圖、人手描繪。
文字的生成在圖像、視頻生成中非常重要,許多模型容易混淆看起來相似的字母。FLUX.1可以處理重復字母的棘手單詞,例如生成一個黑森林Flux Schnell蛋糕:

▲黑森林Flux Schnell蛋糕
在構圖方面,FLUX.1擅長按照圖像中事物應該位于哪里等復雜指示進行操作。例如,FLUX.1完美地演繹了這段提示詞:三個魔法巫師站在一張黃色桌子上,每個巫師都拿著一個標志。左邊,一個穿著黑色長袍的巫師拿著一個寫著“AI”的標志;中間,一個穿著紅色長袍的女巫拿著一個寫著“is”的標志;在右邊,一個穿著藍色長袍的巫師拿著一個寫著“cool”的標志。

▲復雜構圖
人手一直是多模態生成模型的重災區。FLUX.1生成的人手圖像雖然還不夠完美,但實現了很大的進步。

▲人手
FLUX.1共有專業版、開發者版、快速版三種版本。
其中,FLUX.1[pro]是最先進的一個版本,具有頂級的即時跟蹤、視覺質量、圖像細節和輸出多樣性,面向專業用戶提供定制的企業解決方案。

▲FLUX.1[pro]生成圖像示例
FLUX.1[dev]面向非商業應用,它從FLUX.1[pro]提煉而來,具有相似的質量和能力,同時比相同尺寸的標準模型更高效。

▲FLUX.1[dev]生成圖像示例
FLUX.1[schnell]是三款模型中最快的,專為本地開發和個人使用而定制,并根據Apache 2.0標準許可公開提供。

▲FLUX.1[schnell]生成圖像示例
FLUX.1現已在開源平臺Replicate上可用,只需一行代碼即可在云端運行,用戶也可以下載模型權重并以編程方式運行。FLUX.1的API也同步開放,三款模型的價格依次為每張圖片0.055美元、0.03美元、0.003美元(約合人民幣0.4元、0.22元、0.022元)。
二、擊敗MJ V6、DALL·E 3,技術報告即將發布
性能方面,FLUX.1經過特別微調,在預訓練中保留了整個輸出多樣性,在指令遵守、視覺質量、尺寸/長寬變化等多個方面樹立了新標準。
其中FLUX.1[pro]和[dev]兩款模型,在5項測評標準中都超過了Midjourney v6.0、DALL·E 3和SD3-Ultra等熱門模型。
FLUX.1[schnell]作為輕量級模型,不僅優于同類競爭對手,還優于Midjourney v6.0、DALL·E 3等強大的非蒸餾模型。

▲FLUX.1性能與主流模型對比
此外,所有FLUX.1模型均支持0.1和2.0百萬像素的多種寬高比和分辨率。

▲寬高比/分辨率變化
如此強大的性能是怎么做到的?
在模型架構上,FLUX.1采用基于多模態和并行擴散Transformer模塊的混合架構,并將其擴展到12B參數。
團隊通過建立流匹配(Flow Matching)來改進最先進的擴散模型,并通過結合旋轉位置嵌入(Rotary Position Embedding)和并行注意力層,來提高模型性能和硬件效率。更詳細的技術報告將在不久后發布。
三、SD原班人馬,2.25億種子輪,要發SOTA視頻模型
黑森林實驗室由Stable Diffusion的創始團隊成立,該團隊此前的工作還包括高質量圖像生成模型VQGAN、視頻生成模型Stable Video Diffusion等。
Stable Diffusion最初的5位作者中,4位曾加入Stability AI并持續開發SD后續版本的成員,包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser,都在黑森林實驗室的創始團隊中。

▲Stable Diffusion作者、黑森林實驗室創始團隊
該團隊稱,其核心信念是開發廣泛可訪問的模型,促進研究界和學術界的創新和協作,并提高模型透明度。
黑森林實驗室宣布已完成3100萬美元(約合人民幣2.25億元)的種子輪融資,由知名風投機構a16z(Andreessen Horowitz)領投,VR制造商Oculus的CEO Brendan Iribe、創企孵化器YC的CEO陳嘉興(Garry Tan)、英偉達研究員Timo Aila等專家及AI公司跟投,還收到了來自General Catalyst等一線基金的后續投資。
該團隊的顧問委員會,包括在內容創作行業擁有豐富經驗的前迪士尼總裁Michael Ovitz,以及神經風格轉換的先驅Matthias Bethge教授。
剛剛創業的AI大神安德烈·卡帕西(Andrej Karpathy)為黑森林團隊送上祝福,并稱“開源的FLUX.1圖像生成模型看起來非常強大”。

▲卡帕西評論
創始團隊的前領導——Stability AI前CEO埃馬德·莫斯塔克(Emad Mostaque)也發來賀電,還說“之前能與他們合作是我的榮幸,我相信他們會繼續在生成每一個像素的旅程中突破界限”。

▲莫斯塔克評論
在下一步的工作上,黑森林預告將發布一款SOTA文生視頻模型,“讓所有人都能將文本轉為視頻”。該模型將建立在FLUX.1的基礎上,“以高清和前所未有的速度實現精確創作和編輯”。

▲視頻生成模型預告
結語:多模態大模型領域黑馬涌現
在眾多大廠、創企狂卷文生視頻之際,文生圖領域突然迎來黑馬。“橫空出世”的FLUX.1的不僅展現出卓越的性能,在文字生成、復雜構圖、人手描繪等方面突破難關,還以多樣化的版本滿足不同用戶的需求。
黑森林實驗室憑借著Stable Diffusion原班人馬的強大實力,獲得了豐厚的種子輪融資,也吸引了眾多行業大咖的關注與支持。其后續將發布的視頻模型,又將為文生視頻領域注入新的活力。