智東西(公眾號:zhidxcom
作者?|?香草
編輯?|?李水青

最強開源文生圖模型一夜易主!

智東西8月2日報道,昨日晚間,開源文生圖模型霸主Stable Diffusion原班人馬,宣布推出全新的圖像生成模型FLUX.1

FLUX.1包含專業版、開發者版、快速版三種模型,其中前兩款模型擊敗SD3-Ultra等主流模型,較小規模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1 ELO分數與主流模型對比

FLUX.1在文字生成、復雜指令遵循人手生成上具備優勢。以下是其最強的專業版模型FLUX.1[pro]生成圖像示例,可以看到即使是生成大段的文字、多個人物,也沒有出現字符、人手等細節上的錯誤。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1[pro]生成圖像示例

FLUX.1現已在開源平臺Replicate上可用,以下是我用提示詞“世界上最小的黑森林蛋糕,手指大小,被黑森林的樹木包圍”,在三款模型上生成的圖像,用時分別為17.5s、12.2s、1.5s

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲三款模型生成對比

FLUX.1同時開放了API(應用程序接口),按圖像張數定價,三款模型的價格依次為每張圖片0.055美元、0.03美元、0.003美元(約合人民幣0.4元、0.22元、0.022元)。

FLUX.1背后的公司名為Black Forest Labs(黑森林實驗室),由Stable Diffusion原班人馬、多位Stability AI前研究員成立。與Stability AI類似,黑森林致力于研發優質多模態模型并開源,目前已完成3100萬美元(約合人民幣2.25億元)的種子輪融資。

黑森林還預告不久之后將發布SOTA(當前技術指標第一)視頻模型。從其放出的Demo來看,無論是流暢度、穩定性還是物理模擬都達到第一梯隊水平,該公司或許會成為視頻生成領域的一匹黑馬。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲視頻生成模型預告

三款模型試用地址:

//replicate.com/black-forest-labs/flux-pro

//replicate.com/black-forest-labs/flux-dev

//replicate.com/black-forest-labs/flux-schnell

一、擅長生成文字、人手,三種模型規模秒級生成

FLUX.1在視覺質量、圖像細節和輸出多樣性等方面性能優越,其具有三大特點:文字生成、復雜構圖、人手描繪

文字的生成在圖像、視頻生成中非常重要,許多模型容易混淆看起來相似的字母。FLUX.1可以處理重復字母的棘手單詞,例如生成一個黑森林Flux Schnell蛋糕

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲黑森林Flux Schnell蛋糕

在構圖方面,FLUX.1擅長按照圖像中事物應該位于哪里等復雜指示進行操作。例如,FLUX.1完美地演繹了這段提示詞:三個魔法巫師站在一張黃色桌子上,每個巫師都拿著一個標志。左邊,一個穿著黑色長袍的巫師拿著一個寫著“AI”的標志;中間,一個穿著紅色長袍的女巫拿著一個寫著“is”的標志;在右邊,一個穿著藍色長袍的巫師拿著一個寫著“cool”的標志。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲復雜構圖

人手一直是多模態生成模型的重災區。FLUX.1生成的人手圖像雖然還不夠完美,但實現了很大的進步。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲人手

FLUX.1共有專業版、開發者版、快速版三種版本。

其中,FLUX.1[pro]是最先進的一個版本,具有頂級的即時跟蹤、視覺質量、圖像細節和輸出多樣性,面向專業用戶提供定制的企業解決方案。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1[pro]生成圖像示例

FLUX.1[dev]面向非商業應用,它從FLUX.1[pro]提煉而來,具有相似的質量和能力,同時比相同尺寸的標準模型更高效。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1[dev]生成圖像示例

FLUX.1[schnell]是三款模型中最快的,專為本地開發和個人使用而定制,并根據Apache 2.0標準許可公開提供。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1[schnell]生成圖像示例

FLUX.1現已在開源平臺Replicate上可用,只需一行代碼即可在云端運行,用戶也可以下載模型權重并以編程方式運行。FLUX.1的API也同步開放,三款模型的價格依次為每張圖片0.055美元、0.03美元、0.003美元(約合人民幣0.4元、0.22元、0.022元)。

二、擊敗MJ V6DALL·E 3,技術報告即將發布

性能方面,FLUX.1經過特別微調,在預訓練中保留了整個輸出多樣性,在指令遵守、視覺質量、尺寸/長寬變化等多個方面樹立了新標準。

其中FLUX.1[pro]和[dev]兩款模型,在5項測評標準中都超過了Midjourney v6.0、DALL·E 3和SD3-Ultra等熱門模型。

FLUX.1[schnell]作為輕量級模型,不僅優于同類競爭對手,還優于Midjourney v6.0、DALL·E 3等強大的非蒸餾模型。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲FLUX.1性能與主流模型對比

此外,所有FLUX.1模型均支持0.1和2.0百萬像素的多種寬高比和分辨率。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲寬高比/分辨率變化

如此強大的性能是怎么做到的?

在模型架構上,FLUX.1采用基于多模態和并行擴散Transformer模塊的混合架構,并將其擴展到12B參數。

團隊通過建立流匹配(Flow Matching)來改進最先進的擴散模型,并通過結合旋轉位置嵌入(Rotary Position Embedding)和并行注意力層,來提高模型性能和硬件效率。更詳細的技術報告將在不久后發布。

三、SD原班人馬,2.25種子輪,要發SOTA視頻模型

黑森林實驗室由Stable Diffusion的創始團隊成立,該團隊此前的工作還包括高質量圖像生成模型VQGAN、視頻生成模型Stable Video Diffusion等。

Stable Diffusion最初的5位作者中,4位曾加入Stability AI并持續開發SD后續版本的成員,包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser,都在黑森林實驗室的創始團隊中。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲Stable Diffusion作者、黑森林實驗室創始團隊

該團隊稱,其核心信念是開發廣泛可訪問的模型,促進研究界和學術界的創新和協作,并提高模型透明度。

黑森林實驗室宣布已完成3100萬美元(約合人民幣2.25億元)的種子輪融資,由知名風投機構a16z(Andreessen Horowitz)領投,VR制造商Oculus的CEO Brendan Iribe、創企孵化器YC的CEO陳嘉興(Garry Tan)、英偉達研究員Timo Aila等專家及AI公司跟投,還收到了來自General Catalyst等一線基金的后續投資。

該團隊的顧問委員會,包括在內容創作行業擁有豐富經驗的前迪士尼總裁Michael Ovitz,以及神經風格轉換的先驅Matthias Bethge教授。

剛剛創業的AI大神安德烈·卡帕西(Andrej Karpathy)為黑森林團隊送上祝福,并稱“開源的FLUX.1圖像生成模型看起來非常強大”。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲卡帕西評論

創始團隊的前領導——Stability AI前CEO埃馬德·莫斯塔克(Emad Mostaque)也發來賀電,還說“之前能與他們合作是我的榮幸,我相信他們會繼續在生成每一個像素的旅程中突破界限”。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲莫斯塔克評論

在下一步的工作上,黑森林預告將發布一款SOTA文生視頻模型,“讓所有人都能將文本轉為視頻”。該模型將建立在FLUX.1的基礎上,“以高清和前所未有的速度實現精確創作和編輯”。

最強開源文生圖模型一夜易主!SD原班人馬打造,要發SOTA視頻生成模型

▲視頻生成模型預告

結語:多模態大模型領域黑馬涌現

在眾多大廠、創企狂卷文生視頻之際,文生圖領域突然迎來黑馬。“橫空出世”的FLUX.1的不僅展現出卓越的性能,在文字生成、復雜構圖、人手描繪等方面突破難關,還以多樣化的版本滿足不同用戶的需求。

黑森林實驗室憑借著Stable Diffusion原班人馬的強大實力,獲得了豐厚的種子輪融資,也吸引了眾多行業大咖的關注與支持。其后續將發布的視頻模型,又將為文生視頻領域注入新的活力。