最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

智東西（公眾號：zhidxcom）
作者?|?香草
編輯?|?李水青

最強開源文生圖模型一夜易主！

智東西8月2日報道，昨日晚間，開源文生圖模型霸主Stable Diffusion原班人馬，宣布推出全新的圖像生成模型FLUX.1。

FLUX.1包含專業版、開發者版、快速版三種模型，其中前兩款模型擊敗SD3-Ultra等主流模型，較小規模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1 ELO分數與主流模型對比

FLUX.1在文字生成、復雜指令遵循和人手生成上具備優勢。以下是其最強的專業版模型FLUX.1[pro]生成圖像示例，可以看到即使是生成大段的文字、多個人物，也沒有出現字符、人手等細節上的錯誤。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1[pro]生成圖像示例

FLUX.1現已在開源平臺Replicate上可用，以下是我用提示詞“世界上最小的黑森林蛋糕，手指大小，被黑森林的樹木包圍”，在三款模型上生成的圖像，用時分別為17.5s、12.2s、1.5s。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲三款模型生成對比

FLUX.1同時開放了API（應用程序接口），按圖像張數定價，三款模型的價格依次為每張圖片0.055美元、0.03美元、0.003美元（約合人民幣0.4元、0.22元、0.022元）。

FLUX.1背后的公司名為Black Forest Labs（黑森林實驗室），由Stable Diffusion原班人馬、多位Stability AI前研究員成立。與Stability AI類似，黑森林致力于研發優質多模態模型并開源，目前已完成3100萬美元（約合人民幣2.25億元）的種子輪融資。

黑森林還預告不久之后將發布SOTA（當前技術指標第一）視頻模型。從其放出的Demo來看，無論是流暢度、穩定性還是物理模擬都達到第一梯隊水平，該公司或許會成為視頻生成領域的一匹黑馬。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲視頻生成模型預告

三款模型試用地址：

//replicate.com/black-forest-labs/flux-pro

//replicate.com/black-forest-labs/flux-dev

//replicate.com/black-forest-labs/flux-schnell

一、擅長生成文字、人手，三種模型規模秒級生成

FLUX.1在視覺質量、圖像細節和輸出多樣性等方面性能優越，其具有三大特點：文字生成、復雜構圖、人手描繪。

文字的生成在圖像、視頻生成中非常重要，許多模型容易混淆看起來相似的字母。FLUX.1可以處理重復字母的棘手單詞，例如生成一個黑森林Flux Schnell蛋糕：

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲黑森林Flux Schnell蛋糕

在構圖方面，FLUX.1擅長按照圖像中事物應該位于哪里等復雜指示進行操作。例如，FLUX.1完美地演繹了這段提示詞：三個魔法巫師站在一張黃色桌子上，每個巫師都拿著一個標志。左邊，一個穿著黑色長袍的巫師拿著一個寫著“AI”的標志；中間，一個穿著紅色長袍的女巫拿著一個寫著“is”的標志；在右邊，一個穿著藍色長袍的巫師拿著一個寫著“cool”的標志。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲復雜構圖

人手一直是多模態生成模型的重災區。FLUX.1生成的人手圖像雖然還不夠完美，但實現了很大的進步。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲人手

FLUX.1共有專業版、開發者版、快速版三種版本。

其中，FLUX.1[pro]是最先進的一個版本，具有頂級的即時跟蹤、視覺質量、圖像細節和輸出多樣性，面向專業用戶提供定制的企業解決方案。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1[pro]生成圖像示例

FLUX.1[dev]面向非商業應用，它從FLUX.1[pro]提煉而來，具有相似的質量和能力，同時比相同尺寸的標準模型更高效。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1[dev]生成圖像示例

FLUX.1[schnell]是三款模型中最快的，專為本地開發和個人使用而定制，并根據Apache 2.0標準許可公開提供。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1[schnell]生成圖像示例

FLUX.1現已在開源平臺Replicate上可用，只需一行代碼即可在云端運行，用戶也可以下載模型權重并以編程方式運行。FLUX.1的API也同步開放，三款模型的價格依次為每張圖片0.055美元、0.03美元、0.003美元（約合人民幣0.4元、0.22元、0.022元）。

二、擊敗MJ V6、DALL·E 3，技術報告即將發布

性能方面，FLUX.1經過特別微調，在預訓練中保留了整個輸出多樣性，在指令遵守、視覺質量、尺寸/長寬變化等多個方面樹立了新標準。

其中FLUX.1[pro]和[dev]兩款模型，在5項測評標準中都超過了Midjourney v6.0、DALL·E 3和SD3-Ultra等熱門模型。

FLUX.1[schnell]作為輕量級模型，不僅優于同類競爭對手，還優于Midjourney v6.0、DALL·E 3等強大的非蒸餾模型。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲FLUX.1性能與主流模型對比

此外，所有FLUX.1模型均支持0.1和2.0百萬像素的多種寬高比和分辨率。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲寬高比/分辨率變化

如此強大的性能是怎么做到的？

在模型架構上，FLUX.1采用基于多模態和并行擴散Transformer模塊的混合架構，并將其擴展到12B參數。

團隊通過建立流匹配（Flow Matching）來改進最先進的擴散模型，并通過結合旋轉位置嵌入（Rotary Position Embedding）和并行注意力層，來提高模型性能和硬件效率。更詳細的技術報告將在不久后發布。

三、SD原班人馬，2.25億種子輪，要發SOTA視頻模型

黑森林實驗室由Stable Diffusion的創始團隊成立，該團隊此前的工作還包括高質量圖像生成模型VQGAN、視頻生成模型Stable Video Diffusion等。

Stable Diffusion最初的5位作者中，4位曾加入Stability AI并持續開發SD后續版本的成員，包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser，都在黑森林實驗室的創始團隊中。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲Stable Diffusion作者、黑森林實驗室創始團隊

該團隊稱，其核心信念是開發廣泛可訪問的模型，促進研究界和學術界的創新和協作，并提高模型透明度。

黑森林實驗室宣布已完成3100萬美元（約合人民幣2.25億元）的種子輪融資，由知名風投機構a16z（Andreessen Horowitz）領投，VR制造商Oculus的CEO Brendan Iribe、創企孵化器YC的CEO陳嘉興（Garry Tan）、英偉達研究員Timo Aila等專家及AI公司跟投，還收到了來自General Catalyst等一線基金的后續投資。

該團隊的顧問委員會，包括在內容創作行業擁有豐富經驗的前迪士尼總裁Michael Ovitz，以及神經風格轉換的先驅Matthias Bethge教授。

剛剛創業的AI大神安德烈·卡帕西（Andrej Karpathy）為黑森林團隊送上祝福，并稱“開源的FLUX.1圖像生成模型看起來非常強大”。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲卡帕西評論

創始團隊的前領導——Stability AI前CEO埃馬德·莫斯塔克（Emad Mostaque）也發來賀電，還說“之前能與他們合作是我的榮幸，我相信他們會繼續在生成每一個像素的旅程中突破界限”。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲莫斯塔克評論

在下一步的工作上，黑森林預告將發布一款SOTA文生視頻模型，“讓所有人都能將文本轉為視頻”。該模型將建立在FLUX.1的基礎上，“以高清和前所未有的速度實現精確創作和編輯”。

最強開源文生圖模型一夜易主！SD原班人馬打造，要發SOTA視頻生成模型

▲視頻生成模型預告

結語：多模態大模型領域黑馬涌現

在眾多大廠、創企狂卷文生視頻之際，文生圖領域突然迎來黑馬。“橫空出世”的FLUX.1的不僅展現出卓越的性能，在文字生成、復雜構圖、人手描繪等方面突破難關，還以多樣化的版本滿足不同用戶的需求。

黑森林實驗室憑借著Stable Diffusion原班人馬的強大實力，獲得了豐厚的種子輪融資，也吸引了眾多行業大咖的關注與支持。其后續將發布的視頻模型，又將為文生視頻領域注入新的活力。

国产又黄又猛又粗又爽的A片,小祖宗┅┅快┅┅用力啊视频,国产精品麻豆欧美日韩ww,少妇精品无码一区二区免费视频,波多野结衣在线播放

一、擅長生成文字、人手，三種模型規模秒級生成

二、擊敗MJ V6、DALL·E 3，技術報告即將發布

三、SD原班人馬，2.25億種子輪，要發SOTA視頻模型

結語：多模態大模型領域黑馬涌現

相關推薦