智東西(公眾號:zhidxcom)
作者 |? 程茜
編輯 |? 李水青

智東西11月3日消息,今天,美團正式開源全模態模型LongCat-Flash-Omni,模型總參數量5600億,激活參數量270億。美團官方博客稱,LongCat-Flash-Omni是業界首個實現全模態覆(fu)蓋(gai)、端到端架構(gou)、大參數量高效推理于(yu)一體的(de)開源(yuan)大語言模型

LongCat-Flash-Omni中的“Omni”譯為“全能”,其在全模態基準(zhun)測(ce)試中達到開源SOTA,同時在文本、圖像、視頻理解及語音感知與生成等關鍵單模態任務中均有明顯優勢,實現“全模態不降(jiang)智”。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

LongCat-Flash-Omni基于LongCat-Flash構建,后者采用了高性能的Shortcut連接的混合專家(MoE)架構,并實現了零計算專家,LongCat-Flash-Omni集成了高效的多模態感知和語音重建模塊,支持128K tokens上(shang)下文窗口及超(chao)8分鐘音視頻交互

在預(yu)訓練(lian)階段,研究(jiu)人員收(shou)集了包含超過2.5萬億個(ge)詞元的(de)大規模(mo)、多樣化的(de)多模(mo)態語(yu)料(liao)庫(ku)用(yong)于預(yu)訓練(lian),同(tong)時采(cai)用(yong)漸進式訓練(lian)策略,逐步從簡單的(de)序列建(jian)模(mo)任(ren)務過渡(du)到更復雜的(de)序列建(jian)模(mo)任(ren)務。

這是9月1日以(yi)來,美團(tuan)正式(shi)發(fa)布LongCat-Flash系列后的第三款模(mo)型(xing),此前其已開源LongCat-Flash-Chat和LongCat-Flash-Thinking兩大版本。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

值得一提的是,今天美團LongCat官方App開啟公測,目前支持聯網搜索,還可以發起語音通話,視頻通話功(gong)能后續(xu)上線。LongCat-Flash-Omni目前(qian)可(ke)以(yi)在網頁版和App端體驗音頻交互功能。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

▲LongCat官(guan)(guan)方App首頁(ye)(左(zuo))、LongCat官(guan)(guan)方App音(yin)頻通話(右(you))

據LongCat官(guan)方(fang)交(jiao)流群(qun)中(zhong)的(de)官(guan)方(fang)透露,目前(qian)LongCat的(de)文本端(duan)模(mo)型是longcat-flash,當有多模(mo)態(tai)輸入,比如圖(tu)片和(he)PDF內(nei)容時,會自動(dong)調用omni模(mo)型。不過智東西體(ti)驗時發現,在LongCat中(zhong)上傳.jpg格式圖(tu)片時一(yi)直顯示上傳錯誤(wu)。今天中(zhong)午,官(guan)方(fang)還修復(fu)了(le)一(yi)波(bo)安卓(zhuo)端(duan)聯網搜索相(xiang)關問題,需要安卓(zhuo)用戶(hu)卸載重裝。

Hugging Face:

GitHub:

體驗地(di)址://longcat.chat/

一、視覺、音頻、文本理解生成,拿下多項開源SOTA

研究人員將LongCat-Flash-Omni與各種閉源和開源的多模態(tai)模型(xing)進行比較,包括(kuo)視(shi)覺理解、音頻理解、文本(ben)理解和生成、跨模態(tai)理解以及視(shi)聽(ting)交互。其將LongCat-Flash-Omni與Gemini-2.5-Pro、GPT4o、Seed-1.6和Qwen3-Omni和視(shi)覺語言模型(xing)Qwen3-VL、Qwen2.5-VL-72B等進行了比較。

圖像(xiang)轉(zhuan)文本方面,總體(ti)而言,LongCat-Flash-Omni的性能(neng)與Gemini-2.5-Flash相當,并(bing)且優(you)于開源的Qwen3-Omni,其優(you)勢在(zai)多(duo)圖像(xiang)任務上尤(you)為顯著。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

視頻(pin)轉(zhuan)文本(ben)方面,LongCat-Flash-Omni在視頻(pin)轉(zhuan)文本(ben)任務上取得了最先(xian)進的(de)性能。具體而言(yan),它(ta)在短視(shi)(shi)頻理解方面顯(xian)著優(you)于所有對比模(mo)型,在長視(shi)(shi)頻任務上,LongCat-Flash-Omni的性能(neng)與(yu)Gemini-2.5-Pro和Qwen3-VL等模(mo)型不相(xiang)上下(xia)。在VideoMME基準測試中,它(ta)在全模(mo)態(tai)模(mo)型中取得了最佳性能(neng)。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

音頻能力中,研究人員主要評估了自動語(yu)音識別(bie)(ASR)、文(wen)本轉(zhuan)語(yu)音(TTS)和語(yu)音延續。

基礎模型在預訓練階段的ASR和TTS性能結果顯示,不同(tong)階段(duan)的(de)基礎模型在上下(xia)文語音延(yan)續評估中表現良好(hao),文本輸(shu)(shu)出和語音輸(shu)(shu)出之間的性能差異可(ke)以(yi)忽(hu)略不計。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

在語音識別和(he)翻(fan)譯(yi)(yi)、音頻(pin)理解、語音轉文(wen)本(ben)能力中(zhong)(zhong)(zhong),在所有(you)模型中(zhong)(zhong)(zhong),LongCat-Flash-Omni的(de)語音識別與(yu)翻(fan)譯(yi)(yi)測(ce)試(shi)(shi)集(ji)S2TT中(zhong)(zhong)(zhong)表(biao)現最好最強;LongCat-Flash-Omni在沒有(you)視(shi)覺輸入的(de)情況(kuang)下,能夠有(you)效地(di)作(zuo)為原(yuan)生音頻(pin)理解模型運(yun)行;在語音轉文(wen)本(ben)測(ce)試(shi)(shi)集(ji)中(zhong)(zhong)(zhong),LongCat-Flash-Omni在所有(you)基準測(ce)試(shi)(shi)子(zi)集(ji)中(zhong)(zhong)(zhong)均表(biao)現出色,并在多個案例(li)中(zhong)(zhong)(zhong)達到了最先(xian)進的(de)水平(ping)。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

此外,LongCat-Flash-Omni還引入了(le)高級跨模態(tai)理解(jie)和類人語音(yin)交互(hu)功(gong)能,能夠處理跨模態(tai)輸入。

評估結果顯示,LongCat-Flash-Omni的性能優于(yu)Gemini-2.5-Flash-non-thinking,并達到了(le)與 Gemini-2.5-Pro-ThinkingBudget128相當的水平

在強調真實(shi)世界音視頻理解的(de)WorldSense和DailyOmni測試中(zhong)(zhong),LongCat-Flash-Omni超越了(le)其他(ta)開源(yuan)全(quan)模(mo)態模(mo)型。在評估跨模(mo)態感知和推理能力(li)的(de)UNO-Bench測試中(zhong)(zhong),LongCat-Flash-Omni在開源(yuan)全(quan)模(mo)態模(mo)型中(zhong)(zhong)也表(biao)現(xian)出色(se)。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

實時音視頻交互的評估結果顯示,LongCat-Flash-Omni在(zai)端到端交互的自然(ran)度和流暢(chang)度方面得分排名第三。與(yu)音視頻交互產品相比,LongCat-Flash-Omni的(de)排名低于(yu)豆包和GPT-4o,但優于(yu)科大訊飛星火和StepFun。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

值得注意的是,LongCat-Flash-Omni在開源替代方案中得分比目前最先進的開源模型Qwen3-omni高出0.56分

目(mu)前,LongCat支持(chi)音頻通(tong)話10分鐘,且響應很快,智東西讓其“講一個(ge)睡前小故事”,LongCat就實(shi)時生成并(bing)進行了講述。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

二、劍指全模態大模型訓練四大挑戰,美團提出四大創新技術思路

訓練既具備強大的(de)(de)(de)離線(xian)多模態理解能(neng)力(li)又具備實時(shi)音視頻交互能(neng)力(li)的(de)(de)(de)全模態模型的(de)(de)(de)挑戰性在于:

跨(kua)模態異構性指(zhi)的(de)是,不同模(mo)(mo)態(tai)(tai)之間存(cun)在顯著差異(yi),因(yin)此需(xu)要探索有效的(de)統一(yi)表征(zheng)和融合策(ce)略,以實現跨模(mo)(mo)態(tai)(tai)的(de)協同作(zuo)用,確(que)保任(ren)何單(dan)一(yi)模(mo)(mo)態(tai)(tai)的(de)性能都(dou)不會(hui)低于同等規模(mo)(mo)的(de)單(dan)模(mo)(mo)態(tai)(tai)對應模(mo)(mo)態(tai)(tai)。

統一(yi)的離線和流媒體能力,將離(li)線多模態理(li)(li)(li)解與流媒體(ti)音視頻交互相(xiang)結合是一(yi)項重大挑戰,流媒體(ti)交互場(chang)景需(xu)要一(yi)些離(li)線處理(li)(li)(li)通常不(bu)具(ju)備(bei)的獨(du)特能力,例如感知相(xiang)對時間(jian)、精確(que)同步音視頻信息(xi)以及(ji)高效管理(li)(li)(li)多輪交互上(shang)下文。

實(shi)現實(shi)時音(yin)視(shi)頻交(jiao)互(hu)本身就存(cun)在諸多難點(dian),包括需(xu)要(yao)同時支持流媒體音(yin)頻和(he)視(shi)頻輸入(ru)以及流媒體語音(yin)輸出,嚴格的(de)低(di)延(yan)遲要(yao)求(qiu)(qiu)進一步(bu)對(dui)計算(suan)效率(lv)提出了(le)嚴格的(de)限制,從(cong)而對(dui)模型架構設計和(he)部署基礎設施都(dou)提出了(le)很高的(de)要(yao)求(qiu)(qiu)。

訓(xun)練(lian)效率挑戰(zhan),模型和(he)數據的異構性給分(fen)布(bu)式(shi)策略(lve)的設(she)計帶來(lai)巨大(da)挑戰。

為克服第一個挑戰,研究人員設計了一個多階段(duan)大規(gui)模(mo)預(yu)訓練流程。基(ji)于早期文本預(yu)訓練基(ji)礎模(mo)(mo)型,他(ta)們(men)逐(zhu)步將(jiang)音(yin)頻和視頻數(shu)據融(rong)(rong)入大規模(mo)(mo)預(yu)訓練過程,采用均衡的(de)多模(mo)(mo)態數(shu)據混(hun)合和有(you)效的(de)早期融(rong)(rong)合策略,使(shi)得該模(mo)(mo)型在保持(chi)強(qiang)大單模(mo)(mo)態性能的(de)同(tong)時,實現(xian)跨模(mo)(mo)態的(de)深度(du)融(rong)(rong)合理解。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

▲LongCat-Flash-Omni模型架構概覽

為了應對平衡離線多模態理解與實時音視頻交互的第二個挑戰,研究人員引入一種人機協(xie)同策略來構建高質量(liang)的交(jiao)互(hu)數據,并(bing)考慮到(dao)長(chang)期記(ji)憶和多輪對(dui)話的(de)處(chu)理。此外,其從現有的(de)視覺文本語(yu)料庫中(zhong)提取視覺語(yu)音(yin)(yin)問答數據,從而實現自然語(yu)音(yin)(yin)輸(shu)出(chu),有助于將(jiang)強大的(de)離線多模態理解(jie)能力遷移到(dao)交互場景中(zhong)。

對于第三個挑戰,研究人員采用ScMoE架構,并(bing)以LongCat-Flash的(de)零計(ji)算專家(jia)作(zuo)為大模型骨干。為了處理流式輸(shu)入,其采用高效的(de)音頻(pin)和視頻(pin)編碼器進行特征提取(qu),并(bing)引入同步分(fen)塊(kuai)交錯策(ce)略(lve)以實(shi)現實(shi)時處理。

對于第四個挑戰,研究人員進行了大規模全模態(tai)分布式訓練,其提(ti)出一種模(mo)態解(jie)耦并行(MDP)策(ce)略(lve)。該方法能(neng)(neng)夠獨立優化大模(mo)型(xing)、視(shi)覺編(bian)碼器和音頻編(bian)碼器的性能(neng)(neng)和內存使用情況。

實驗結果表明了該策略的有效性,其系統能夠保持純文本訓練(lian)吞吐量(liang)的90%以上

三、采用五階段漸進式訓練策略,借鑒LongCat-Flash訓練基礎設施

LongCat-Flash-Omni是一(yi)個端到端全模(mo)態模(mo)型,可(ke)以(yi)接(jie)收多(duo)種模(mo)態的輸入,包括文本、音頻(pin)、圖像、視頻(pin)及其(qi)任(ren)意組合,并能夠直接(jie)從大模(mo)型主干網生成語音token。

該模型采用(yong)視(shi)覺編碼(ma)器和音(yin)頻編碼(ma)器作為多模態感知器,大(da)模型處理多模態輸入(ru)并生成文本和音(yin)頻token,音(yin)頻解碼(ma)器從(cong)大(da)模型生成的(de)語(yu)音(yin)token中重(zhong)構波形,從(cong)而(er)實現自然的(de)語(yu)音(yin)交互。其中,音(yin)頻編碼(ma)器、視(shi)覺編碼(ma)器和音(yin)頻解碼(ma)器均為輕(qing)量(liang)級(ji)組(zu)件,每個組(zu)件的(de)參數量(liang)約為6億個。

預(yu)訓練階段,數(shu)據整理(li)方(fang)面,研(yan)究人員收(shou)集了包含超過2.5萬(wan)億(yi)個詞元(yuan)的大規模(mo)、多(duo)樣化的多(duo)模(mo)態(tai)語料(liao)庫用于預訓練。該預訓練語料(liao)庫由(you)音頻(pin)數(shu)據、通用圖像(xiang)-文本數(shu)據、視頻(pin)數(shu)據、OCR、長上下文多(duo)模(mo)態(tai)數(shu)據等部分組成。

訓練全模態模型最根本的挑戰之一在于不同模態間數據分布的顯著異質性,面對這一挑戰,研究人員采用了一種漸進式訓練策略,該策略逐步從簡單的序列建(jian)(jian)模(mo)(mo)任(ren)務過渡到(dao)更復雜的序列建(jian)(jian)模(mo)(mo)任(ren)務。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

▲訓練策略

研究人(ren)員首先進行(xing)大規(gui)模(mo)文本預(yu)訓(xun)練(階段0),在此基礎上(shang)引入(ru)結構上(shang)更接近文本的語(yu)(yu)(yu)音(yin)數(shu)據,以(yi)將(jiang)聲學表征與(yu)語(yu)(yu)(yu)言模(mo)型(xing)的特(te)征空(kong)間對齊(qi),并有效地整合副語(yu)(yu)(yu)言信息(階段1),語(yu)(yu)(yu)音(yin)-文本對齊(qi)完(wan)成后,其引入(ru)大規(gui)模(mo)圖(tu)像-描述對和視(shi)覺-語(yu)(yu)(yu)言交錯語(yu)(yu)(yu)料庫(階段2),以(yi)實現視(shi)覺-語(yu)(yu)(yu)言對齊(qi),從而豐富模(mo)型(xing)的視(shi)覺知識(shi)。

美團王興狂卷大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App

▲預訓練階段1示意圖(tu)

然后,研(yan)究人(ren)員會引入最復雜的(de)視(shi)頻數據(ju)以(yi)實現時空推(tui)理(階段(duan)3),同(tong)時整合更高質量(liang)、更多樣化的(de)圖像數據(ju)集,以(yi)增(zeng)強(qiang)視(shi)覺理解能力。為了進一步支持長(chang)上(shang)下文(wen)推(tui)理和多輪交互,其(qi)將(jiang)模型的(de)上(shang)下文(wen)窗口從8K個(ge)詞(ci)元擴(kuo)展到(dao)128K個(ge)詞(ci)元(階段(duan)4)。

最后,為了(le)減少離散語音(yin)詞(ci)元表示的音(yin)頻輸入(ru)的信息損失(shi),他(ta)們(men)引(yin)入(ru)了(le)一(yi)個音(yin)頻編碼器對齊階段(階段5),使模(mo)型能夠直接處理連續的音(yin)頻特征,從而提(ti)高下游(you)語音(yin)任務的保真(zhen)度。

在訓練后階段包含兩個組成部分:監督式(shi)微調、強化學習

監督微調(diao)通過高(gao)質量且多樣(yang)化的指令數(shu)據賦予(yu)模(mo)型多模(mo)態指令遵循、推(tui)理和語音交(jiao)互(hu)能力(li);強化學習通過直(zhi)接(jie)偏好優化(DPO)進一(yi)(yi)(yi)步增強模(mo)型的行(xing)為(wei)一(yi)(yi)(yi)致性、連貫性和一(yi)(yi)(yi)致性。

在基(ji)礎設施(shi)方面,LongCat-Flash-Omni的(de)(de)(de)核心設計原則借鑒了(le)LongCat-Flash開發過程中使用的(de)(de)(de)訓練基(ji)礎設施(shi),為了(le)保證數值一致性,研究人員強制執行確定(ding)(ding)性、最(zui)小化誤(wu)差(cha)并保持誤(wu)差(cha)的(de)(de)(de)可解釋性,從而確保每次(ci)訓練運行都具有確定(ding)(ding)性和可復現(xian)性。為了(le)提高效率,他們將大(da)模型、視覺編(bian)(bian)碼(ma)(ma)器和音頻編(bian)(bian)碼(ma)(ma)器的(de)(de)(de)各(ge)個組(zu)件解耦,從而可以獨立優化它們的(de)(de)(de)性能和內存使用情況(kuang)。

實驗結果表明,在多模態環境下,他們的(de)系(xi)統能夠保持純文本(ben)訓(xun)練90%以(yi)上的(de)吞吐(tu)量(liang)。

推理與部署(shu)時,研究人員提出解(jie)耦的多模(mo)態推理框架,該框架將特定模(mo)態的編碼器/解(jie)碼器與層級(ji)模(mo)型分離,以實現優(you)化部署(shu)。每個模(mo)塊(kuai)都部署(shu)在與其計算特性相匹(pi)配的專用硬(ying)件和加速器上,從而緩(huan)解(jie)跨模(mo)態資源爭用。

其還采(cai)用異步流(liu)式模型(xing)服務管(guan)道,每個模塊(kuai)都支(zhi)持流(liu)式輸入(ru)的增(zeng)量推理(li)和自適應批處理(li)策略,從(cong)而實現并(bing)發調度以降低延遲。

結語:未來要探索更豐富的具身智能交互形式

大量評估(gu)表(biao)明,LongCat-Flash-Omni不(bu)僅在Omni-Bench和(he)WorldSense等全模態(tai)基(ji)準測試中取得(de)了(le)最先(xian)進的(de)性(xing)能(neng),而且在圖(tu)像(xiang)和(he)視頻理(li)解(jie)(jie)以及音頻理(li)解(jie)(jie)等關(guan)鍵單模態(tai)任務中,其(qi)性(xing)能(neng)也與閉源系統(tong)持(chi)平甚至更優。此(ci)外(wai),主(zhu)觀(guan)評估(gu)證(zheng)實了(le)該模型能(neng)夠(gou)提(ti)供自(zi)然、低(di)延(yan)遲(chi)、高質量的(de)交互(hu)體驗,凸顯了(le)其(qi)作為下一代人(ren)機交互(hu)界(jie)面基(ji)礎的(de)巨大潛力。

研究人員提(ti)到,基于LongCat-Flash-Omni,他們未來的(de)(de)工(gong)作將著(zhu)重(zhong)于擴展(zhan)訓練數據的(de)(de)多樣性和(he)規模(mo)、整(zheng)合(he)自適應(ying)思維模(mo)式、完(wan)善流式傳輸(shu)和(he)生(sheng)成能(neng)力,并探索更豐富的(de)(de)具身智能(neng)和(he)交互(hu)智能(neng)形式。他們相(xiang)信,LongCat-Flash-Omni的(de)(de)發(fa)布不僅將加速(su)多模(mo)態(tai)理(li)解和(he)生(sheng)成的(de)(de)研究,還將啟發(fa)構建以(yi)人為本(ben)、面向通用人工(gong)智能(neng)系統的(de)(de)新(xin)應(ying)用和(he)新(xin)范式。